看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1096/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: Heavenchow@Lion (Heaven), 信区: BudaTech 标 题: Re: 一些说明 发信站: 狮子吼站 (Sun Dec 28 11:19:22 1997) 转信站: Lion ==> 於 ray (huiray@Lion) 文中述及: : 还我几件事想和大家说明一下: : 1)目前真有实际能用的造换档转换工具吗?如果没有,只要自己来发展一个, : 我稍微想了一下,关键是要能辨别字串中的特定字是Big5中文文还是前一个 : 中文字的ending byte加後一个中文字的Leading byte 所形成的"虚"字(不 : 会显示出来),不会太难也不太容易,但我肯定我半天之内做不出来(否则 : 早就有了)。 在这方面後学以前有一些粗糙的经验, 供各位参考! 1.整篇文章从第一个字元开始寻找. 2.若字元大於 128 , 则此字元及下一个字元属於中文. 检查此中文是否是需要的. 3.若是小於 128 , 以英文及符号看待. (包括换行码) 4.处理完这个中文或英文, 再换下一个字. 後学写的很简略, 但有处理过的人应该很容易了解, 我在中文上的处理都是 这样做. 但有些事要注意: 1.上述判断中文的方法很简略 (大於 128 就算) . 但有较精确的判断 big5 法. 2.若要转换的档案非纯文字, 如佛光大辞典的 .dat 档, 因为有些档中有控制 码或索引符号, 则要看看是否大於 128 , 及是否会和中文判断相冲, 这就要 看到档案才知道了. 若是文字档, 则上述方法应可以用. : 2)我希望有人可以帮忙参与我们的工作,不是我们自己做不出来,而是因为有 : 大众的帮忙,最终的成品(软体、字库、资讯表、相关工具)才有希望成为 : Public domain。 若有需要, 可在此版上提, 後学已在此版获益良多, 大家都是很热心的. : 3)Huiqun兄在Access 上完成了一些初步的成果,我觉得蛮不错,可惜最近一 : 直连络不上他,有机会□到他的朋友请转告他:谢谢。 他有改过 email , huiqun@ms14.hinet.net 後学会代转此信给他. : 4)佛光山及妙云兰若如今决定正式大规模地投注资源在电子佛典方面, : 这是难得的好因缘,希望大家好好珍惜,在不违背僧团利益的情形下尽 : 可能提供帮助,也希望大家用同等的心来支持我们。 : 本工作小组的网址在 http://210.61.183.71 欢迎大家来访赐教。 相信不少人看到了, 实在是大家的福份. 望现在佛子珍惜! heaven -- Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.61.172] |
阅读文章: 第 1096/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |