看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1096/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: Heavenchow@Lion (Heaven), 信区: BudaTech
标  题: Re: 一些说明
发信站: 狮子吼站 (Sun Dec 28 11:19:22 1997)
转信站: Lion

==> 於 ray (huiray@Lion) 文中述及:
: 还我几件事想和大家说明一下:
: 1)目前真有实际能用的造换档转换工具吗?如果没有,只要自己来发展一个,
: 我稍微想了一下,关键是要能辨别字串中的特定字是Big5中文文还是前一个
: 中文字的ending byte加後一个中文字的Leading byte 所形成的"虚"字(不
: 会显示出来),不会太难也不太容易,但我肯定我半天之内做不出来(否则
: 早就有了)。

  在这方面後学以前有一些粗糙的经验, 供各位参考!
  1.整篇文章从第一个字元开始寻找.
  2.若字元大於 128 , 则此字元及下一个字元属於中文. 检查此中文是否是需要的.
  3.若是小於 128 , 以英文及符号看待. (包括换行码)
  4.处理完这个中文或英文, 再换下一个字.

  後学写的很简略, 但有处理过的人应该很容易了解, 我在中文上的处理都是
  这样做. 但有些事要注意:

  1.上述判断中文的方法很简略 (大於 128 就算) . 但有较精确的判断 big5 法.
  2.若要转换的档案非纯文字, 如佛光大辞典的 .dat 档, 因为有些档中有控制
    码或索引符号, 则要看看是否大於 128 , 及是否会和中文判断相冲, 这就要
    看到档案才知道了. 若是文字档, 则上述方法应可以用.

: 2)我希望有人可以帮忙参与我们的工作,不是我们自己做不出来,而是因为有
: 大众的帮忙,最终的成品(软体、字库、资讯表、相关工具)才有希望成为
:  Public domain。

  若有需要, 可在此版上提, 後学已在此版获益良多, 大家都是很热心的.

: 3)Huiqun兄在Access 上完成了一些初步的成果,我觉得蛮不错,可惜最近一
: 直连络不上他,有机会□到他的朋友请转告他:谢谢。

  他有改过 email , huiqun@ms14.hinet.net
  後学会代转此信给他.

: 4)佛光山及妙云兰若如今决定正式大规模地投注资源在电子佛典方面,
: 这是难得的好因缘,希望大家好好珍惜,在不违背僧团利益的情形下尽
: 可能提供帮助,也希望大家用同等的心来支持我们。
: 本工作小组的网址在 http://210.61.183.71 欢迎大家来访赐教。

  相信不少人看到了, 实在是大家的福份. 望现在佛子珍惜!

  heaven
--
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.61.172]
阅读文章: 第 1096/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org