您有新信

 
一些说明
#1
ray
发信站: 狮子吼站 (Lion , 信区: BudaTech)
大家好,很少在这个版上发言,刚刚回顾了一下这版过去的一些POST
有些话想和大家说。

Huiqun网友提出的造字中心的构想,我很早就想做了,但考虑
到如果以佛光山的名义发起设立,可能会造成佛光山要「统一」各家
的不良印像而引起排斥,所以内心一直对这个问题回避,不想多谈,
但日前接获上层指示,决定要将所有的藏经类出版品,全数制成光碟
及网路版本,在这种情形之下,资讯部门相关人员面临了极大的压力,
不得不正视存在已久缺字的问题。另一方面是佛光山网站的站务,
已渐上轨道,我也有比较充裕的时间和精力来从事电子佛典的工作,
於是找了几位教界的好朋友,成立一个工作小组,是为OPEN 98的开
发缘起。

根据目前比较方便取得的三套造字档:佛光大辞典所付的、中研院的
BUDAFONT及资功会金刚经中的造字档,(以下简称「佛光版」「中研版」
及「资功版」)其中「佛光版」可说是活的版本,因为在我撰写及您阅读
本文时,随著总本山编修大藏的进行,「佛光版」不断有新的缺字被加入,
我手头上最新的版本是今年12月2日,计有2600馀个造字,此外,我们
还有一份信徒资料库系统用的人名地名缺字的造字档,也有近600馀字,
所以,「佛光版」本身就有很多个版本。而中研院除了德明外,并没有
编制专人来帮大家造字,所以造字中心的理想,我想德明是很想发心
,可是囿於现实环境和时间一直未能做出承诺。

为此,我们小组决定聘请专人来负责造字,是支薪的,所以就没有
发心与不发心的问题,一但有新字,他就一定要造。这样一来,我也
比较安心了。

还我几件事想和大家说明一下:

1)目前真有实际能用的造换档转换工具吗?如果没有,只要自己来发展一个,
我稍微想了一下,关键是要能辨别字串中的特定字是Big5中文文还是前一个
中文字的ending byte加後一个中文字的Leading byte 所形成的"虚"字(不
会显示出来),不会太难也不太容易,但我肯定我半天之内做不出来(否则
早就有了)。

2)我希望有人可以帮忙参与我们的工作,不是我们自己做不出来,而是因为有
大众的帮忙,最终的成品(软体、字库、资讯表、相关工具)才有希望成为
 Public domain。

3)Huiqun兄在Access 上完成了一些初步的成果,我觉得蛮不错,可惜最近一
直连络不上他,有机会□到他的朋友请转告他:谢谢。

4)佛光山及妙云兰若如今决定正式大规模地投注资源在电子佛典方面,
这是难得的好因缘,希望大家好好珍惜,在不违背僧团利益的情形下尽
可能提供帮助,也希望大家用同等的心来支持我们。

本工作小组的网址在 http://210.61.183.71 欢迎大家来访赐教。

释慧瑞
Sat Dec 27 18:30:46 1997
回覆 | 转寄 | 返回

Re: 一些说明
#2
Heaven
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於 ray (huiray@Lion) 文中述及:
: Huiqun网友提出的造字中心的构想,我很早就想做了,但考虑
: 到如果以佛光山的名义发起设立,可能会造成佛光山要「统一」各家
: 的不良印像而引起排斥,所以内心一直对这个问题回避,不想多谈,

  法师千万不要顾虑到这一方面. 总是有某一个东西会统一各家,
  但统一的原因不是因为它是中研院或佛光山就能纯一, 若是 maha
  或是某某, 就无法纯一, 而是它是真的好用, 对大家有实用的价值.
  自然会有人去用. 因此建议和大家取得基本共识後, 就放手去做,
  我想没有人会因为是佛光山做的就委屈被统一, 更不会是因为佛光
  山做的就不肯使用. :p

  若真有别有用的人士.... 那实在是他们的事了.

: 根据目前比较方便取得的三套造字档:佛光大辞典所付的、中研院的
: BUDAFONT及资功会金刚经中的造字档,(以下简称「佛光版」「中研版」
: 及「资功版」)其中「佛光版」可说是活的版本,因为在我撰写及您阅读

  个人觉得先协调好诸大家, 再进行会比较好, 而且这一定是大家乐於见到
  的. 小弟总是担心每个人都正在做好东西, 到时大家都做的不错, 又各有
  优点, 反而可惜. 总希望大家将优点想好, 再一起动手努力.

  heaven
Sun Dec 28 11:08:09 1997
回覆 | 转寄 | 返回

Re: 一些说明
#3
Heaven
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於 ray (huiray@Lion) 文中述及:
: 还我几件事想和大家说明一下:
: 1)目前真有实际能用的造换档转换工具吗?如果没有,只要自己来发展一个,
: 我稍微想了一下,关键是要能辨别字串中的特定字是Big5中文文还是前一个
: 中文字的ending byte加後一个中文字的Leading byte 所形成的"虚"字(不
: 会显示出来),不会太难也不太容易,但我肯定我半天之内做不出来(否则
: 早就有了)。

  在这方面後学以前有一些粗糙的经验, 供各位参考!
  1.整篇文章从第一个字元开始寻找.
  2.若字元大於 128 , 则此字元及下一个字元属於中文. 检查此中文是否是需要的.
  3.若是小於 128 , 以英文及符号看待. (包括换行码)
  4.处理完这个中文或英文, 再换下一个字.

  後学写的很简略, 但有处理过的人应该很容易了解, 我在中文上的处理都是
  这样做. 但有些事要注意:

  1.上述判断中文的方法很简略 (大於 128 就算) . 但有较精确的判断 big5 法.
  2.若要转换的档案非纯文字, 如佛光大辞典的 .dat 档, 因为有些档中有控制
    码或索引符号, 则要看看是否大於 128 , 及是否会和中文判断相冲, 这就要
    看到档案才知道了. 若是文字档, 则上述方法应可以用.

: 2)我希望有人可以帮忙参与我们的工作,不是我们自己做不出来,而是因为有
: 大众的帮忙,最终的成品(软体、字库、资讯表、相关工具)才有希望成为
:  Public domain。

  若有需要, 可在此版上提, 後学已在此版获益良多, 大家都是很热心的.

: 3)Huiqun兄在Access 上完成了一些初步的成果,我觉得蛮不错,可惜最近一
: 直连络不上他,有机会□到他的朋友请转告他:谢谢。

  他有改过 email , huiqun@ms14.hinet.net
  後学会代转此信给他.

: 4)佛光山及妙云兰若如今决定正式大规模地投注资源在电子佛典方面,
: 这是难得的好因缘,希望大家好好珍惜,在不违背僧团利益的情形下尽
: 可能提供帮助,也希望大家用同等的心来支持我们。
: 本工作小组的网址在 http://210.61.183.71 欢迎大家来访赐教。

  相信不少人看到了, 实在是大家的福份. 望现在佛子珍惜!

  heaven
Sun Dec 28 11:19:22 1997
回覆 | 转寄 | 返回

Re: 一些说明
#4
邱大刚
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於 Heaven (Heavenchow@Lion) 文中述及:
:   2.若字元大於 128 , 则此字元及下一个字元属於中文. 检查此中文是否是需要的.
:   3.若是小於 128 , 以英文及符号看待. (包括换行码)
:   4.处理完这个中文或英文, 再换下一个字.

    这□我个人有些小经验, 或许可以提升搜寻速率(如果要搜寻
的文件相当多, 而使用的程式语言较高阶的话):

    "可试著先不管中英文, 全部用英文的搜寻方式. 找出的结果再以中文
     filter 来除去误判的即可. "

    另外, 对於较短篇的比对(所以佛典搜寻的 case 或许不适用),
有时若使用较高阶的语言(ex: Perl), 或许可先将所有的中文字间以空
白隔开, 然後再以空白为字元的间隔单位. 这个好处是英文及中文的比对
可一次解决掉, 而且是依照中英的相对顺序. 不过效率如何我没有仔细评
估过, 仅供参考.

    附带一提的是, 在单教授以前发展的 cgrep 上, 有 "换行搜寻" 的
功能. 例如说以下文件:
"观自在菩萨行深般
 若波罗蜜多时照见"
    要找出 "般若" 的话, 就必须具有换行搜寻的功能(这在 maha
的测试也有指出), 因此可以考虑未来加入此一功能(据我所知,
单教授 cgrep 的作法好像是 define 一个某大小的 buffer, 能将
前一行的最後面 n 个字元和这一行接起来, 一同进行比对?)

谢谢!!
--
□□□□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
             幻                  阳焰          化城    水月
           浮泡                   眼花               旋火轮
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ □□□□□
 
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.135]
Sun Dec 28 12:46:54 1997
回覆 | 转寄 | 返回

Re: 一些说明
#5
ray
发信站: 狮子吼站 (Lion , 信区: BudaTech)
谢谢大刚的回覆,OPEN 98 目前已可以折行检索
是用token的方法,即把/n 与空白当作空字元
自动略过不检,因为当初就有考虑到
<> 内的东西不检索(以便和HTML相容)
所以在maha 兄提出这个问题之後,大约
只花了10分钟就把折行检索做好,
事实上只要把 \n 字元加入要略过的token 串列就可以了。
研发部
Sun Dec 28 14:07:08 1997
回覆 | 转寄 | 返回

Re: 一些说明
#6
Post Gateway
发信站: 由 狮子吼站 收信 (cbs.ntu.edu.tw , 信区: BudaTech)
寄件人: dnstudio@m2.dj.net.tw [=InterNet E-mail=]

邱大刚 写道:
> 
> ==> 於 Heaven (Heavenchow@Lion) 文中述及:
> :   2.若字元大於 128 , 则此字元及下一个字元属於中文. 检查此中文是否是需要的.
> :   3.若是小於 128 , 以英文及符号看待. (包括换行码)
> :   4.处理完这个中文或英文, 再换下一个字.
> 
>     这□我个人有些小经验, 或许可以提升搜寻速率(如果要搜寻
> 的文件相当多, 而使用的程式语言较高阶的话):
> 
>     "可试著先不管中英文, 全部用英文的搜寻方式. 找出的结果再以中文
>      filter 来除去误判的即可. "
> 
这是 cbs 上的做法?
真要提高速度, 则须要建立 index table, 而且利用如 hashing table 的
资料结构, search 时先 search 此 table 再根据其 index 找到 which file
which line in the file, the string position within the line.

>     另外, 对於较短篇的比对(所以佛典搜寻□case 或许不适用),
> 有时若使用较高阶的语言(ex: Perl), 或许可先将所有的中文字间以空
> 白隔开, 然後再以空白为字元的间隔单位. 这个好处是英文及中文的比对
> 可一次解决掉, 而且是依照中英的相对顺序. 不过效率如何我没有仔细评
> 估过, 仅供参考.
> 
如果用的是英文版的 search engine, 被 search 的中文file用这个处理
应是个好方法(如早期的 netscape 显示中文的问题), 如果自己写程式,
还是用 128 来区别就可以了, 不过其他的 string manupitation 就
都可能自己要动手写了.

>     附带一提的是, 在单教授以前发展的 cgrep 上, 有 "换行搜寻" 的
> 功能. 例如说以下文件:
> "观自在菩萨行深般
>  若波罗蜜多时照见"
>     要找出 "般若" 的话, 就必须具有换行搜寻的功能(这在 maha
> 的测试也有指出), 因此可以考虑未来加入此一功能(据我所知,
> 单教授 cgrep 的作法好像是 define 一个某大小的 buffer, 能将
> 前一行的最後面 n 个字元和这一行接起来, 一同进行比对?)
> 
末学上个月发表的 fts (中文全文检索程式)也做了 "换行搜寻"的功能,
不过是用前一行的尾与後一行的头来控制, 当初思考的时间不少但最後的
algorithm 却不是很复杂.

ps: fts 在如来网上面 http://www.dharma.org.tw/tool/fts95.zip
Wed Dec 31 12:52:31 1997
回覆 | 转寄 | 返回

Re: 一些说明
#7
邱大刚
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於  (dnstudio@m2.dj.net.tw) 文中述及:
: >     "可试著先不管中英文, 全部用英文的搜寻方式. 找出的结果再以中文
: >      filter 来除去误判的即可. "
: 这是 ccbs 上的做法?

    不是 :) ccbs 是用单教授发展的 cgrep, 核心就是中文的 grep 程式。
小弟讲的是应急的偷吃步 :) (其实用这种偷吃步效率不见得较差,或许
在有的程式语言写起来还快许多喔 :))

: 真要提高速度, 则须要建立 index table, 而且利用如 hashing table 的
: 资料结构, search 时先 search 此 table 再根据其 index 找到 which file
: which line in the file, the string position within the line.

    嗯! 这就是您们专业人员的方式了 :)


谢谢!!
--

悠哉贤故友, 抱道乐林泉, 坐到无疑地, 参穷有象天.
胸中消块垒, 笔底走云烟, 更笑忘机鸟, 常窥定後禅.
                                    ~访古月师.娥嵋道人

☆欢迎光临:
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 140.112.8.224]
Wed Dec 31 20:54:45 1997
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org