看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: DavidChiou@Lion (邱大刚), 信区: BudaTech
标  题: Re: 一些说明
发信站: 狮子吼站 (Sun Dec 28 12:46:54 1997)
转信站: Lion

==> 於 Heaven (Heavenchow@Lion) 文中述及:
:   2.若字元大於 128 , 则此字元及下一个字元属於中文. 检查此中文是否是需要的.
:   3.若是小於 128 , 以英文及符号看待. (包括换行码)
:   4.处理完这个中文或英文, 再换下一个字.

    这□我个人有些小经验, 或许可以提升搜寻速率(如果要搜寻
的文件相当多, 而使用的程式语言较高阶的话):

    "可试著先不管中英文, 全部用英文的搜寻方式. 找出的结果再以中文
     filter 来除去误判的即可. "

    另外, 对於较短篇的比对(所以佛典搜寻的 case 或许不适用),
有时若使用较高阶的语言(ex: Perl), 或许可先将所有的中文字间以空
白隔开, 然後再以空白为字元的间隔单位. 这个好处是英文及中文的比对
可一次解决掉, 而且是依照中英的相对顺序. 不过效率如何我没有仔细评
估过, 仅供参考.

    附带一提的是, 在单教授以前发展的 cgrep 上, 有 "换行搜寻" 的
功能. 例如说以下文件:
"观自在菩萨行深般
 若波罗蜜多时照见"
    要找出 "般若" 的话, 就必须具有换行搜寻的功能(这在 maha
的测试也有指出), 因此可以考虑未来加入此一功能(据我所知,
单教授 cgrep 的作法好像是 define 一个某大小的 buffer, 能将
前一行的最後面 n 个字元和这一行接起来, 一同进行比对?)

谢谢!!
--
□□□□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
             幻                  阳焰          化城    水月
           浮泡                   眼花               旋火轮
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ □□□□□
 
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.135]
阅读文章: 第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org