看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: DavidChiou@Lion (邱大刚), 信区: BudaTech 标 题: Re: 一些说明 发信站: 狮子吼站 (Sun Dec 28 12:46:54 1997) 转信站: Lion ==> 於 Heaven (Heavenchow@Lion) 文中述及: : 2.若字元大於 128 , 则此字元及下一个字元属於中文. 检查此中文是否是需要的. : 3.若是小於 128 , 以英文及符号看待. (包括换行码) : 4.处理完这个中文或英文, 再换下一个字. 这□我个人有些小经验, 或许可以提升搜寻速率(如果要搜寻 的文件相当多, 而使用的程式语言较高阶的话): "可试著先不管中英文, 全部用英文的搜寻方式. 找出的结果再以中文 filter 来除去误判的即可. " 另外, 对於较短篇的比对(所以佛典搜寻的 case 或许不适用), 有时若使用较高阶的语言(ex: Perl), 或许可先将所有的中文字间以空 白隔开, 然後再以空白为字元的间隔单位. 这个好处是英文及中文的比对 可一次解决掉, 而且是依照中英的相对顺序. 不过效率如何我没有仔细评 估过, 仅供参考. 附带一提的是, 在单教授以前发展的 cgrep 上, 有 "换行搜寻" 的 功能. 例如说以下文件: "观自在菩萨行深般 若波罗蜜多时照见" 要找出 "般若" 的话, 就必须具有换行搜寻的功能(这在 maha 的测试也有指出), 因此可以考虑未来加入此一功能(据我所知, 单教授 cgrep 的作法好像是 define 一个某大小的 buffer, 能将 前一行的最後面 n 个字元和这一行接起来, 一同进行比对?) 谢谢!! -- □□□□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 幻 阳焰 梦 影 化城 □ 响 水月 浮泡 眼花 旋火轮 □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ □□□□□ Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.135] |
阅读文章: 第 1100/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |