看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 181/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: b83050@ccstudent.ee.ntu.edu.tw (Post Gateway), 信区: BudaTech 标 题: 中文字串搜寻软体 发信站: 由 狮子吼站 收信 (Fri Aug 9 16:56:40 1996) 以下是中央数学系单维彰教授在研发的 cgrep 程式, 能在 UNIX 平台上将中文内文的搜寻[的换行问题等]解决, 而且应该是免费提供大家的. 现在市面上这类的资料库软体都相当昂贵, 动辄上百万, (例如据说中正大学找了几个研究生, 花了二百万才做出来, 而且并不免费提供给其他人的样子? ) 单教授及童先生的这项义举不啻是一项好消息, 也为佛典 文件档的应用带来另一片天地. 台大佛研中心可能要请 kftseng 来写各平台的支援程式, 以便将来佛典出 CD 时能够应用於其上, 并毕免被商家 从中抽取利益的情形, 降低光碟片的成本. ---------- Forwarded message ---------- Date: Fri, 9 Aug 1996 16:04:33 +0800 From: Shann Wei-Chang <shann@math.ncu.edu.tw> To: b83050@cctwin.ee.ntu.edu.tw Cc: kftseng.bbs@cctwin.ee.ntu.edu.tw, tone@cctwin.ee.ntu.edu.tw Subject: Re: cgrep > 那就是说可以任意搜寻含有换行的字词罗? 是的. 恺运在 PC 上测试後有几个问题要在次一版修改, 其中一个读入多档案的问题已经在 我的学生那儿写好了. 但是目前只有在 UNIX 上才能用 * 这个符号, 因为 UNIX 的 shell 会帮我们把 * 展开成一序列的档案名. 而在 DOS 下, 这个展开 wild card 的功能好像要自己写. 有没有人已经有现成的 C subroutine 可以给我们用呢? 而且恺运嫌 cgrep 的速度太慢了. 这是因为我的程式把所有的输入文字都先转成 CNS 内码, 这是为了容许多种不同的编码系统的中文. 但是如果我们假设 PC 版的 cgrep (和其他应用程式) 都是读 ET-Big-5 的编码系统, 则此转换可以写得比较 不一般性. 我写了这样一个替代 subroutine, 测试後比原来的 general routine 快了一倍还多一点. 所以下一版的 cgrep 应该会比恺运测试的快一倍. 但是就只能 对 ET-Big-5 码做输出入. 我的学生在台南写程式, 我在中大. 等开学的时候才整合. -Shann |
阅读文章: 第 181/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |