中文字串搜寻软体

看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow

阅读文章：第 181/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

发信人: b83050@ccstudent.ee.ntu.edu.tw (Post Gateway), 信区: BudaTech
标  题: 中文字串搜寻软体
发信站: 由 狮子吼站 收信 (Fri Aug  9 16:56:40 1996)


以下是中央数学系单维彰教授在研发的 cgrep 程式,
能在 UNIX 平台上将中文内文的搜寻[的换行问题等]解决,
而且应该是免费提供大家的.

现在市面上这类的资料库软体都相当昂贵, 动辄上百万,
（例如据说中正大学找了几个研究生, 花了二百万才做出来,
  而且并不免费提供给其他人的样子? ）
单教授及童先生的这项义举不啻是一项好消息, 也为佛典
文件档的应用带来另一片天地.

台大佛研中心可能要请 kftseng 来写各平台的支援程式,
以便将来佛典出 CD 时能够应用於其上, 并毕免被商家
从中抽取利益的情形, 降低光碟片的成本.



---------- Forwarded message ----------
Date: Fri, 9 Aug 1996 16:04:33 +0800
From: Shann Wei-Chang <shann@math.ncu.edu.tw>
To: b83050@cctwin.ee.ntu.edu.tw
Cc: kftseng.bbs@cctwin.ee.ntu.edu.tw, tone@cctwin.ee.ntu.edu.tw
Subject: Re: cgrep

>     那就是说可以任意搜寻含有换行的字词罗?

是的.

恺运在 PC 上测试後有几个问题要在次一版修改, 其中一个读入多档案的问题已经在
我的学生那儿写好了.  但是目前只有在 UNIX 上才能用 * 这个符号, 因为 UNIX
的 shell 会帮我们把 * 展开成一序列的档案名.  而在 DOS 下, 这个展开 wild card
的功能好像要自己写.  有没有人已经有现成的 C subroutine 可以给我们用呢?

而且恺运嫌 cgrep 的速度太慢了.  这是因为我的程式把所有的输入文字都先转成
CNS 内码, 这是为了容许多种不同的编码系统的中文.  但是如果我们假设 PC 版的
cgrep (和其他应用程式) 都是读 ET-Big-5 的编码系统, 则此转换可以写得比较
不一般性.  我写了这样一个替代 subroutine, 测试後比原来的 general routine
快了一倍还多一点.  所以下一版的 cgrep 应该会比恺运测试的快一倍.  但是就只能
对 ET-Big-5 码做输出入.

我的学生在台南写程式, 我在中大.  等开学的时候才整合.

-Shann

阅读文章：第 181/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站 http://buddhaspace.org