您有新信

 
中文字串搜寻软体
#1
Post Gateway
发信站: 由 狮子吼站 收信 (ccstudent.ee.ntu.edu.tw , 信区: BudaTech)
以下是中央数学系单维彰教授在研发的 cgrep 程式,
能在 UNIX 平台上将中文内文的搜寻[的换行问题等]解决,
而且应该是免费提供大家的.

现在市面上这类的资料库软体都相当昂贵, 动辄上百万,
(例如据说中正大学找了几个研究生, 花了二百万才做出来,
  而且并不免费提供给其他人的样子? )
单教授及童先生的这项义举不啻是一项好消息, 也为佛典
文件档的应用带来另一片天地.

台大佛研中心可能要请 kftseng 来写各平台的支援程式,
以便将来佛典出 CD 时能够应用於其上, 并毕免被商家
从中抽取利益的情形, 降低光碟片的成本.



---------- Forwarded message ----------
Date: Fri, 9 Aug 1996 16:04:33 +0800
From: Shann Wei-Chang <shann@math.ncu.edu.tw>
To: b83050@cctwin.ee.ntu.edu.tw
Cc: kftseng.bbs@cctwin.ee.ntu.edu.tw, tone@cctwin.ee.ntu.edu.tw
Subject: Re: cgrep

>     那就是说可以任意搜寻含有换行的字词罗?

是的.

恺运在 PC 上测试後有几个问题要在次一版修改, 其中一个读入多档案的问题已经在
我的学生那儿写好了.  但是目前只有在 UNIX 上才能用 * 这个符号, 因为 UNIX
的 shell 会帮我们把 * 展开成一序列的档案名.  而在 DOS 下, 这个展开 wild card
的功能好像要自己写.  有没有人已经有现成的 C subroutine 可以给我们用呢?

而且恺运嫌 cgrep 的速度太慢了.  这是因为我的程式把所有的输入文字都先转成
CNS 内码, 这是为了容许多种不同的编码系统的中文.  但是如果我们假设 PC 版的
cgrep (和其他应用程式) 都是读 ET-Big-5 的编码系统, 则此转换可以写得比较
不一般性.  我写了这样一个替代 subroutine, 测试後比原来的 general routine
快了一倍还多一点.  所以下一版的 cgrep 应该会比恺运测试的快一倍.  但是就只能
对 ET-Big-5 码做输出入.

我的学生在台南写程式, 我在中大.  等开学的时候才整合.

-Shann
Fri Aug 9 16:56:40 1996
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org