一)新版目前只能查中文,英文及中英混杂还没完全做好。
因为英文建索引的方式比中文复杂,如果不考虑大小写,
时态、变形等会比较简单。
二)缺字部份只能用wildcard 来查,即「阿?佛」表示
阿[门人人人]佛。有通用字就用通用字来查。
如「胁」代表「月□」。
三)新版的索引方式和以住不同,是先用「猜」的,
再进行一次double check 精确比对,
所以速度的关键在於「猜中率」,比方说佛光大辞典
有二万条,如果第一步检索只找出50条之内,
那麽一般都可以在一秒之内回应,
但是如果猜到一万笔,那麽速度就会变得很慢很慢。
所以我用「一次最多显示几笔」来控制,
请大家尽量设十笔左右,如果让我发现那个人
恶意的检索全部文字出来,把server 搞当,
我将把他的 IP 列入黑名单。
大家再等一会儿,佛光大辞典文字部份很快
就会是 PD了。不要急著从网路download.
四)还有二个模组没有 optimize,完成後会更快,更准。
频次统计也还没做好。
五)佛光大辞典原始资料梵文很多漏标了梵文标记,
导致字型没有显示出来,我会写一支小程式来补上,
不过不是这几天。另外,因为要与导师全集的资料相容,
所以程式要同时能解读更多的标记,错误率难免升高。
六)我预设URL打开 normalize=true 的选项,
这样缺字频次会降到百万分之1.3。如果不加 normalize 选项,
则缺字会很多,和上一版一样,[钵]会变[金*本]
七)OPEN 98真正的重头戏在完整的汉字库,可以一并解决缺字的
显示,查询及索引问题,并且直接跨平台,线上可转码(JIS,GB)
,转不过去的字会直接用汉字库来显示。所以在网路上
只要安装汉字库,就可以在任何平台(包括英文)
上完整,一字不差地显示中文缺字。(当然也包括系统字)
导师全集出版後,最近要忙的杂事多了,
所以研发的进度会慢一些,
另外,在这里徵求有没有懂 C++ 或 ANSI C
的朋友,愿意加入 OPEN 98 的研发行列,
目前 OPEN 98 所有模组都是用 Pascal 写成的,
少部份用组合语言,但是我想把它全部porting
到 unix 的机器,所以想用C来重写,
有人愿意帮忙吗?(纯发心,无酬)
lyyen
--
=====================================
Abhasvara, OPEN 98 小组
佛典数位化永久义工
Email:lyyen@ms1.hinet.net
=====================================
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: cbs.ntu.edu.tw]