看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1259/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: open98@Lion (光音天), 信区: BudaTech
标  题: 关於新版
发信站: 狮子吼站 (Thu Apr 16 13:40:38 1998)
转信站: Lion

回响似乎不少,在这里一起回答。

一)新版目前只能查中文,英文及中英混杂还没完全做好。
因为英文建索引的方式比中文复杂,如果不考虑大小写,
时态、变形等会比较简单。

二)缺字部份只能用wildcard 来查,即「阿?佛」表示
阿[门人人人]佛。有通用字就用通用字来查。
如「胁」代表「月□」。

三)新版的索引方式和以住不同,是先用「猜」的,
再进行一次double check 精确比对,
所以速度的关键在於「猜中率」,比方说佛光大辞典
有二万条,如果第一步检索只找出50条之内,
那麽一般都可以在一秒之内回应,
但是如果猜到一万笔,那麽速度就会变得很慢很慢。
所以我用「一次最多显示几笔」来控制,
请大家尽量设十笔左右,如果让我发现那个人
恶意的检索全部文字出来,把server 搞当,
我将把他的 IP 列入黑名单。
大家再等一会儿,佛光大辞典文字部份很快
就会是 PD了。不要急著从网路download.


四)还有二个模组没有 optimize,完成後会更快,更准。
频次统计也还没做好。

五)佛光大辞典原始资料梵文很多漏标了梵文标记,
导致字型没有显示出来,我会写一支小程式来补上,
不过不是这几天。另外,因为要与导师全集的资料相容,
所以程式要同时能解读更多的标记,错误率难免升高。

六)我预设URL打开 normalize=true 的选项,
这样缺字频次会降到百万分之1.3。如果不加 normalize 选项,
则缺字会很多,和上一版一样,[钵]会变[金*本]

七)OPEN 98真正的重头戏在完整的汉字库,可以一并解决缺字的
显示,查询及索引问题,并且直接跨平台,线上可转码(JIS,GB)
,转不过去的字会直接用汉字库来显示。所以在网路上
只要安装汉字库,就可以在任何平台(包括英文)
上完整,一字不差地显示中文缺字。(当然也包括系统字)

导师全集出版後,最近要忙的杂事多了,
所以研发的进度会慢一些,
另外,在这里徵求有没有懂  C++ 或 ANSI C
的朋友,愿意加入 OPEN 98 的研发行列,
目前 OPEN 98 所有模组都是用 Pascal 写成的,
少部份用组合语言,但是我想把它全部porting
到 unix 的机器,所以想用C来重写,
有人愿意帮忙吗?(纯发心,无酬)

lyyen
--
=====================================
 Abhasvara, OPEN 98 小组
 佛典数位化永久义工
 Email:lyyen@ms1.hinet.net
=====================================
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: cbs.ntu.edu.tw]
阅读文章: 第 1259/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org