看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1259/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: open98@Lion (光音天), 信区: BudaTech 标 题: 关於新版 发信站: 狮子吼站 (Thu Apr 16 13:40:38 1998) 转信站: Lion 回响似乎不少,在这里一起回答。 一)新版目前只能查中文,英文及中英混杂还没完全做好。 因为英文建索引的方式比中文复杂,如果不考虑大小写, 时态、变形等会比较简单。 二)缺字部份只能用wildcard 来查,即「阿?佛」表示 阿[门人人人]佛。有通用字就用通用字来查。 如「胁」代表「月□」。 三)新版的索引方式和以住不同,是先用「猜」的, 再进行一次double check 精确比对, 所以速度的关键在於「猜中率」,比方说佛光大辞典 有二万条,如果第一步检索只找出50条之内, 那麽一般都可以在一秒之内回应, 但是如果猜到一万笔,那麽速度就会变得很慢很慢。 所以我用「一次最多显示几笔」来控制, 请大家尽量设十笔左右,如果让我发现那个人 恶意的检索全部文字出来,把server 搞当, 我将把他的 IP 列入黑名单。 大家再等一会儿,佛光大辞典文字部份很快 就会是 PD了。不要急著从网路download. 四)还有二个模组没有 optimize,完成後会更快,更准。 频次统计也还没做好。 五)佛光大辞典原始资料梵文很多漏标了梵文标记, 导致字型没有显示出来,我会写一支小程式来补上, 不过不是这几天。另外,因为要与导师全集的资料相容, 所以程式要同时能解读更多的标记,错误率难免升高。 六)我预设URL打开 normalize=true 的选项, 这样缺字频次会降到百万分之1.3。如果不加 normalize 选项, 则缺字会很多,和上一版一样,[钵]会变[金*本] 七)OPEN 98真正的重头戏在完整的汉字库,可以一并解决缺字的 显示,查询及索引问题,并且直接跨平台,线上可转码(JIS,GB) ,转不过去的字会直接用汉字库来显示。所以在网路上 只要安装汉字库,就可以在任何平台(包括英文) 上完整,一字不差地显示中文缺字。(当然也包括系统字) 导师全集出版後,最近要忙的杂事多了, 所以研发的进度会慢一些, 另外,在这里徵求有没有懂 C++ 或 ANSI C 的朋友,愿意加入 OPEN 98 的研发行列, 目前 OPEN 98 所有模组都是用 Pascal 写成的, 少部份用组合语言,但是我想把它全部porting 到 unix 的机器,所以想用C来重写, 有人愿意帮忙吗?(纯发心,无酬) lyyen -- ===================================== Abhasvara, OPEN 98 小组 佛典数位化永久义工 Email:lyyen@ms1.hinet.net ===================================== Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: cbs.ntu.edu.tw] |
阅读文章: 第 1259/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |