看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1111/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: DavidChiou@Lion (邱大刚), 信区: BudaTech 标 题: Re: 检索测试 发信站: 狮子吼站 (Tue Dec 30 17:51:40 1997) 转信站: Lion ==> 於 Heaven (Heavenchow@Lion) 文中述及: : ==> 於 邱大刚 (DavidChiou@Lion) 文中述及: : : ==> 於 光音天 (open98@Lion) 文中述及: : : 如前所述, 有个办法是再加上中文 filter, : : 先以 byte 为单位找出所有 "可能" 的 candidates, : : 然後再用中文 filter function 将误判的部分去除 : : 即可。 : 能否介绍一下中文 filter 的原理为何? : 很好奇说... 可能是我没讲清楚,这其实很简单: 假设总共有 10000 笔资料。 先用原先的(英文)search方式,找到 50 笔可能符合的。 然後再用一个严谨的函式,以 ascii 128 等原理,将这 50 笔中真正完全符合的给挑出来(或许有 48 笔。) 这样子比起从头到尾改成中文搜寻来得简单许多。 我个人的作法是加上个函式,会传回 0 or 1, 如果是 1 的话 就表示这笔资料的确有符合,如果传回 0 的话则表代是误判。 不过当然戏法人人会变巧妙各有不同,仅供参考:) 新年快乐!! -- □□□□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 幻 阳焰 梦 影 化城 □ 响 水月 浮泡 眼花 旋火轮 □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ □□□□□ Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.140] |
阅读文章: 第 1111/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |