| 看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
| 阅读文章: 第 1111/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: DavidChiou@Lion (邱大刚), 信区: BudaTech
标 题: Re: 检索测试
发信站: 狮子吼站 (Tue Dec 30 17:51:40 1997)
转信站: Lion
==> 於 Heaven (Heavenchow@Lion) 文中述及:
: ==> 於 邱大刚 (DavidChiou@Lion) 文中述及:
: : ==> 於 光音天 (open98@Lion) 文中述及:
: : 如前所述, 有个办法是再加上中文 filter,
: : 先以 byte 为单位找出所有 "可能" 的 candidates,
: : 然後再用中文 filter function 将误判的部分去除
: : 即可。
: 能否介绍一下中文 filter 的原理为何?
: 很好奇说...
可能是我没讲清楚,这其实很简单:
假设总共有 10000 笔资料。
先用原先的(英文)search方式,找到 50 笔可能符合的。
然後再用一个严谨的函式,以 ascii 128 等原理,将这
50 笔中真正完全符合的给挑出来(或许有 48 笔。)
这样子比起从头到尾改成中文搜寻来得简单许多。
我个人的作法是加上个函式,会传回 0 or 1, 如果是 1 的话
就表示这笔资料的确有符合,如果传回 0 的话则表代是误判。
不过当然戏法人人会变巧妙各有不同,仅供参考:)
新年快乐!!
--
□□□□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
幻 阳焰 梦
影 化城 □ 响 水月
浮泡 眼花 旋火轮
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ □□□□□
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.140]
|
| 阅读文章: 第 1111/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |