看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1111/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: DavidChiou@Lion (邱大刚), 信区: BudaTech
标  题: Re: 检索测试
发信站: 狮子吼站 (Tue Dec 30 17:51:40 1997)
转信站: Lion

==> 於 Heaven (Heavenchow@Lion) 文中述及:
: ==> 於 邱大刚 (DavidChiou@Lion) 文中述及:
: : ==> 於 光音天 (open98@Lion) 文中述及:
: :     如前所述, 有个办法是再加上中文 filter,
: : 先以 byte 为单位找出所有 "可能" 的 candidates,
: : 然後再用中文 filter function 将误判的部分去除
: : 即可。
:   能否介绍一下中文 filter 的原理为何?
:   很好奇说...

    可能是我没讲清楚,这其实很简单:


    假设总共有 10000 笔资料。

    先用原先的(英文)search方式,找到 50 笔可能符合的。

    然後再用一个严谨的函式,以 ascii 128 等原理,将这
50 笔中真正完全符合的给挑出来(或许有 48 笔。)


    这样子比起从头到尾改成中文搜寻来得简单许多。

    我个人的作法是加上个函式,会传回 0 or 1, 如果是 1 的话
就表示这笔资料的确有符合,如果传回 0 的话则表代是误判。

    不过当然戏法人人会变巧妙各有不同,仅供参考:)

新年快乐!!
--
□□□□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
             幻                  阳焰          化城    水月
           浮泡                   眼花               旋火轮
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ □□□□□
 
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.140]
阅读文章: 第 1111/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org