看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1363/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: Heavenchow@Lion (Heaven), 信区: BudaTech 标 题: Re: 有关经典电子化 发信站: 狮子吼站 (Mon Nov 2 13:45:42 1998) 转信站: Lion 寄件者: 省油的灯 <evan.bbs@buddha.cbs.NTU.EDU.TW> > 小弟最近想做OCR错字自动校正的研究, >不知道能不能请你提供一下资料。 > > 只要提供一份跑完OCR的原始资料,以及 >人工校对过的资料就可以了。资料不必多, >只要几mega即可。 几 mega... 这还不多啊... ^_^ 一册大正藏也不过二, 三 mega 吧! > 类似的研究你应该做过吧!不知道成果怎 >麽样呢?我是因为最近的研究工作好像可以应 >用到资料校对上面,所以一时手□,想要试试 >看,不见得会有显著的成果就是了。 当然可以给您! :) 不过我手中可能拿不到 "最原始" 的资料 (除非有图档再自己处理) OCR 处理後的原稿, 我们大概会有二种方式改进它的正确率. 一是利用丹青学习字库的功能, 可以改善不少同样的错字. 第二是利用 "常用错字字串" 表来进行取代, 利如 "菩" 与 "苦" 字, 因为很像, 用学习的功能不易改善, 但我们将 OCR 经文之 "苦萨" 全部取代成 "菩萨" 则对日後的校对工作大有提升. 相关的说明在 http://ccbs.ntu.edu.tw/cbeta 的技术篇有提到. 所以我手中的原始资料大概是经过这二种处理过的了. 不知这样是否还符合您所需求, 若合, 要怎麽给您? mail ? ftp ? 或是直接丢到 buda-tech ? (开玩笑的 :p) 另外, 其实本版版主 maha 对此有更多的研究, 他好久没回版面照顾一下了, 看他有没有什麽心得可以提供的. heaven -- □□【北狮南鹿】□□ 您在学佛路上有疑问吗?-----BudaHelp 版,帮助您! 您对佛教神□事件好奇吗?---BudaXfile版,满足您! 一片清凉的佛法讨论园地,需要您的爱护与灌溉,欢迎您的光临: 台大佛研中心狮子吼站:telnet://cbs.ntu.edu.tw (IP:140.112.143.30) [鹿苑]佛教暨慈青专站:telnet://buddha.nsysu.edu.tw (IP:140.117.11.90) Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.189.17] |
阅读文章: 第 1363/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |