看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1363/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: Heavenchow@Lion (Heaven), 信区: BudaTech
标  题: Re: 有关经典电子化
发信站: 狮子吼站 (Mon Nov  2 13:45:42 1998)
转信站: Lion

寄件者: 省油的灯 <evan.bbs@buddha.cbs.NTU.EDU.TW>
>    小弟最近想做OCR错字自动校正的研究,
>不知道能不能请你提供一下资料。
>
>    只要提供一份跑完OCR的原始资料,以及
>人工校对过的资料就可以了。资料不必多,
>只要几mega即可。

几 mega... 这还不多啊... ^_^
一册大正藏也不过二, 三 mega 吧!

>    类似的研究你应该做过吧!不知道成果怎
>麽样呢?我是因为最近的研究工作好像可以应
>用到资料校对上面,所以一时手□,想要试试
>看,不见得会有显著的成果就是了。


当然可以给您! :)

不过我手中可能拿不到 "最原始" 的资料 (除非有图档再自己处理)
OCR 处理後的原稿, 我们大概会有二种方式改进它的正确率.

一是利用丹青学习字库的功能, 可以改善不少同样的错字.

第二是利用 "常用错字字串" 表来进行取代,
利如 "菩" 与 "苦" 字, 因为很像, 用学习的功能不易改善,
但我们将 OCR 经文之 "苦萨" 全部取代成 "菩萨"
则对日後的校对工作大有提升.
相关的说明在 http://ccbs.ntu.edu.tw/cbeta 的技术篇有提到.

所以我手中的原始资料大概是经过这二种处理过的了.
不知这样是否还符合您所需求, 若合, 要怎麽给您?
mail ? ftp ?
或是直接丢到 buda-tech ? (开玩笑的 :p)

另外, 其实本版版主 maha 对此有更多的研究,
他好久没回版面照顾一下了, 看他有没有什麽心得可以提供的.

  heaven
--
【北狮南鹿】
您在学佛路上有疑问吗?-----BudaHelp 版,帮助您!
您对佛教神□事件好奇吗?---BudaXfile版,满足您!
一片清凉的佛法讨论园地,需要您的爱护与灌溉,欢迎您的光临:
台大佛研中心狮子吼站:telnet://cbs.ntu.edu.tw       (IP:140.112.143.30)
[鹿苑]佛教暨慈青专站:telnet://buddha.nsysu.edu.tw  (IP:140.117.11.90)
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.189.17]
阅读文章: 第 1363/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org