看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1031/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: xxx@Lion (黄上铭), 信区: BudaTech 标 题: Re: 请来认养扫瞄档 发信站: 狮子吼站 (Mon Nov 17 17:57:22 1997) 转信站: Lion ==> 於 网路义工 (peterwei@Lion) 文中述及: : hello,你好: : 我很愿意帮忙服务,不过想请教一下,现在的计画是?将经典扫成图片,然後 : 再将图片转成存文字这样吗? : ps我在台中.不知道有时间限制吗?(转成文字). : scwei@ms1.accmail.com.tw : bybye 引文如下: maha wrote ==> 欢迎加入佛典电子化整理工程。这些图档的整理流程大致是这样: 1.利用heaven所撰写的去圈点程式将图档当中的圈点去除。(因 为这些圈点会大大干扰辨识过程) 2.利用丹青 OCR软体将图档自动辨识成纯文字档。 3.辨识过程当中适度的建立学习字库,也就是强迫系统记住某些 辨识不良图形与文字的关系。 4.利用丹青 OCR进行自动辨识後的线上校对,一边看图,一边修 正辨识後的文字。 整个流程的结果是产生一个不含圈点的经文档。这样的经文档在文 字的正确度已经颇高,可以直接置於网路上。接下来是将之与由「 其它不同输入流程所产生的同本有圈点或标点经文档」进行档案比 对,以此来产生正确率高且含基本圈点的电子经文档案。 後段的档案比对,采用Heaven所撰写的fgfc档案比对程式,这是以 後的事了。目前我们另有一票人正在进行的是产生「其它不同输入 流程所产生的同本有圈点或标点经文档」,希望这两个比对版本早 日产生,让我们能有一个够水准的经文档。 兄若有意协同整理这些图档,可参考上封信清单中的档案,就你所 偏好的经目各别指明清楚。我会将您所选择的经目图档,以及丹青 OCR 软体,以及作业规则、技巧等,一并烧录在同片光碟上寄送给 你。 -- 大士誓愿不可测,运悲周遍尘刹国。 众生尽後誓方休,地狱空时愿始息。 受化多成无上道,自身犹示声闻迹。 □缘生佛性唯一,欲令同获究竟即。 南无冥阳救苦大愿地藏王菩萨摩诃萨.. Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.94.48] |
阅读文章: 第 1031/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |