看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1031/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: xxx@Lion (黄上铭), 信区: BudaTech
标  题: Re: 请来认养扫瞄档
发信站: 狮子吼站 (Mon Nov 17 17:57:22 1997)
转信站: Lion

==> 於 网路义工 (peterwei@Lion) 文中述及:
: hello,你好:
: 我很愿意帮忙服务,不过想请教一下,现在的计画是?将经典扫成图片,然後
: 再将图片转成存文字这样吗?
: ps我在台中.不知道有时间限制吗?(转成文字).
: scwei@ms1.accmail.com.tw
: bybye

        引文如下:
maha wrote ==>
欢迎加入佛典电子化整理工程。这些图档的整理流程大致是这样:

  1.利用heaven所撰写的去圈点程式将图档当中的圈点去除。(因
    为这些圈点会大大干扰辨识过程)
  2.利用丹青 OCR软体将图档自动辨识成纯文字档。
  3.辨识过程当中适度的建立学习字库,也就是强迫系统记住某些
    辨识不良图形与文字的关系。
  4.利用丹青 OCR进行自动辨识後的线上校对,一边看图,一边修
    正辨识後的文字。

整个流程的结果是产生一个不含圈点的经文档。这样的经文档在文
字的正确度已经颇高,可以直接置於网路上。接下来是将之与由「
其它不同输入流程所产生的同本有圈点或标点经文档」进行档案比
对,以此来产生正确率高且含基本圈点的电子经文档案。

後段的档案比对,采用Heaven所撰写的fgfc档案比对程式,这是以
後的事了。目前我们另有一票人正在进行的是产生「其它不同输入
流程所产生的同本有圈点或标点经文档」,希望这两个比对版本早
日产生,让我们能有一个够水准的经文档。

兄若有意协同整理这些图档,可参考上封信清单中的档案,就你所
偏好的经目各别指明清楚。我会将您所选择的经目图档,以及丹青
OCR 软体,以及作业规则、技巧等,一并烧录在同片光碟上寄送给
你。

--
        大士誓愿不可测,运悲周遍尘刹国。
        众生尽後誓方休,地狱空时愿始息。
        受化多成无上道,自身犹示声闻迹。
        □缘生佛性唯一,欲令同获究竟即。
        南无冥阳救苦大愿地藏王菩萨摩诃萨..

Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.94.48]
阅读文章: 第 1031/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org