您有新信

 
扫瞄档处理流程
#1
发信站: (tpts1.seed.net.tw>, 信区: BudaTech)
感谢大家热情赞助。这件认养工作,截至目前有意加入者六人,若加
上原有的三位认养者,及提供技术的Heaven,跟居中协调的我,共有
十一人,就暂且名之为「佛教藏 OCR小组」。

由於刚在一起作业,这阵子可能有些事项需要沟通协调,对於较为广
泛性的问题,往後就让我们一起讨论吧(请适当的更换标题)。若再
有新加入者,我会随时通知各位。

底下是我对QUIZ来函的回覆。

QUIZ wrote:
> 
>  我一直在想说,通通灌到大硬碟去,然後去圈点程式给他
>  24小时去执行。丹青可以的话也照办。这样就可以只
>  剩下校对的工作了说。而且通通转成文字档了。
> 
>  文字校对时,网友间要分工的话,传文字档当然比传图
>  档更有效率罗。
>
>  通通转成文字後,那锅校稿的义工,可以自备经本,或到图书馆
>  等去借。只传文字档给他就可以了。那麽会有很多人有能力共襄
>  盛举的。
> 
>  因为去圈点,使用丹青等等,这些比较技术性,可能不太好找人。
>  再加上图档传递也不是很方便(您可累了...^_^)
> 
>  因此我觉得如果可以分工,多人多台电脑处理,通通先转成文字档
>  可能也不错。品质也比较整齐说。

如果「通通转成文字後,那锅校稿的义工,可以自备经本」去校对,
这样当然有很多的便利,档案传输比较简易,可以参与的人也会比较
多。不过,这种便利我们以後或许会用得上,但却不是现在这个环节
。请看我以下几点说明。

  1.既已采用 OCR作业,线上校对时可以一边看扫瞄图、一边看辨识
    後的文字来修正,这样的好处不可轻易放弃。
  2.这次经由 OCR线上校对产生的文字档,将不再把所去掉的圈点加
    入文字中,也就是说结果是一个不含圈点的文字档。因为这些结
    果的最大用处是拿来跟另一个依大正藏格式输入的经文档做文字
    上的比对,以此来订正大正藏经文档的错误。
  3.等档案比对完成後,必须再做一次人工校对,这时候就可以考虑
    采行QUIZ的方法,让更多的人来参与,只是所用以校对的经本必
    须得是大正藏才行。
  4.QUIZ的方法还可以应用在依大正藏格式所输入的经文档。这个经
    文档已经有了,有25册。但因为是从 CCCII转码过来的,品质不
    是很好。必须至少得人工校对一遍,才可以拿来应用在档案比对
    上。
  5.QUIZ的方法固有可取之处,但也不要轻忽了它在管理方面所需付
    出的成本。到底是采取网路作业战略,还是找一组固定的校对人
    马(支薪的专业校对人员,或不支薪但有训练的义工),这是佛
    研中心跟我们都还在评估的。

所以,对於这些经文图档,我的主意是确实把线上校对做好。

我们的整个作业流程大致如下:

 1.转换图档格式:利用 PSP程式将.tif档批次转成.bmp。如果去点
                  程式有所改良,此步骤可省略。
  2.执行去点程式:此步骤的目的是批次的把影响 OCR辨识作业的图
                  形圈点去除。
  3.开始 OCR作业:视记忆体状况,一次可以读入多页图档进行辨识
                  。记得大力使用 OCR的学习字库功能。
  4.进行线上校对:OCR 辨识完毕後,即可进行一边看扫瞄图、一边
                  看辨识的文字来校对。完毕後依序一页存成一个
                  文字档。
  5.合并完成档案:将每页一个档案,合并成每卷一个档案。

至於作业细节,都装在我脑袋里,得花一点时间来斟酌。各位若有想
到什麽,也可以事先反应讨论。

因为大家先後所认养的□围可能有所重叠,我必须做一些调整。再等
几天吧,让有意愿处理的人通通出炉,我再来做一个较好的分配。

                                               maha 11/18/97
NEWS/INFO National Sun Yat-San University Tue Nov 18 16:18:50 1997
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org