感谢大家热情赞助。这件认养工作,截至目前有意加入者六人,若加
上原有的三位认养者,及提供技术的Heaven,跟居中协调的我,共有
十一人,就暂且名之为「佛教藏 OCR小组」。
由於刚在一起作业,这阵子可能有些事项需要沟通协调,对於较为广
泛性的问题,往後就让我们一起讨论吧(请适当的更换标题)。若再
有新加入者,我会随时通知各位。
底下是我对QUIZ来函的回覆。
QUIZ wrote:
>
> 我一直在想说,通通灌到大硬碟去,然後去圈点程式给他
> 24小时去执行。丹青可以的话也照办。这样就可以只
> 剩下校对的工作了说。而且通通转成文字档了。
>
> 文字校对时,网友间要分工的话,传文字档当然比传图
> 档更有效率罗。
>
> 通通转成文字後,那锅校稿的义工,可以自备经本,或到图书馆
> 等去借。只传文字档给他就可以了。那麽会有很多人有能力共襄
> 盛举的。
>
> 因为去圈点,使用丹青等等,这些比较技术性,可能不太好找人。
> 再加上图档传递也不是很方便(您可累了...^_^)
>
> 因此我觉得如果可以分工,多人多台电脑处理,通通先转成文字档
> 可能也不错。品质也比较整齐说。
如果「通通转成文字後,那锅校稿的义工,可以自备经本」去校对,
这样当然有很多的便利,档案传输比较简易,可以参与的人也会比较
多。不过,这种便利我们以後或许会用得上,但却不是现在这个环节
。请看我以下几点说明。
1.既已采用 OCR作业,线上校对时可以一边看扫瞄图、一边看辨识
後的文字来修正,这样的好处不可轻易放弃。
2.这次经由 OCR线上校对产生的文字档,将不再把所去掉的圈点加
入文字中,也就是说结果是一个不含圈点的文字档。因为这些结
果的最大用处是拿来跟另一个依大正藏格式输入的经文档做文字
上的比对,以此来订正大正藏经文档的错误。
3.等档案比对完成後,必须再做一次人工校对,这时候就可以考虑
采行QUIZ的方法,让更多的人来参与,只是所用以校对的经本必
须得是大正藏才行。
4.QUIZ的方法还可以应用在依大正藏格式所输入的经文档。这个经
文档已经有了,有25册。但因为是从 CCCII转码过来的,品质不
是很好。必须至少得人工校对一遍,才可以拿来应用在档案比对
上。
5.QUIZ的方法固有可取之处,但也不要轻忽了它在管理方面所需付
出的成本。到底是采取网路作业战略,还是找一组固定的校对人
马(支薪的专业校对人员,或不支薪但有训练的义工),这是佛
研中心跟我们都还在评估的。
所以,对於这些经文图档,我的主意是确实把线上校对做好。
我们的整个作业流程大致如下:
1.转换图档格式:利用 PSP程式将.tif档批次转成.bmp。如果去点
程式有所改良,此步骤可省略。
2.执行去点程式:此步骤的目的是批次的把影响 OCR辨识作业的图
形圈点去除。
3.开始 OCR作业:视记忆体状况,一次可以读入多页图档进行辨识
。记得大力使用 OCR的学习字库功能。
4.进行线上校对:OCR 辨识完毕後,即可进行一边看扫瞄图、一边
看辨识的文字来校对。完毕後依序一页存成一个
文字档。
5.合并完成档案:将每页一个档案,合并成每卷一个档案。
至於作业细节,都装在我脑袋里,得花一点时间来斟酌。各位若有想
到什麽,也可以事先反应讨论。
因为大家先後所认养的□围可能有所重叠,我必须做一些调整。再等
几天吧,让有意愿处理的人通通出炉,我再来做一个较好的分配。
maha 11/18/97