看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1035/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech 标 题: 扫瞄档处理流程 发信站: (NEWS/INFO) National Sun Yat-San University (Tue Nov 18 16:18:50 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 来 源: buddha.nsysu.edu.tw 感谢大家热情赞助。这件认养工作,截至目前有意加入者六人,若加 上原有的三位认养者,及提供技术的Heaven,跟居中协调的我,共有 十一人,就暂且名之为「佛教藏 OCR小组」。 由於刚在一起作业,这阵子可能有些事项需要沟通协调,对於较为广 泛性的问题,往後就让我们一起讨论吧(请适当的更换标题)。若再 有新加入者,我会随时通知各位。 底下是我对QUIZ来函的回覆。 QUIZ wrote: > > 我一直在想说,通通灌到大硬碟去,然後去圈点程式给他 > 24小时去执行。丹青可以的话也照办。这样就可以只 > 剩下校对的工作了说。而且通通转成文字档了。 > > 文字校对时,网友间要分工的话,传文字档当然比传图 > 档更有效率罗。 > > 通通转成文字後,那锅校稿的义工,可以自备经本,或到图书馆 > 等去借。只传文字档给他就可以了。那麽会有很多人有能力共襄 > 盛举的。 > > 因为去圈点,使用丹青等等,这些比较技术性,可能不太好找人。 > 再加上图档传递也不是很方便(您可累了...^_^) > > 因此我觉得如果可以分工,多人多台电脑处理,通通先转成文字档 > 可能也不错。品质也比较整齐说。 如果「通通转成文字後,那锅校稿的义工,可以自备经本」去校对, 这样当然有很多的便利,档案传输比较简易,可以参与的人也会比较 多。不过,这种便利我们以後或许会用得上,但却不是现在这个环节 。请看我以下几点说明。 1.既已采用 OCR作业,线上校对时可以一边看扫瞄图、一边看辨识 後的文字来修正,这样的好处不可轻易放弃。 2.这次经由 OCR线上校对产生的文字档,将不再把所去掉的圈点加 入文字中,也就是说结果是一个不含圈点的文字档。因为这些结 果的最大用处是拿来跟另一个依大正藏格式输入的经文档做文字 上的比对,以此来订正大正藏经文档的错误。 3.等档案比对完成後,必须再做一次人工校对,这时候就可以考虑 采行QUIZ的方法,让更多的人来参与,只是所用以校对的经本必 须得是大正藏才行。 4.QUIZ的方法还可以应用在依大正藏格式所输入的经文档。这个经 文档已经有了,有25册。但因为是从 CCCII转码过来的,品质不 是很好。必须至少得人工校对一遍,才可以拿来应用在档案比对 上。 5.QUIZ的方法固有可取之处,但也不要轻忽了它在管理方面所需付 出的成本。到底是采取网路作业战略,还是找一组固定的校对人 马(支薪的专业校对人员,或不支薪但有训练的义工),这是佛 研中心跟我们都还在评估的。 所以,对於这些经文图档,我的主意是确实把线上校对做好。 我们的整个作业流程大致如下: 1.转换图档格式:利用 PSP程式将.tif档批次转成.bmp。如果去点 程式有所改良,此步骤可省略。 2.执行去点程式:此步骤的目的是批次的把影响 OCR辨识作业的图 形圈点去除。 3.开始 OCR作业:视记忆体状况,一次可以读入多页图档进行辨识 。记得大力使用 OCR的学习字库功能。 4.进行线上校对:OCR 辨识完毕後,即可进行一边看扫瞄图、一边 看辨识的文字来校对。完毕後依序一页存成一个 文字档。 5.合并完成档案:将每页一个档案,合并成每卷一个档案。 至於作业细节,都装在我脑袋里,得花一点时间来斟酌。各位若有想 到什麽,也可以事先反应讨论。 因为大家先後所认养的□围可能有所重叠,我必须做一些调整。再等 几天吧,让有意愿处理的人通通出炉,我再来做一个较好的分配。 maha 11/18/97 |
阅读文章: 第 1035/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |