> 直接将这个去点後的 BMP档交给丹青OCR 进行自动辨识及词库校正【注】
> ,选择4342字集,加上学习字库,25秒钟完成一页含有 871个中文字的文
> 件。
这点我一直搞不太清楚, "学习字库" 我懂, 但辨识完成时有个 "词库校正"
是在做什麽? 是否有提高辨识率的空间.
> OK,让我们把流程□清一下:
> 1.将已经扫瞄好的 TIF档(徐言辉已完成的,详见信末【附函】)
> 利用 PSP进行批次转档成 BMP档。
> 2.以 mvdot将上述 BMP档去点。(当然要再修改成能够批次处理)
以上二点, 後学尽量将程式改好, 让它可以直接批次处理 tif 档 (这就要靠
QUIZ 兄的大力协助了).
并我很希望将圈点利用电脑加入文字中, 使辨识後有标点产生. 我总是觉得,
只要一页能利用电脑少个一分钟, 一万页就一万分钟了耶...
> 3.再以丹青 OCR读取去点後的 BMP档来进行自动辨识程序。(丹青
> 能够批次处理)。
> 处理到这里,只要辨识过程中所采用的「学习字库」良好,那麽即
> 使不再进行「线上校对」,我预估有 95%的正确度【再注】。
我看了一下大正藏的经文, 实在很难用程式来处理使其可以有好的辨识.
但不知其它版本如何? Jimmy 兄不是有白马精舍版的吗? 不知其格式是
否相同? 其它藏经的情况呢? 是否就是以佛教大藏经最好辨识?
另外, 以上流程不知其它朋友有何意见, 如何处可以用电脑来节省人力, 时间,
欢迎提出供大家参考! 让我们将这个工作做更快更好!
Heaven