有关藏经电子化流程

> 直接将这个去点後的 BMP档交给丹青OCR 进行自动辨识及词库校正【注】
> ，选择4342字集，加上学习字库，25秒钟完成一页含有 871个中文字的文
> 件。

  这点我一直搞不太清楚, "学习字库" 我懂, 但辨识完成时有个 "词库校正"
  是在做什麽? 是否有提高辨识率的空间.

>       OK，让我们把流程□清一下：
>       1.将已经扫瞄好的 TIF档（徐言辉已完成的，详见信末【附函】）
>         利用 PSP进行批次转档成 BMP档。
>       2.以 mvdot将上述 BMP档去点。（当然要再修改成能够批次处理）

  以上二点, 後学尽量将程式改好, 让它可以直接批次处理 tif 档 (这就要靠
  QUIZ 兄的大力协助了).

  并我很希望将圈点利用电脑加入文字中, 使辨识後有标点产生. 我总是觉得,
  只要一页能利用电脑少个一分钟, 一万页就一万分钟了耶...

>       3.再以丹青 OCR读取去点後的 BMP档来进行自动辨识程序。（丹青
>         能够批次处理）。
>       处理到这里，只要辨识过程中所采用的「学习字库」良好，那麽即
>       使不再进行「线上校对」，我预估有 95%的正确度【再注】。

  我看了一下大正藏的经文, 实在很难用程式来处理使其可以有好的辨识.
  但不知其它版本如何? Jimmy 兄不是有白马精舍版的吗? 不知其格式是
  否相同? 其它藏经的情况呢? 是否就是以佛教大藏经最好辨识?

  另外, 以上流程不知其它朋友有何意见, 如何处可以用电脑来节省人力, 时间,
  欢迎提出供大家参考! 让我们将这个工作做更快更好!

  Heaven