有关藏经电子化流程

看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow

阅读文章：第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech
标  题: 有关藏经电子化流程
发信站: 国立中山大学网路组 Mailing List (Sun Aug 17 22:26:47 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
来  源: sccid.nsysu.edu.tw

> 直接将这个去点後的 BMP档交给丹青OCR 进行自动辨识及词库校正【注】
> ，选择4342字集，加上学习字库，25秒钟完成一页含有 871个中文字的文
> 件。

  这点我一直搞不太清楚, "学习字库" 我懂, 但辨识完成时有个 "词库校正"
  是在做什麽? 是否有提高辨识率的空间.

>       OK，让我们把流程□清一下：
>       1.将已经扫瞄好的 TIF档（徐言辉已完成的，详见信末【附函】）
>         利用 PSP进行批次转档成 BMP档。
>       2.以 mvdot将上述 BMP档去点。（当然要再修改成能够批次处理）

  以上二点, 後学尽量将程式改好, 让它可以直接批次处理 tif 档 (这就要靠
  QUIZ 兄的大力协助了).

  并我很希望将圈点利用电脑加入文字中, 使辨识後有标点产生. 我总是觉得,
  只要一页能利用电脑少个一分钟, 一万页就一万分钟了耶...

>       3.再以丹青 OCR读取去点後的 BMP档来进行自动辨识程序。（丹青
>         能够批次处理）。
>       处理到这里，只要辨识过程中所采用的「学习字库」良好，那麽即
>       使不再进行「线上校对」，我预估有 95%的正确度【再注】。

  我看了一下大正藏的经文, 实在很难用程式来处理使其可以有好的辨识.
  但不知其它版本如何? Jimmy 兄不是有白马精舍版的吗? 不知其格式是
  否相同? 其它藏经的情况呢? 是否就是以佛教大藏经最好辨识?

  另外, 以上流程不知其它朋友有何意见, 如何处可以用电脑来节省人力, 时间,
  欢迎提出供大家参考! 让我们将这个工作做更快更好!

  Heaven

阅读文章：第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站 http://buddhaspace.org