您有新信

 
有关藏经电子化流程
#1
发信站: 国立中山大学网路组 Mailing List (novell.zcom.com.tw>, 信区: BudaTech)
> 直接将这个去点後的 BMP档交给丹青OCR 进行自动辨识及词库校正【注】
> ,选择4342字集,加上学习字库,25秒钟完成一页含有 871个中文字的文
> 件。

  这点我一直搞不太清楚, "学习字库" 我懂, 但辨识完成时有个 "词库校正"
  是在做什麽? 是否有提高辨识率的空间.

>       OK,让我们把流程□清一下:
>       1.将已经扫瞄好的 TIF档(徐言辉已完成的,详见信末【附函】)
>         利用 PSP进行批次转档成 BMP档。
>       2.以 mvdot将上述 BMP档去点。(当然要再修改成能够批次处理)

  以上二点, 後学尽量将程式改好, 让它可以直接批次处理 tif 档 (这就要靠
  QUIZ 兄的大力协助了).

  并我很希望将圈点利用电脑加入文字中, 使辨识後有标点产生. 我总是觉得,
  只要一页能利用电脑少个一分钟, 一万页就一万分钟了耶...

>       3.再以丹青 OCR读取去点後的 BMP档来进行自动辨识程序。(丹青
>         能够批次处理)。
>       处理到这里,只要辨识过程中所采用的「学习字库」良好,那麽即
>       使不再进行「线上校对」,我预估有 95%的正确度【再注】。

  我看了一下大正藏的经文, 实在很难用程式来处理使其可以有好的辨识.
  但不知其它版本如何? Jimmy 兄不是有白马精舍版的吗? 不知其格式是
  否相同? 其它藏经的情况呢? 是否就是以佛教大藏经最好辨识?

  另外, 以上流程不知其它朋友有何意见, 如何处可以用电脑来节省人力, 时间,
  欢迎提出供大家参考! 让我们将这个工作做更快更好!

  Heaven
Sun Aug 17 22:26:47 1997
回覆 | 转寄 | 返回

Re: 有关藏经电子化流程
#2
发信站: 国立中山大学网路组 Mailing List (m2.dj.net.tw>, 信区: BudaTech)
Heaven wrote:
> 
>   我看了一下大正藏的经文, 实在很难用程式来处理使其可以有好的辨识.
>   但不知其它版本如何? Jimmy 兄不是有白马精舍版的吗? 不知其格式是
> 
昨天看了新文丰版与佛陀教育基金会版, 发现新文丰版的印刷清楚多了.
Tue Aug 19 15:22:41 1997
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org