看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 953/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech
标  题: Re: 六部藏经的辨识效果初探
发信站: 国立中山大学网路组 Mailing List (Mon Aug 25 13:11:39 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
来  源: sccid.nsysu.edu.tw

> 跑了一趟中央图书馆,针对碛砂、嘉兴、乾隆、中华、高丽、大正
> 等六套藏经各影印了样本一份,带回家实际试试辨识效果如何。

  昨天本来要去法源寺的图书馆 (见何处有大藏经该串讨论)查经名,
  顺便看看何种藏经适合 OCR 或是适合用程式来处理, 结果扑空,
  星期日没开... 只有下周再去了. 感谢 maha 兄先做了这件事了 :)

> 以丹青中文OCR(印刷体文字辨识系统)专业版 V2.0来试,使用
> 4342繁体字集,不使用学习字库,不对图档做任何修改,初步的
> 了解是这样:
> 
>   ◆OCR 自动分割的效果,从最好到最坏依次为:
> 
>     大正>高丽>碛砂>中华>乾隆>嘉兴
> 
>   ◆辨识的效果,从最好到最坏依次为:
> 
>     大正>嘉兴>中华、高丽、碛砂、乾隆

  可是我试了一下, 嘉兴的辨识很差耶... 几乎都看不出是佛经了.
  奇怪???

> 从比较中可以了解,还是大正藏的整体辨识效果较好,如果能够进
> 一步将图档当中各式各样的小符号清除乾净,相信它的辨识率会直
> 逼去过圈点後的佛教大藏经。

  若以不需要自动产生标点为考量, 大正藏和佛教大藏经要花的工夫
  是差不多的. 佛教藏只要去除圈点即可做到. 而大正藏虽然小符号
  不少, 但辨识出来大多用 1 或是 . 来表示, 这个直接用程式去除
  也是小事, 这二者看来要花的工夫差不多.

  後学比较在意的是自动产生符号, 这时佛教大藏经要做的就是图档
  的文字重排, 将句点插入文字之中, 而大正藏只是要将小符号去掉
  , 何者较易, 就得看程式写的好不好了....wait...後学又突发奇想
  大正藏的句点很小, 依然能辨识出来, 或许佛教大藏经不用重排,
  只要安插个小句点即可. 不过间隙很小, 後学去试试看了...

  Heaven
阅读文章: 第 953/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org