看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech
标  题: 六部藏经的辨识效果初探
发信站: 国立中山大学网路组 Mailing List (Mon Aug 25 08:27:28 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
来  源: sccid.nsysu.edu.tw

跑了一趟中央图书馆,针对碛砂、嘉兴、乾隆、中华、高丽、大正
等六套藏经各影印了样本一份,带回家实际试试辨识效果如何。有
点可惜的是,原来经本的印刷就已不甚清晰,再经过央图的影印机
出来,状况不是很理想。

以丹青中文OCR(印刷体文字辨识系统)专业版 V2.0来试,使用
4342繁体字集,不使用学习字库,不对图档做任何修改,初步的
了解是这样:

  ◆OCR 自动分割的效果,从最好到最坏依次为:

    大正>高丽>碛砂>中华>乾隆>嘉兴

  ◆辨识的效果,从最好到最坏依次为:

    大正>嘉兴>中华、高丽、碛砂、乾隆

这六套藏经,大正、嘉兴采明体字,辨识效果较好;其馀四套采楷
体字,辨识效果较差。我想可能是因为楷体字形变化较大,若无建
立良好的学习字库,效果势必不佳。很意外的发现,对於嘉兴藏的
行间垂直分隔线,丹青 OCR居然能够聪明的分割成功。

从比较中可以了解,还是大正藏的整体辨识效果较好,如果能够进
一步将图档当中各式各样的小符号清除乾净,相信它的辨识率会直
逼去过圈点後的佛教大藏经。

这几个图档共有936Kb,除了mail一份给 Heaven外,愿意接受轰炸
的朋友请私下来函索取。

                                              maha 8/25/97


阅读文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org