| 看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
| 阅读文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech
标 题: 六部藏经的辨识效果初探
发信站: 国立中山大学网路组 Mailing List (Mon Aug 25 08:27:28 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
来 源: sccid.nsysu.edu.tw
跑了一趟中央图书馆,针对碛砂、嘉兴、乾隆、中华、高丽、大正
等六套藏经各影印了样本一份,带回家实际试试辨识效果如何。有
点可惜的是,原来经本的印刷就已不甚清晰,再经过央图的影印机
出来,状况不是很理想。
以丹青中文OCR(印刷体文字辨识系统)专业版 V2.0来试,使用
4342繁体字集,不使用学习字库,不对图档做任何修改,初步的
了解是这样:
◆OCR 自动分割的效果,从最好到最坏依次为:
大正>高丽>碛砂>中华>乾隆>嘉兴
◆辨识的效果,从最好到最坏依次为:
大正>嘉兴>中华、高丽、碛砂、乾隆
这六套藏经,大正、嘉兴采明体字,辨识效果较好;其馀四套采楷
体字,辨识效果较差。我想可能是因为楷体字形变化较大,若无建
立良好的学习字库,效果势必不佳。很意外的发现,对於嘉兴藏的
行间垂直分隔线,丹青 OCR居然能够聪明的分割成功。
从比较中可以了解,还是大正藏的整体辨识效果较好,如果能够进
一步将图档当中各式各样的小符号清除乾净,相信它的辨识率会直
逼去过圈点後的佛教大藏经。
这几个图档共有936Kb,除了mail一份给 Heaven外,愿意接受轰炸
的朋友请私下来函索取。
maha 8/25/97
|
| 阅读文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |