看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech 标 题: 六部藏经的辨识效果初探 发信站: 国立中山大学网路组 Mailing List (Mon Aug 25 08:27:28 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 来 源: sccid.nsysu.edu.tw 跑了一趟中央图书馆,针对碛砂、嘉兴、乾隆、中华、高丽、大正 等六套藏经各影印了样本一份,带回家实际试试辨识效果如何。有 点可惜的是,原来经本的印刷就已不甚清晰,再经过央图的影印机 出来,状况不是很理想。 以丹青中文OCR(印刷体文字辨识系统)专业版 V2.0来试,使用 4342繁体字集,不使用学习字库,不对图档做任何修改,初步的 了解是这样: ◆OCR 自动分割的效果,从最好到最坏依次为: 大正>高丽>碛砂>中华>乾隆>嘉兴 ◆辨识的效果,从最好到最坏依次为: 大正>嘉兴>中华、高丽、碛砂、乾隆 这六套藏经,大正、嘉兴采明体字,辨识效果较好;其馀四套采楷 体字,辨识效果较差。我想可能是因为楷体字形变化较大,若无建 立良好的学习字库,效果势必不佳。很意外的发现,对於嘉兴藏的 行间垂直分隔线,丹青 OCR居然能够聪明的分割成功。 从比较中可以了解,还是大正藏的整体辨识效果较好,如果能够进 一步将图档当中各式各样的小符号清除乾净,相信它的辨识率会直 逼去过圈点後的佛教大藏经。 这几个图档共有936Kb,除了mail一份给 Heaven外,愿意接受轰炸 的朋友请私下来函索取。 maha 8/25/97 |
阅读文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |