看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 953/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech 标 题: Re: 六部藏经的辨识效果初探 发信站: 国立中山大学网路组 Mailing List (Mon Aug 25 13:11:39 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 来 源: sccid.nsysu.edu.tw > 跑了一趟中央图书馆,针对碛砂、嘉兴、乾隆、中华、高丽、大正 > 等六套藏经各影印了样本一份,带回家实际试试辨识效果如何。 昨天本来要去法源寺的图书馆 (见何处有大藏经该串讨论)查经名, 顺便看看何种藏经适合 OCR 或是适合用程式来处理, 结果扑空, 星期日没开... 只有下周再去了. 感谢 maha 兄先做了这件事了 :) > 以丹青中文OCR(印刷体文字辨识系统)专业版 V2.0来试,使用 > 4342繁体字集,不使用学习字库,不对图档做任何修改,初步的 > 了解是这样: > > ◆OCR 自动分割的效果,从最好到最坏依次为: > > 大正>高丽>碛砂>中华>乾隆>嘉兴 > > ◆辨识的效果,从最好到最坏依次为: > > 大正>嘉兴>中华、高丽、碛砂、乾隆 可是我试了一下, 嘉兴的辨识很差耶... 几乎都看不出是佛经了. 奇怪??? > 从比较中可以了解,还是大正藏的整体辨识效果较好,如果能够进 > 一步将图档当中各式各样的小符号清除乾净,相信它的辨识率会直 > 逼去过圈点後的佛教大藏经。 若以不需要自动产生标点为考量, 大正藏和佛教大藏经要花的工夫 是差不多的. 佛教藏只要去除圈点即可做到. 而大正藏虽然小符号 不少, 但辨识出来大多用 1 或是 . 来表示, 这个直接用程式去除 也是小事, 这二者看来要花的工夫差不多. 後学比较在意的是自动产生符号, 这时佛教大藏经要做的就是图档 的文字重排, 将句点插入文字之中, 而大正藏只是要将小符号去掉 , 何者较易, 就得看程式写的好不好了....wait...後学又突发奇想 大正藏的句点很小, 依然能辨识出来, 或许佛教大藏经不用重排, 只要安插个小句点即可. 不过间隙很小, 後学去试试看了... Heaven |
阅读文章: 第 953/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |