|
|
六部藏经的辨识效果初探
|
#1 |
发信站:
国立中山大学网路组 Mailing List
(tpts1.seed.net.tw>, 信区: BudaTech)
|
跑了一趟中央图书馆,针对碛砂、嘉兴、乾隆、中华、高丽、大正
等六套藏经各影印了样本一份,带回家实际试试辨识效果如何。有
点可惜的是,原来经本的印刷就已不甚清晰,再经过央图的影印机
出来,状况不是很理想。
以丹青中文OCR(印刷体文字辨识系统)专业版 V2.0来试,使用
4342繁体字集,不使用学习字库,不对图档做任何修改,初步的
了解是这样:
◆OCR 自动分割的效果,从最好到最坏依次为:
大正>高丽>碛砂>中华>乾隆>嘉兴
◆辨识的效果,从最好到最坏依次为:
大正>嘉兴>中华、高丽、碛砂、乾隆
这六套藏经,大正、嘉兴采明体字,辨识效果较好;其馀四套采楷
体字,辨识效果较差。我想可能是因为楷体字形变化较大,若无建
立良好的学习字库,效果势必不佳。很意外的发现,对於嘉兴藏的
行间垂直分隔线,丹青 OCR居然能够聪明的分割成功。
从比较中可以了解,还是大正藏的整体辨识效果较好,如果能够进
一步将图档当中各式各样的小符号清除乾净,相信它的辨识率会直
逼去过圈点後的佛教大藏经。
这几个图档共有936Kb,除了mail一份给 Heaven外,愿意接受轰炸
的朋友请私下来函索取。
maha 8/25/97
Mon Aug 25 08:27:28 1997
|
|
|
Re: 六部藏经的辨识效果初探
|
#2 |
发信站:
国立中山大学网路组 Mailing List
(novell.zcom.com.tw>, 信区: BudaTech)
|
> 跑了一趟中央图书馆,针对碛砂、嘉兴、乾隆、中华、高丽、大正
> 等六套藏经各影印了样本一份,带回家实际试试辨识效果如何。
昨天本来要去法源寺的图书馆 (见何处有大藏经该串讨论)查经名,
顺便看看何种藏经适合 OCR 或是适合用程式来处理, 结果扑空,
星期日没开... 只有下周再去了. 感谢 maha 兄先做了这件事了 :)
> 以丹青中文OCR(印刷体文字辨识系统)专业版 V2.0来试,使用
> 4342繁体字集,不使用学习字库,不对图档做任何修改,初步的
> 了解是这样:
>
> ◆OCR 自动分割的效果,从最好到最坏依次为:
>
> 大正>高丽>碛砂>中华>乾隆>嘉兴
>
> ◆辨识的效果,从最好到最坏依次为:
>
> 大正>嘉兴>中华、高丽、碛砂、乾隆
可是我试了一下, 嘉兴的辨识很差耶... 几乎都看不出是佛经了.
奇怪???
> 从比较中可以了解,还是大正藏的整体辨识效果较好,如果能够进
> 一步将图档当中各式各样的小符号清除乾净,相信它的辨识率会直
> 逼去过圈点後的佛教大藏经。
若以不需要自动产生标点为考量, 大正藏和佛教大藏经要花的工夫
是差不多的. 佛教藏只要去除圈点即可做到. 而大正藏虽然小符号
不少, 但辨识出来大多用 1 或是 . 来表示, 这个直接用程式去除
也是小事, 这二者看来要花的工夫差不多.
後学比较在意的是自动产生符号, 这时佛教大藏经要做的就是图档
的文字重排, 将句点插入文字之中, 而大正藏只是要将小符号去掉
, 何者较易, 就得看程式写的好不好了....wait...後学又突发奇想
大正藏的句点很小, 依然能辨识出来, 或许佛教大藏经不用重排,
只要安插个小句点即可. 不过间隙很小, 後学去试试看了...
Heaven
Mon Aug 25 13:11:39 1997
|
|
|
Re: 六部藏经的辨识效果初探
|
#3 |
发信站:
国立中山大学网路组 Mailing List
(tpts1.seed.net.tw>, 信区: BudaTech)
|
Heaven wrote:
>
> 可是我试了一下, 嘉兴的辨识很差耶... 几乎都看不出是佛经了.
> 奇怪???
Heaven的感觉是对的,以这次的图档来看,嘉兴的辨识效果是六本中最差
的。之前的辨识效果评比,从最好到最差应修正为:
大正>中华、高丽、碛砂、乾隆>嘉兴
但是,这主要是因为嘉兴藏原书文字最小、最模糊。如果您仔细看看,它
辨识不好的地方大都是影像不清楚所造成的。所以要是能够拿到一个清晰
的原书(如果存在的话),并克服版面分割问题,它的整体效果说不定不
比大正藏差,因为它没有那些小圈点、小符号的问题。因著这层因素,我
对嘉兴藏还满有好感的。
> ....wait...後学又突发奇想
> 大正藏的句点很小, 依然能辨识出来, 或许佛教大藏经不用重排,
> 只要安插个小句点即可. 不过间隙很小, 後学去试试看了...
大正藏在圈点地方大多有空出少许明显字距,佛教大藏经却几乎没有,这
真是个困难所在。
maha 8/28/97
Mon Aug 25 20:33:55 1997
|
|
|
Re: 六部藏经的辨识效果初探
|
#4 |
发信站:
国立中山大学网路组 Mailing List
(novell.zcom.com.tw>, 信区: BudaTech)
|
> > 大正藏的句点很小, 依然能辨识出来, 或许佛教大藏经不用重排,
> > 只要安插个小句点即可. 不过间隙很小, 後学去试试看了...
> 大正藏在圈点地方大多有空出少许明显字距,佛教大藏经却几乎没有,这
> 真是个困难所在。
这二个都好难弄喔! 想了许久都没有好方法.... :(
很配服写 ocr 的人.
没事就瞪著大藏经影印本在看, 看著看著, 奇怪, 大正藏一些小字
一, 二 v 是什麽意思啊! 一直在想这些, 无法专心思考...
顺便问一下, 以往在 ocr 校对好的粗稿加上标点, 会不会很麻烦,
这个我没有实务经验. 有时我校对一页佛教大藏经(从 ocr 至校对完)
要十多分钟, 不知加上标点要多久?
Heaven
Tue Aug 26 08:57:45 1997
|
|
|
Re: 六部藏经的辨识效果初探
|
#5 |
wmc
发信站:
国立中山大学网路组 Mailing List
(mozart.seed.net.tw , 信区: BudaTech)
|
Heaven wrote:
>
> 顺便问一下, 以往在 ocr 校对好的粗稿加上标点, 会不会很麻烦,
> 这个我没有实务经验. 有时我校对一页佛教大藏经(从 ocr 至校对完)
> 要十多分钟, 不知加上标点要多久?
末学校一页大正藏要花半个多钟头, 先用 notepad 将一堆奇怪的符号
delete, 再依经本校对加上句读, 缺字查询, 组字输入;
有时碰到难解的缺字还会多花个半个钟头.
Tue Aug 26 09:57:39 1997
|
|
|
Re: 六部藏经的辨识效果初探
|
#6 |
发信站:
国立中山大学网路组 Mailing List
(budaedu.org.tw>, 信区: BudaTech)
|
> 没事就瞪著大藏经影印本在看, 看著看著, 奇怪, 大正藏一些小字
> 一, 二 v 是什麽意思啊! 一直在想这些, 无法专心思考...
>
那些符号是日文的类似音标,或重音音节的符号;好比我们的注音符号第一声、
第二声等等。
Tue Aug 26 12:40:27 1997
|
|
|
Re: 六部藏经的辨识效果初探
|
#7 |
发信站:
国立中山大学网路组 Mailing List
(tpts1.seed.net.tw>, 信区: BudaTech)
|
Heaven wrote:
>
> 顺便问一下, 以往在 ocr 校对好的粗稿加上标点, 会不会很麻烦,
> 这个我没有实务经验. 有时我校对一页佛教大藏经(从 ocr 至校对完)
> 要十多分钟, 不知加上标点要多久?
拿《梵网经》第14页为例,执行去圈点程式处理後,这时候以 OCR进行作业
,计时开始—— 08:11。经过自动版面分割、辨识,然後加以人工线上校对
,完成时的时间是—— 08:23。前後用了『12分钟』。接著我就急忙跑去补
习班教课,回到家时,时间是22:50。
隔天,也就是现在,将昨天校对好的那一页粗稿加上圈点。我没有原书,但
早已把未去圈点前的图档印好了,所以就一边看著纸面,一边盯著萤幕上的
文字档,从 05:40 到 05:47 ,总共用了『 7分钟』。
这一页佛教大藏经的经文,含圈点共有799字。
799字/(12分钟+7分钟)=42字/分钟——这是目前『辨识+校对+圈点』的作业速度。
7分钟/(12分钟+7分钟)=37%——这是加圈点所耗用的时间比例。
以上粗略统计,供 Heaven 及各位朋友参考。近日事忙,若有问题没有积极
回应,还请原谅。
maha 8/28/97
Thu Aug 28 08:18:59 1997
|
|
|
Re: 六部藏经的辨识效果初探
|
#8 |
发信站:
国立中山大学网路组 Mailing List
(novell.zcom.com.tw>, 信区: BudaTech)
|
> 799字/(12分钟+7分钟)=42字/分钟——这是目前『辨识+校对+圈点』的作业速度。
> 7分钟/(12分钟+7分钟)=37%——这是加圈点所耗用的时间比例。
7分钟...37%.... 意思就是若能利用程式, 可省下不少时间, 看来偷懒不得了. :p
末学考虑许多, 佛教藏先做到去圈点的部份就好. 加标点的功夫打算用在大正藏上.
大正藏的 "杂点" 虽然较多较杂, 但若真去除, 句点就自然呈现了.
另一问,
上回藏经列表中至少就有(白马精舍版)(佛陀教育基金会版)(新文丰)三种版本,
不知它们的排版样式都一样? 都是有那些类似注音的符号?
ps. 我会写信去问那位手上有(白马精舍版)的朋友. 其它知道的朋友也请帮个忙,
总希望能
找到一个很好的版本, 最好没有杂点只有句点 :p
Heaven
Thu Aug 28 10:00:44 1997
|
|
|
Re: 六部藏经的辨识效果初探
|
#9 |
wmc
发信站:
国立中山大学网路组 Mailing List
(mozart.seed.net.tw , 信区: BudaTech)
|
Heaven wrote:
>
> 另一问,
> 上回藏经列表中至少就有(白马精舍版)(佛陀教育基金会版)(新文丰)三种版本,
(佛陀教育基金会版)与(新文丰)版
都是有那些类似注音的符号.
Thu Aug 28 14:38:20 1997
|
|
□ 台大狮子吼佛学专站 http://buddhaspace.org
| |