您有新信

 
六部藏经的辨识效果初探
#1
发信站: 国立中山大学网路组 Mailing List (tpts1.seed.net.tw>, 信区: BudaTech)
跑了一趟中央图书馆,针对碛砂、嘉兴、乾隆、中华、高丽、大正
等六套藏经各影印了样本一份,带回家实际试试辨识效果如何。有
点可惜的是,原来经本的印刷就已不甚清晰,再经过央图的影印机
出来,状况不是很理想。

以丹青中文OCR(印刷体文字辨识系统)专业版 V2.0来试,使用
4342繁体字集,不使用学习字库,不对图档做任何修改,初步的
了解是这样:

  ◆OCR 自动分割的效果,从最好到最坏依次为:

    大正>高丽>碛砂>中华>乾隆>嘉兴

  ◆辨识的效果,从最好到最坏依次为:

    大正>嘉兴>中华、高丽、碛砂、乾隆

这六套藏经,大正、嘉兴采明体字,辨识效果较好;其馀四套采楷
体字,辨识效果较差。我想可能是因为楷体字形变化较大,若无建
立良好的学习字库,效果势必不佳。很意外的发现,对於嘉兴藏的
行间垂直分隔线,丹青 OCR居然能够聪明的分割成功。

从比较中可以了解,还是大正藏的整体辨识效果较好,如果能够进
一步将图档当中各式各样的小符号清除乾净,相信它的辨识率会直
逼去过圈点後的佛教大藏经。

这几个图档共有936Kb,除了mail一份给 Heaven外,愿意接受轰炸
的朋友请私下来函索取。

                                              maha 8/25/97
Mon Aug 25 08:27:28 1997
回覆 | 转寄 | 返回

Re: 六部藏经的辨识效果初探
#2
发信站: 国立中山大学网路组 Mailing List (novell.zcom.com.tw>, 信区: BudaTech)
> 跑了一趟中央图书馆,针对碛砂、嘉兴、乾隆、中华、高丽、大正
> 等六套藏经各影印了样本一份,带回家实际试试辨识效果如何。

  昨天本来要去法源寺的图书馆 (见何处有大藏经该串讨论)查经名,
  顺便看看何种藏经适合 OCR 或是适合用程式来处理, 结果扑空,
  星期日没开... 只有下周再去了. 感谢 maha 兄先做了这件事了 :)

> 以丹青中文OCR(印刷体文字辨识系统)专业版 V2.0来试,使用
> 4342繁体字集,不使用学习字库,不对图档做任何修改,初步的
> 了解是这样:
> 
>   ◆OCR 自动分割的效果,从最好到最坏依次为:
> 
>     大正>高丽>碛砂>中华>乾隆>嘉兴
> 
>   ◆辨识的效果,从最好到最坏依次为:
> 
>     大正>嘉兴>中华、高丽、碛砂、乾隆

  可是我试了一下, 嘉兴的辨识很差耶... 几乎都看不出是佛经了.
  奇怪???

> 从比较中可以了解,还是大正藏的整体辨识效果较好,如果能够进
> 一步将图档当中各式各样的小符号清除乾净,相信它的辨识率会直
> 逼去过圈点後的佛教大藏经。

  若以不需要自动产生标点为考量, 大正藏和佛教大藏经要花的工夫
  是差不多的. 佛教藏只要去除圈点即可做到. 而大正藏虽然小符号
  不少, 但辨识出来大多用 1 或是 . 来表示, 这个直接用程式去除
  也是小事, 这二者看来要花的工夫差不多.

  後学比较在意的是自动产生符号, 这时佛教大藏经要做的就是图档
  的文字重排, 将句点插入文字之中, 而大正藏只是要将小符号去掉
  , 何者较易, 就得看程式写的好不好了....wait...後学又突发奇想
  大正藏的句点很小, 依然能辨识出来, 或许佛教大藏经不用重排,
  只要安插个小句点即可. 不过间隙很小, 後学去试试看了...

  Heaven
Mon Aug 25 13:11:39 1997
回覆 | 转寄 | 返回

Re: 六部藏经的辨识效果初探
#3
发信站: 国立中山大学网路组 Mailing List (tpts1.seed.net.tw>, 信区: BudaTech)
Heaven wrote:
> 
>   可是我试了一下, 嘉兴的辨识很差耶... 几乎都看不出是佛经了.
>   奇怪???

Heaven的感觉是对的,以这次的图档来看,嘉兴的辨识效果是六本中最差
的。之前的辨识效果评比,从最好到最差应修正为:

  大正>中华、高丽、碛砂、乾隆>嘉兴

但是,这主要是因为嘉兴藏原书文字最小、最模糊。如果您仔细看看,它
辨识不好的地方大都是影像不清楚所造成的。所以要是能够拿到一个清晰
的原书(如果存在的话),并克服版面分割问题,它的整体效果说不定不
比大正藏差,因为它没有那些小圈点、小符号的问题。因著这层因素,我
对嘉兴藏还满有好感的。

>   ....wait...後学又突发奇想
>   大正藏的句点很小, 依然能辨识出来, 或许佛教大藏经不用重排,
>   只要安插个小句点即可. 不过间隙很小, 後学去试试看了...

大正藏在圈点地方大多有空出少许明显字距,佛教大藏经却几乎没有,这
真是个困难所在。

                                                    maha 8/28/97
Mon Aug 25 20:33:55 1997
回覆 | 转寄 | 返回

Re: 六部藏经的辨识效果初探
#4
发信站: 国立中山大学网路组 Mailing List (novell.zcom.com.tw>, 信区: BudaTech)
> >   大正藏的句点很小, 依然能辨识出来, 或许佛教大藏经不用重排,
> >   只要安插个小句点即可. 不过间隙很小, 後学去试试看了...
> 大正藏在圈点地方大多有空出少许明显字距,佛教大藏经却几乎没有,这
> 真是个困难所在。

  这二个都好难弄喔! 想了许久都没有好方法.... :(
  很配服写 ocr 的人.
  没事就瞪著大藏经影印本在看, 看著看著, 奇怪, 大正藏一些小字
  一, 二 v 是什麽意思啊!  一直在想这些, 无法专心思考...

  顺便问一下, 以往在 ocr 校对好的粗稿加上标点, 会不会很麻烦,
  这个我没有实务经验. 有时我校对一页佛教大藏经(从 ocr 至校对完)
  要十多分钟, 不知加上标点要多久?

  Heaven
Tue Aug 26 08:57:45 1997
回覆 | 转寄 | 返回

Re: 六部藏经的辨识效果初探
#5
wmc
发信站: 国立中山大学网路组 Mailing List (mozart.seed.net.tw , 信区: BudaTech)
Heaven wrote:
> 
>   顺便问一下, 以往在 ocr 校对好的粗稿加上标点, 会不会很麻烦,
>   这个我没有实务经验. 有时我校对一页佛教大藏经(从 ocr 至校对完)
>   要十多分钟, 不知加上标点要多久?
末学校一页大正藏要花半个多钟头, 先用 notepad 将一堆奇怪的符号
delete, 再依经本校对加上句读, 缺字查询, 组字输入;
有时碰到难解的缺字还会多花个半个钟头.
Tue Aug 26 09:57:39 1997
回覆 | 转寄 | 返回

Re: 六部藏经的辨识效果初探
#6
发信站: 国立中山大学网路组 Mailing List (budaedu.org.tw>, 信区: BudaTech)
>   没事就瞪著大藏经影印本在看, 看著看著, 奇怪, 大正藏一些小字
>   一, 二 v 是什麽意思啊!  一直在想这些, 无法专心思考...
>

   那些符号是日文的类似音标,或重音音节的符号;好比我们的注音符号第一声、
第二声等等。
Tue Aug 26 12:40:27 1997
回覆 | 转寄 | 返回

Re: 六部藏经的辨识效果初探
#7
发信站: 国立中山大学网路组 Mailing List (tpts1.seed.net.tw>, 信区: BudaTech)
Heaven wrote:
> 
>   顺便问一下, 以往在 ocr 校对好的粗稿加上标点, 会不会很麻烦,
>   这个我没有实务经验. 有时我校对一页佛教大藏经(从 ocr 至校对完)
>   要十多分钟, 不知加上标点要多久?

拿《梵网经》第14页为例,执行去圈点程式处理後,这时候以 OCR进行作业
,计时开始—— 08:11。经过自动版面分割、辨识,然後加以人工线上校对
,完成时的时间是—— 08:23。前後用了『12分钟』。接著我就急忙跑去补
习班教课,回到家时,时间是22:50。

隔天,也就是现在,将昨天校对好的那一页粗稿加上圈点。我没有原书,但
早已把未去圈点前的图档印好了,所以就一边看著纸面,一边盯著萤幕上的
文字档,从 05:40 到 05:47 ,总共用了『 7分钟』。

这一页佛教大藏经的经文,含圈点共有799字。
799字/(12分钟+7分钟)=42字/分钟——这是目前『辨识+校对+圈点』的作业速度。
7分钟/(12分钟+7分钟)=37%——这是加圈点所耗用的时间比例。

以上粗略统计,供 Heaven 及各位朋友参考。近日事忙,若有问题没有积极
回应,还请原谅。

                                                      maha 8/28/97
Thu Aug 28 08:18:59 1997
回覆 | 转寄 | 返回

Re: 六部藏经的辨识效果初探
#8
发信站: 国立中山大学网路组 Mailing List (novell.zcom.com.tw>, 信区: BudaTech)
> 799字/(12分钟+7分钟)=42字/分钟——这是目前『辨识+校对+圈点』的作业速度。
> 7分钟/(12分钟+7分钟)=37%——这是加圈点所耗用的时间比例。

  7分钟...37%.... 意思就是若能利用程式, 可省下不少时间, 看来偷懒不得了. :p
  末学考虑许多, 佛教藏先做到去圈点的部份就好. 加标点的功夫打算用在大正藏上.
  大正藏的 "杂点" 虽然较多较杂, 但若真去除, 句点就自然呈现了.

  另一问,
上回藏经列表中至少就有(白马精舍版)(佛陀教育基金会版)(新文丰)三种版本,
  不知它们的排版样式都一样? 都是有那些类似注音的符号?

  ps. 我会写信去问那位手上有(白马精舍版)的朋友. 其它知道的朋友也请帮个忙,
总希望能
    找到一个很好的版本, 最好没有杂点只有句点 :p

  Heaven
Thu Aug 28 10:00:44 1997
回覆 | 转寄 | 返回

Re: 六部藏经的辨识效果初探
#9
wmc
发信站: 国立中山大学网路组 Mailing List (mozart.seed.net.tw , 信区: BudaTech)
Heaven wrote:
> 
>   另一问,
> 上回藏经列表中至少就有(白马精舍版)(佛陀教育基金会版)(新文丰)三种版本,
(佛陀教育基金会版)与(新文丰)版
都是有那些类似注音的符号.
Thu Aug 28 14:38:20 1997
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org