您有新信

 
去杂点程式--大正藏版
#1
发信站: (buddha.nsysu.edu.tw, 信区: BudaTech)
昨天换了位置, 没送成功, 今天再送一次

============

小弟这二天写了一个去除大正藏杂点的程式,
不过由於手上资料只有一页, 就是之前 maha
整理六种藏经格式时所提供的大正藏经文.

不过由於程式对杂点的大小有指定, 故若不同
的书或是不同的 dpi 所扫描的, 可能会有不
同的结果, 故请问 maha 当时所 mail 给我的
是多少 dpi 的图档?

也由於大正藏中的杂点很多, 我的程式只能处
理大部份的读音符号, 就是字下面的一, 二, v
等符号, 一些字上面的*及有圆圈的数字并没
有处理, 由於那些比较麻烦, 因为不小心会去除
句点, 而且那些数量不多, 所以我就先不管了.
大致上80%应该没问题, 不过和佛教藏那一版一样
只能处理黑白 bmp 格式, tif 格式我会再找专家
帮忙 :)

小弟先 mail 给 wmc, 张宪生, maha , 蒋扬协饶
, 其馀朋友须要测试者, 请 mail 後学, 除商业行
为外, 无版权限制.

另外, 之前我写了去除佛教大藏经圈点程式, 叫
mvdot, 这个我就叫 mvdot2 , 不知有没有较易
分辨的名称?

Heaven
NEWS/INFO National Sun Yat-San University Tue Sep 9 09:23:51 1997
回覆 | 转寄 | 返回

Re: 去杂点程式--大正藏版
#2
发信站: (buddha.nsysu.edu.tw, 信区: BudaTech)
Heaven wrote:
> 
> 不过由於程式对杂点的大小有指定, 故若不同
> 的书或是不同的 dpi 所扫描的, 可能会有不
> 同的结果, 故请问 maha 当时所 mail 给我的
> 是多少 dpi 的图档?

300dpi。

> 也由於大正藏中的杂点很多, 我的程式只能处
> 理大部份的读音符号, 就是字下面的一, 二, v
> 等符号,

除了「一」、「二」、「□」外,就我手上的大正藏第九册
p26、p27(好不容易找到这两页稍微复杂的),还有「三」
、「四」、「甲」、「乙」、「上」、「中」、「下」,以
及[二*│]和[三*│](组合字表示)。

以这新程式试了之前所提供的大正藏图档,「一」、「二」
、「□」去得满乾净;「上」、「中」、「下」以及
[二*│] 似乎也有考虑到,但仍有少部份没有去除掉。

我会把上面所说的几个奇怪的日本读音符号送过去给heaven
化验。建议朋友们能够的话,多送一些奇怪的给他,最好是
以300dpi局部扫瞄成小图档送过去。

另外,也要再详细评估一下:到底去或不去掉这些,对整体
作业的影响大不大?因为正如heaven先前说的,若不去掉这
些符号,丹青 OCR好像也只是把它们通通辨识成 「1」而已
。

> 一些字上面的*及有圆圈的数字并没
> 有处理, 由於那些比较麻烦, 因为不小心会去除
> 句点, 而且那些数量不多, 所以我就先不管了.

我想「*」及有圆圈的数字,这些不去掉也好,因为这些都
是非常重要的资讯,若一下子去掉了,以後很可能还是得花
时间在文字档再补上的。

                                         maha 9/9/97
NEWS/INFO National Sun Yat-San University Tue Sep 9 13:01:28 1997
回覆 | 转寄 | 返回

Re: 去杂点程式--大正藏版
#3
发信站: (buddha.nsysu.edu.tw, 信区: BudaTech)
> > maha 当时所 mail 给我的是多少 dpi 的图档?
> 
> 300dpi。
>  
> > 也由於大正藏中的杂点很多, 我的程式只能处
> > 理大部份的读音符号, 就是字下面的一, 二, v
> > 等符号,
> 以这新程式试了之前所提供的大正藏图档,「一」、「二」
> 、「□」去得满乾净;「上」、「中」、「下」以及
> [二*│] 似乎也有考虑到,但仍有少部份没有去除掉。
> 我会把上面所说的几个奇怪的日本读音符号送过去给heaven
> 化验。建议朋友们能够的话,多送一些奇怪的给他,最好是
> 以300dpi局部扫瞄成小图档送过去。

  等等.. 不要用图档炸我 :p
  其实在程式中我并不是判断是一还是二, 而是用个条件, 如
  下图

 □
  □■□
  □

 □ 代表约 16 x 10 的空白区域
  ■ 代表约 16 x 10 的有黑点的区域, 黑点可能是一二v....

  若图档中有合於上面的条件, 就将■变成全白的, 如此而已
  (却想了许久 :p) 有少部份失败的, 大多是■太大或是和
    上下的字相连, 程式才不好判断, 这些数量不多, 我就不理它了.

  我比较担心的是 maha  是 300 dpi 的图, 若有 400 dpi 或其它的,
  上面的■可能就不是大约 16 x 10 , 那才是要改的部份.
  故反倒是有非 300 dpi 的图档, 让我试试看.

  另外, 或许可以试试那种 dpi 辨识比较好?

> 另外,也要再详细评估一下:到底去或不去掉这些,对整体
> 作业的影响大不大?因为正如heaven先前说的,若不去掉这
> 些符号,丹青 OCR好像也只是把它们通通辨识成 「1」而已
> 。

  虽然变成 1 , 若用程式可以很快去除, 但也会去除句点.
  而这支程式的最大卖点就是可以去杂点但留下句点 :p

> > 一些字上面的*及有圆圈的数字并没
> > 有处理, 由於那些比较麻烦, 因为不小心会去除
> > 句点, 而且那些数量不多, 所以我就先不管了.
> 我想「*」及有圆圈的数字,这些不去掉也好,因为这些都
> 是非常重要的资讯,若一下子去掉了,以後很可能还是得花
> 时间在文字档再补上的。

  我的想法和您一样, 先留下符号, 日後或有机会补上校勘资料.

  Heaven
NEWS/INFO National Sun Yat-San University Tue Sep 9 16:41:49 1997
回覆 | 转寄 | 返回

Re: 去杂点程式--大正藏版
#4
发信站: (buddha.nsysu.edu.tw, 信区: BudaTech)
为进一步测知大正藏去过小符号後,对整体作业有何影响,试将
大正藏第九册第二十九页上栏(共有29行,含圈点有 490字),
以300dpi扫瞄辨识(采用繁体6142字集,无学习字库)。去符号
前的辨识初稿为A,去符号後的辨识初稿为B,详细校对过的文
字档为C。

以FGFC比对A、C:忽略一般的空白、英数符号、中文标点,有
                  38个差异处。
以FGFC比对B、C:忽略一般的空白、英数符号、中文标点,有
                  26个差异处。

以FGFC比对A、C:只忽略一般的空白,有47个差异处。
以FGFC比对B、C:只忽略一般的空白,有31个差异处。

很明显的,去除符号後的辨识效果较好。

以下【附件】即是这29行,每行皆以A、B、C三个版本呈现出
来的样子。C版本中的「●」号表示原经文中的校勘标号,「*」
号亦是原经文上有的。

又,私下怀疑,经过去符号後,多少会把一些原来正常的文字图
档削去一些。例如以下附件当中01B的「五『仃』阿杂汉」、03B
的「『目』责」、08B 的「其『八』醉卧」,其双引号内的文字
图档原为清楚的「百」、「自」、「人」,但经过去符号程式处
理後,「百」、「自」的左上角被切,「人」的左下角被切,这
一来反而造成辨识错误。这些相关资料,我会在私下mail一份给
heaven参考。

【附件】

01A 尔峙五百阿杂汉。於ll佛前l得□受记l巳歉喜
01B 尔峙五仃阿杂汉。於佛前得仃受记巳歉喜
01C 尔时五百阿杂汉。於佛前得●受记已欢喜

02A 蛹跃.即从.座起到ll於佛前l 头面礼1足悔过
02B 蛹跃.即从座起到於佛前。头面礼足悔过
02C 踊跃。即从座起到於佛前。头面礼足悔过

03A 自责。世尊。我等常作石H念l自谓巳得.l究竟
03B 目责。世尊。我等常作是念。自谓巳得究竟
03C 自责。世尊。我等常作是念。自谓已得究竟

04A 灭度l今乃知1之如l无智者l所以者何。我等
04B 灭度。今乃知之如无智者。所以者何。我等
04C 灭度。今乃知之如无智者。所以者何。我等

05A 应。得.l如来智慧l而便自 也以.l小智.为l足l世
05B 应得如来智慧。而便自也以小智为足。世
05C 应得如来智慧。而便自●以小智为足。世

06A 尊。臂如1有.人妻亲友券醉1酒而卧。长时亲
06B 尊。臂如有人至亲友家醉酒而卧。长时亲
06C 尊。譬如有人至亲友家醉酒而卧。是时亲

07A 友官车当。行。以益l价宝。珠:綮.l其衣裹l与.之
07B 及官车当行。以益l价宝。珠綮其衣裹与之
07C 友官事当行。以无价宝●珠系其衣□与之

08A 而去。其人醉卧都丕l觉知l起。巳游行到菸
08B 而去。其八醉卧都不觉知。起。巳游行到於
08C 而去。其人醉卧都不觉知。起●已游行到於

09A 他国l为.及食l故。勤力求索甚大龈难。若少
09B 他国。为衣食故。勤力求索甚大龈难。若少
09C 他国。为衣食故。勤力求索甚大艰难。若少

10A 有所符便以为,足。於1後亲友会避见,之。而
10B 有所得便以为乓於後亲友会避见之。而
10C 有所得便以为足。於後亲友会遇见之。而

11A 作庭言l咄哉丈夫.何为表食l乃至1如.是。
11B 作是言。咄哉丈夫.何为衣食乃至如是。
11C 作是言。咄哉丈夫。何为衣食乃至如是。

12A 我昔欲.今1汝得;安乐l五欲自廿恣l於.l某年日
12B 我昔欲今汝得安乐五欲自廿恣。於某年日
12C 我昔欲令汝得安乐五欲自●恣。於某年日

13A 月l以;无价宝珠l系.l汝衣□l 今故现在。而汝
13B 月。以无价宝珠系汝衣□。今故现在。而汝
13C 月。以无价宝珠系汝衣□。今故现在。而汝

14A 不.知.勤苦忧恼以求.l自活l甚为l痴也。汝今
14B 不知.勤苦忧恼以求自活。甚为痴也。汝今
14C 不知。勤苦忧恼以求自活。甚为痴也。汝今

15A 可.以l止宝l贸;易所顷: 常可.如1苴无1所l乏
15B 可以儿宝贸;易所顷。常可如苴无所乏
15C 可以此宝贸易所须。常可如意无所乏

16A 短:佛亦如l是.为垂:萨l时教l化我等l 令.发l一
16B 短。佛亦如是.为菩萨时教化我等。令发
16C 短。佛亦如是。为菩萨时教化我等。令发

17A 一切智心l而寻废忘不.知不.觉。饪得.l阿罗汉
17B 一切智心。而寻废忘不知不觉。饪得阿罗汉
17C 一切智心。而寻废忘不知不觉。既得阿罗汉

18A 道百诤殓度l资生艰难得.少为。足。一切智
18B 道。自谓灭度。资生艰难得少为足。一切智
18C 道。自谓灭度。资生艰难得少为足。一切智

19A 厂犹在不1失。今者世尊觉l悟我等l作茹。是
19B 厂犹在不失。今者世尊觉悟我等。作如是
19C 愿犹在不失。今者世尊觉悟我等。作如是

20A 一页诸此丘。汝等所.得非.i究竟灭l我八今1汝
20B 一页诸此丘。汝等所得非究竟灭。我八今汝
20C 言。诸此丘。汝等所得非究竟灭。我久令汝

21A 等种.l佛善根l以.l方便l故示:涅盘相l而汝谓
21B 等种佛善根。以方便故示涅盘相。而汝谓
21C 等种佛善根。以方便故示涅盘相。而汝谓

22A 为1宵得.l灭度l仕尊。我也今乃知赁是菩萨.得
22B 为宵得灭度。世尊。我也今乃知赁是菩萨.得
22C 为实得灭度。世尊。我●今乃知实是菩萨。得

23A 1牵;阿耨多罗三藐三菩提记一弘某因缘l甚
23B 受阿耨多罗三藐三菩提记。以是因缘甚
23C 受阿耨多罗三藐三菩提记。以是因缘甚

24A 大欢喜得.l未曾有l尔时阿若侨陈如等。欲1重
24B 大欢喜得未曾有。尔时阿若侨陈如等。欲1重
24C 大欢喜得未曾有。尔时阿若□陈如等。欲重

25A 宣.此义l而说.偈言
25B 宣此义。而说偈言
25C 宣此义。而说偈言

26A   我等闻.l无上  安隐,授记声一
26B   我等闻无上 安隐,授记声
26C   我等闻无上 安隐*授记声

27A   欢岂[未曾有l  礼.l无量智佛一
27B   欢喜未曾有 礼无量智佛
27C   欢喜未曾有 礼无量智佛

28A   今於征尊前l  自悔.l诸过咎一
28B   今於世尊前 自悔诸过咎
28C   今於世尊前 自悔诸过咎

29A   於社l量佛宾. 3步涅盘分l
29B   於无量佛宾. 得少涅盘分
29C   於无量佛宝 得少涅盘分
NEWS/INFO National Sun Yat-San University Tue Sep 9 18:32:03 1997
回覆 | 转寄 | 返回

Re: 去杂点程式--大正藏版
#5
发信站: (buddha.nsysu.edu.tw, 信区: BudaTech)
> 以FGFC比对A、C:只忽略一般的空白,有47个差异处。
> 以FGFC比对B、C:只忽略一般的空白,有31个差异处。

  这样看来差异不多嘛! ... :p
  不过我相信若考虑由修改A->C 及 由B修改成 C 的时间应相差
  一倍以上.

> 又,私下怀疑,经过去符号後,多少会把一些原来正常的文字图
> 档削去一些。例如以下附件当中01B的「五『仃』阿杂汉」、03B
> .... skip ....
> 一来反而造成辨识错误。这些相关资料,我会在私下mail一份给
> heaven参考。

  这个问题我有发现, 原因是那些符号有些会和字相接著.
  若完全没和字连在一起才算的话, 那些连在一起的符号就去不掉了.
  若只连一点点的也考虑去除, 就会不小心去除那些字的角落.
  目前看来不易取舍, 或许日後实务面才比较好判断何者有利.

  Heaven
NEWS/INFO National Sun Yat-San University Tue Sep 9 18:54:04 1997
回覆 | 转寄 | 返回

Re: 去杂点程式--大正藏版
#6
wan
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於  (buda-tech7@buddha.nsysu.edu.tw,) 文中述及:
: > 以FGFC比对A、C:只忽略一般的空白,有47个差异处。
: > 以FGFC比对B、C:只忽略一般的空白,有31个差异处。
:   这样看来差异不多嘛! ... :p
:   不过我相信若考虑由修改A->C 及 由B修改成 C 的时间应相差
:   一倍以上.
: > 又,私下怀疑,经过去符号後,多少会把一些原来正常的文字图
: > 档削去一些。例如以下附件当中01B的「五『仃』阿杂汉」、03B
: > .... skip ....
: > 一来反而造成辨识错误。这些相关资料,我会在私下mail一份给
: > heaven参考。
:   这个问题我有发现, 原因是那些符号有些会和字相接著.
:   若完全没和字连在一起才算的话, 那些连在一起的符号就去不掉了.
:   若只连一点点的也考虑去除, 就会不小心去除那些字的角落.
:   目前看来不易取舍, 或许日後实务面才比较好判断何者有利.
:   Heaven

剪一张纸,然後把有字的部份割下来,盖到要scan的部份上去,然後是字就出来
标点就不见了这样不知到可不可以
Mon Sep 15 21:06:59 1997
回覆 | 转寄 | 返回

Re: 去杂点程式--大正藏版
#7
发信站: (novell.zcom.com.tw>, 信区: BudaTech)
> 剪一张纸,然後把有字的部份割下来,盖到要scan的部份上去,然後是字就出来
> 标点就不见了这样不知到可不可以

 以实际操作来谈, 是否就如小学老师改考卷, 剪一张纸, 把答案部份剪去, 就可
 很方便的改考卷了. :)  不过这只能适用同一式考卷, 下一次月考又要重作了,
 甚至历史的也不能用在地理考卷上. 因为那些符号就像本文的逗点一样, 不但位
 置不同, 也会影响下一个字的位置.

 若以程式面来谈, 我是有想过这个方法, 但将字挑出来似乎不很容易, 想了一阵
 子就放弃了. :p

  Heaven
NEWS/INFO National Sun Yat-San University Wed Sep 17 09:05:22 1997
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org