看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1002/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech
标  题: 藏经扫瞄二、三事
发信站: (NEWS/INFO) National Sun Yat-San University (Thu Sep 18 07:58:21 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
来  源: buddha.nsysu.edu.tw

关於大藏经扫瞄辨识的发展,在取得大刚及海文同意後,底下引两封我们三
人的私下讨论信函,一来增进各位对此议题的了解,二来徵询各位的宝贵意
见及可能协助。

                                                      maha 9/18/97

Thu, 11 Sep 1997
David Chiou wrote:
> Heaven wrote:
> > 
> >       我的想法是先找到能借大正藏的来源,
> 
>     如果不容易的话,可以请网友帮忙看看,相信许多人会
> 很乐意的 :)

「大正藏的来源」,如果是新文丰影印版,我可以试著跟树林海明寺借借看,
,要是一册一册借,我想成功机率很大。

> >       再买台扫描机 (能借得到最好 :p)
> 
>     这个也可向网友借借看。

为著这事,我去年已经买了一台。若有必要,还是买一台吧,很便宜的,大概
七、八千块的就很够用了。

> >       , 开始大量扫描, 去杂点, ocr , 再进行以前提过的 "一人一页" 计画.
> 
>     嗯!!! 好棒。

经Heaven及大家努力,这个作业越来越自动化。如果人工作业的程序能够减到
最低,事情就好办多了。当初针对佛教大藏经的去圈点程式一出现,我就觉得
前途大好,甚至想说就这样先快速完成一份正确率 95%的不含圈点佛教大藏经
电子版。後来Heaven更上层楼,针对大正藏的去符号程式又出来,这样大概又
可以弄出一份正确率 92-3%的大正藏电子版。

在整个构想上,Heaven跟我都知道最後是将这两份电子版藏经,利用FGFC档案
比对程式两相比较,以产生一个正确率几乎100%的电子藏经。可是在进行的步
骤上,大家还要再思考一下。因为我们能够负责这方面事务的人力微薄,最好
不要一下子把作业程序复杂化,也就是希望能够一个步骤一个步骤来做。

那麽第一个要考虑到扫瞄的资料来源,刚才已经说过大正藏,那麽佛教藏呢?
哪里可以方便借得到?

再来是先扫瞄什麽?佛教藏或大正藏?

又,扫瞄後的辨识程序要做到什麽地步?需要线上校对吗?

然後... ,然後.... 。

******************

Fri, 12 Sep 1997
David Chiou wrote:
> Maha wrote:
> >
> > 在整个构想上,Heaven跟我都知道最後是将这两份电子版藏经,利用FGFC档案
> > 比对程式两相比较,以产生一个正确率几乎100%的电子藏经。可是在进行的步
> 
>     请问您是指「佛教大藏经」与「大正藏」的 FGFC 比对吗?
>     还是像「新文丰大正藏」与「世桦大正藏」的 FGFC 比对呢?

我的意思是指前者,因佛教藏与大正藏是两个截然不同的扫瞄辨识来源,两者所
产生的电子档较有相互比对纠错的意义。佛教藏在去过圈点後,辨识率大增,但
事後补圈点的工作是很吃重的。而正好大正藏在去掉日本读音符号後,辨识率也
增进不少,且圈点也大都能顺利辨识出来。所以可以结合两者之长,佛教藏的文
字辨识正确率高,而大正藏则含有圈点。如果是我,我会以大正藏电子档为主架
构,忽略圈点比对,将之与佛教藏相互纠正文字上的错误,如此来产生一个文字
、圈点正确度颇高的大正藏电子版「粗样」。为什麽说是「粗样」?因为大正藏
的精华是在其校勘,校勘内容没有电子化的话,我觉得只是个粗样;但那是後头
後头的事了,先不想这个。

「新文丰大正藏」与「世桦大正藏」,这两个大正藏影印版有何重大不同?印象
中顶多只是谁的影印技术比较好一点而已。

> > 那麽第一个要考虑到扫瞄的资料来源,刚才已经说过大正藏,那麽佛教藏呢?
> > 哪里可以方便借得到?
> 
>     台大晨曦社有「佛教大藏经」,不过基本上是不外借的。然而如果
> 二、三册的借(而不是全部借),我想是有商量的馀地,尤其对於「大藏
> 经电子化」这种重要的事情,须要的话我可以找社长商量。

佛教藏全部精装连总目录八十五册,每套定价新台币肆万元,蛮便宜的。

PS. 後来想想,不对!那是N年前的旧定价,现在的实际卖价当不只如此。

若要将大正藏与佛教藏两相比对,我满担心如果这两套藏经在文字上差异过大,
那麽比对起来可就累人了。因此,针对大正藏及佛教藏的来源,初步的做了一下
身家调查,如下:

  《大正藏》:以《高丽藏》为主要底本,在《弘教藏》校勘的基础上,参校了
              《资福藏》、《普宁藏》、《嘉兴藏》(校记中称宋、元、明三
              藏),并对勘了日本古抄本藏经、巴利语、梵文经典。
  《佛教藏》:以《频伽藏》为底本,重编校正,再从《大正藏》、《碛砂藏》
              、《嘉兴藏》、《普慧藏》、《□续藏》、《宋藏遗珍》,以及
              新从藏文译出的经典,搜集补入《佛教大藏经》。
  《频伽藏》:以日本《弘教藏》为底本,但删去了其中部份日本著述。
  《弘教藏》:以《高丽藏》为底本,不足者以《普宁藏》补充,然後以《资福
              藏》、《普宁藏》、《嘉兴藏》等诸藏为校本。
  (以上资料取自大陆学者方广□所著《佛教典籍百问》,以及由徐言辉先前提
    供的<佛教大藏经简介>。)

所以,整个脉络大致是这样的:

  《高丽藏》→《弘教藏》→《频伽藏》→《佛教藏》
            └———————————→《大正藏》

既然都是以《高丽藏》为底本发展出来,想必文字上的差异不会太让人头大。

> > 再来是先扫瞄什麽?佛教藏或大正藏?
> 以我个人所知,优点可能分别如下:
> □先扫佛教藏: 由於已有徐言辉居士的经验, 所以上手可能比较快?
> □先扫大正藏: 会引起大单位的注意.(那麽比较可能试著要求他们来支援?)

我想先来把徐言辉先前所做的佛教大藏经扫瞄部份予以完成初步辨识(不含
事後加圈点),先以此来累积一些实务经验。徐言辉扫瞄了哪些呢?主要是
三百多卷的所有鸠摩罗什译作(已将所有图档压制成光碟),但不知六百卷
《大般若经》是否也已完成扫瞄?这个礼拜天我再打个电话好好问一下。

PS. 09/15/97跟徐言辉连络上,六百卷《大般若经》业已扫瞄完毕。

阅读文章: 第 1002/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org