看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1708/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: "maha" <maha@tpts1.seed.net.tw>, 信区: BudaTech
标  题: RE: 为大藏经尽一页心力
发信站: "maha"  (Wed Apr  3 06:23:34 2002)
转信站: Lion!news.nsysu!mlist.iyard.org!not-for-mail
来  源: mlist.iyard.org

目前最新进度是:发出143,收回40。
这让人很兴奋,也很紧张,
随著参与校对人数越来越多,看来要赶快再准备一册,免得开天窗。

在我个人心里,CBETA发源於buda_tech。
想几年前,我们在buda_tech有许多热烈讨论,
大家一边想,也一边努力的做;
所有理论性的思考,如今都一步步化为脚踏实地的履行。

CBETA已经迈入第五个年头,《大正藏》电子化工程第一阶段完成,
其成果也就是目前大家看到的普及版光碟。
接下来,我们有两项工程正在用力进行:
一是「大正藏校勘版」(学术版),一是「《□续藏》电子化」。

早在2000年6月,CBETA已经开始《□续藏》初步作业规画。
那时候,成立大陆人工输入团队,广泛收集各方经文档资源,
并针对不良的OCR环境研究可能的补救之道。

2001年4月,《□续藏》正式运作。但,进度缓慢。
OCR的错误率高得吓人,当跟大陆品质不错的人工输入档两相比对,
平均每册差异量约10万个,这相当於我们当初做《大正藏》的5倍多。

OCR问题困扰我们许久。
虽然我们已利用程式化解扫瞄图的杂点(文字以外的不重要符号),
并将圈点移位(续藏的圈点是在文字侧边,不在文字下方),
可是原书文字印刷不够清晰,仍让整体辨识效果不佳。
即使我们试图从辨识结果中去找寻规则性的错误字串,
做一个「OCR取代表」去对OCR档做取代动作,
大概也只能达到减少1/10差异的效能。

因此,回到原点,
heaven重拾当年「一人一页」的想法,
发起这个「为大藏经尽一页心力」的网路活动,
让大家一起来参与藏经电子化工作,
也让彼此来分享每个人的工作成果。
相信只要我们群策群力,《□续藏》电子化的结果指日可待。

ps1.
《□续藏》电子化,并非指整套《□续藏》都处理。
《□续藏》中有少数经文是与《大正藏》相同的,我们就不重复作业了。

ps2.
《□续藏》第一阶段目标是与禅宗相关的典籍,有20册左右吧。

maha

> -----Original Message-----
> From: 一叶佛心 [mailto:onepage.bbs@buddha.cbs.ntu.edu.tw]
> Sent: Friday, March 29, 2002 5:22 PM
> To: buda_tech@mlist.iyard.org
> Subject: 为大藏经尽一页心力
>
>           □□□□□□□□□□□□□□□
>           □             □
>           □  为大藏经尽一页心力  □
>           □             □
>           □□□□□□□□□□□□□□□
>
>   在数年之前,网际网路上有一群佛弟子曾经进行大规模的佛典经文数位化行动
> ,而有了「佛教经典系列」的成品。大约在四年前,原本就有一个「《大正藏》(
> 《大正新□大藏经》)佛典经文数位化」的计画正在密切进行中,但是另一个机缘
> ,促成了CBETA(中华电子佛典协会)的诞生,所以原《大正藏》数位化的部
> 份人力,就顺势转移到CBETA继续进行佛典经文数位化的工作。
>
>   从CBETA肇建伊始至今,四年时间弹指过去,在诸多大德的支持下,
> CBETA《大正藏》佛典经文数位化有了初步的成果--CBETA电子佛典系
> 列(《大正新□大藏经》第一册至第五十五册暨第八十五册)光碟的完成。
>
>   现在,CBETA第二个计画已如火如荼开展,那就是《□续藏》的佛典经文
> 数位化。然而和《大正藏》佛典经文数位化的计画比较起来,《□续藏》佛典经文
> 数位化计画有许多先天上不足的地方。例如,现成的《□续藏》佛典经文电子档不
> 多、《□续藏》佛典经文图档不利文字辨识 (OCR) 处理……,单就这两点来说,
> 一方面是经文电子档取得不易,另一方面就是粗糙的文字辨识品质加重校对的庞大
> 人力负担。而这些因素都是《□续藏》佛典经文数位化计画之初所面临的考验。
>
>   於是回忆起四年前「为大藏经尽一页心力」的计画,仍然希望仰仗众多佛弟子
> 的力量,以一人一页的方式,每人协助校对一页《□续藏》佛典经文电子档,初步
> 将经文电子档品质提升到一定的水准,CBETA再利用精细的校对程式和经验,
> 严格地对电子档经文做最精致的处理,相信可以在更短的时间内,完成《□续藏》
> 佛典经文数位化的目标。
>
>   这个计画--《□续藏》佛典经文数位化--目标,一如当初的理想:
>
>   「这个行动的成品将是全然免费的,必然地依照佛陀的教诲,以弘
>    传佛陀法身慧命为唯一目标,而让任何人不论贫富贵贱,皆能方
>    便的免费阅读经文,以避免诸如贩卖经典等违佛遗教的情况发生。」
>
>   只要您有电脑,可以连上网际网路,我们都诚挚地邀请您来参与「为大藏经尽
> 一页心力」的活动,更欢迎您将此讯息告知您的好友,相信他们也很乐意有这个机
> 会共同参与,在此佛教历史的关键时刻中,也让我们留下属於自己的足迹。
>
> ------------------------------------------------------------------------
>
> 【参加方法】
>
>   寄一封 email 至 onepage@ccbs.ntu.edu.tw
>
>   在主旨或内文注明要参与「为大藏经尽一页心力」计画
>
> ------------------------------------------------------------------------
>
> 【说明】
>
>   参加者会收到一份电子档,内含一页《□续藏》图档及经过文字辨识的初稿,
> 只要您对照图档,将错误的文字直接修正,完成後再寄回给
> onepage@ccbs.ntu.edu.tw
> 即可。
>
>   据估计,一般品质的经文可以在半小时至一小时完成校对,为了维护进度的顺
> 利,我们希望参与者能在七天内传回档案,若超过七天,同一份经文可能会再交给
> 其它参与的朋友。
>
>   若您是第一次参与本活动,可至底下网址下载或线上阅读注意事项:
>   http://www.cbeta.org/cbeta/onepage
>
>
>   感谢您的热心参与!
>
>
>   一叶佛心 合十
>
>
> 【相关网址】
>
>  中华电子佛典协会(CBETA)  http://www.cbeta.org
>  佛教经典系列  http://ccbs.ntu.edu.tw/canon
> --
>   □□□□□□□□□□□□□□□□□□□□□
>   □                   □
>   □     为大藏经尽一页心力     □
>   □ http://www.cbeta.org/cbeta/onepage □
>   □                   □
>   □□□□□□□□□□□□□□□□□□□□□
> Ξ 狮子吼站 版面介绍:
>                   cbs.ntu.edu.tw
>  佛法求助哇啦啦版 - 您的问题就是大家的问题!
>                    BudaHelp
>


阅读文章: 第 1708/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org