看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1708/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: "maha" <maha@tpts1.seed.net.tw>, 信区: BudaTech 标 题: RE: 为大藏经尽一页心力 发信站: "maha" (Wed Apr 3 06:23:34 2002) 转信站: Lion!news.nsysu!mlist.iyard.org!not-for-mail 来 源: mlist.iyard.org 目前最新进度是:发出143,收回40。 这让人很兴奋,也很紧张, 随著参与校对人数越来越多,看来要赶快再准备一册,免得开天窗。 在我个人心里,CBETA发源於buda_tech。 想几年前,我们在buda_tech有许多热烈讨论, 大家一边想,也一边努力的做; 所有理论性的思考,如今都一步步化为脚踏实地的履行。 CBETA已经迈入第五个年头,《大正藏》电子化工程第一阶段完成, 其成果也就是目前大家看到的普及版光碟。 接下来,我们有两项工程正在用力进行: 一是「大正藏校勘版」(学术版),一是「《□续藏》电子化」。 早在2000年6月,CBETA已经开始《□续藏》初步作业规画。 那时候,成立大陆人工输入团队,广泛收集各方经文档资源, 并针对不良的OCR环境研究可能的补救之道。 2001年4月,《□续藏》正式运作。但,进度缓慢。 OCR的错误率高得吓人,当跟大陆品质不错的人工输入档两相比对, 平均每册差异量约10万个,这相当於我们当初做《大正藏》的5倍多。 OCR问题困扰我们许久。 虽然我们已利用程式化解扫瞄图的杂点(文字以外的不重要符号), 并将圈点移位(续藏的圈点是在文字侧边,不在文字下方), 可是原书文字印刷不够清晰,仍让整体辨识效果不佳。 即使我们试图从辨识结果中去找寻规则性的错误字串, 做一个「OCR取代表」去对OCR档做取代动作, 大概也只能达到减少1/10差异的效能。 因此,回到原点, heaven重拾当年「一人一页」的想法, 发起这个「为大藏经尽一页心力」的网路活动, 让大家一起来参与藏经电子化工作, 也让彼此来分享每个人的工作成果。 相信只要我们群策群力,《□续藏》电子化的结果指日可待。 ps1. 《□续藏》电子化,并非指整套《□续藏》都处理。 《□续藏》中有少数经文是与《大正藏》相同的,我们就不重复作业了。 ps2. 《□续藏》第一阶段目标是与禅宗相关的典籍,有20册左右吧。 maha > -----Original Message----- > From: 一叶佛心 [mailto:onepage.bbs@buddha.cbs.ntu.edu.tw] > Sent: Friday, March 29, 2002 5:22 PM > To: buda_tech@mlist.iyard.org > Subject: 为大藏经尽一页心力 > > □□□□□□□□□□□□□□□ > □ □ > □ 为大藏经尽一页心力 □ > □ □ > □□□□□□□□□□□□□□□ > > 在数年之前,网际网路上有一群佛弟子曾经进行大规模的佛典经文数位化行动 > ,而有了「佛教经典系列」的成品。大约在四年前,原本就有一个「《大正藏》( > 《大正新□大藏经》)佛典经文数位化」的计画正在密切进行中,但是另一个机缘 > ,促成了CBETA(中华电子佛典协会)的诞生,所以原《大正藏》数位化的部 > 份人力,就顺势转移到CBETA继续进行佛典经文数位化的工作。 > > 从CBETA肇建伊始至今,四年时间弹指过去,在诸多大德的支持下, > CBETA《大正藏》佛典经文数位化有了初步的成果--CBETA电子佛典系 > 列(《大正新□大藏经》第一册至第五十五册暨第八十五册)光碟的完成。 > > 现在,CBETA第二个计画已如火如荼开展,那就是《□续藏》的佛典经文 > 数位化。然而和《大正藏》佛典经文数位化的计画比较起来,《□续藏》佛典经文 > 数位化计画有许多先天上不足的地方。例如,现成的《□续藏》佛典经文电子档不 > 多、《□续藏》佛典经文图档不利文字辨识 (OCR) 处理……,单就这两点来说, > 一方面是经文电子档取得不易,另一方面就是粗糙的文字辨识品质加重校对的庞大 > 人力负担。而这些因素都是《□续藏》佛典经文数位化计画之初所面临的考验。 > > 於是回忆起四年前「为大藏经尽一页心力」的计画,仍然希望仰仗众多佛弟子 > 的力量,以一人一页的方式,每人协助校对一页《□续藏》佛典经文电子档,初步 > 将经文电子档品质提升到一定的水准,CBETA再利用精细的校对程式和经验, > 严格地对电子档经文做最精致的处理,相信可以在更短的时间内,完成《□续藏》 > 佛典经文数位化的目标。 > > 这个计画--《□续藏》佛典经文数位化--目标,一如当初的理想: > > 「这个行动的成品将是全然免费的,必然地依照佛陀的教诲,以弘 > 传佛陀法身慧命为唯一目标,而让任何人不论贫富贵贱,皆能方 > 便的免费阅读经文,以避免诸如贩卖经典等违佛遗教的情况发生。」 > > 只要您有电脑,可以连上网际网路,我们都诚挚地邀请您来参与「为大藏经尽 > 一页心力」的活动,更欢迎您将此讯息告知您的好友,相信他们也很乐意有这个机 > 会共同参与,在此佛教历史的关键时刻中,也让我们留下属於自己的足迹。 > > ------------------------------------------------------------------------ > > 【参加方法】 > > 寄一封 email 至 onepage@ccbs.ntu.edu.tw > > 在主旨或内文注明要参与「为大藏经尽一页心力」计画 > > ------------------------------------------------------------------------ > > 【说明】 > > 参加者会收到一份电子档,内含一页《□续藏》图档及经过文字辨识的初稿, > 只要您对照图档,将错误的文字直接修正,完成後再寄回给 > onepage@ccbs.ntu.edu.tw > 即可。 > > 据估计,一般品质的经文可以在半小时至一小时完成校对,为了维护进度的顺 > 利,我们希望参与者能在七天内传回档案,若超过七天,同一份经文可能会再交给 > 其它参与的朋友。 > > 若您是第一次参与本活动,可至底下网址下载或线上阅读注意事项: > http://www.cbeta.org/cbeta/onepage > > > 感谢您的热心参与! > > > 一叶佛心 合十 > > > 【相关网址】 > > 中华电子佛典协会(CBETA) http://www.cbeta.org > 佛教经典系列 http://ccbs.ntu.edu.tw/canon > -- > □□□□□□□□□□□□□□□□□□□□□ > □ □ > □ 为大藏经尽一页心力 □ > □ http://www.cbeta.org/cbeta/onepage □ > □ □ > □□□□□□□□□□□□□□□□□□□□□ > Ξ 狮子吼站 版面介绍: > cbs.ntu.edu.tw > ⊙ 佛法求助哇啦啦版 - 您的问题就是大家的问题! > BudaHelp > |
阅读文章: 第 1708/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |