看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 361/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: b83050@ccstudent.ee.ntu.edu.tw (Post Gateway), 信区: BudaTech 标 题: 电子佛典合作事宜 (fwd) 发信站: 由 狮子吼站 收信 (Sat Jan 4 04:34:52 1997) ---------- Forwarded message ---------- Date: Sat, 04 Jan 1997 00:47:50 +0800 From: 徐言辉 <roberhhh@ms9.hinet.net> To: david@ccsun6 Subject: 电子佛典合作事宜 各位关心电子佛典的朋友: 我是徐言辉,roberhhh@ms9.hinet.net,在此对电子佛典的制作提出一些想法。 我是以「佛教大藏经」为底本,配合中文OCR制作电子佛典,其程序如下: 一、以中文 OCR 扫瞄,存成 DFR 档。依经文的长短,或许一部经存成一个 档,也或许是每输入 30 页存成一个档,特殊情况以 50 页(例如:大 智度论)为单位。 二、将图档调整为依经文顺序,再存成DFR档(延迟处理档)。 (扫瞄时,为了处理方便,我是先扫瞄单数页或偶数页,尔後再扫瞄另 一页,以经为单位。因为要对正的地方,一页是以右边及上边为基准 ,另一页是以左边及上边为基准,每一次都要移动扫瞄框或扫瞄□围 ,会不方便。) 三、先由某人删去「。」符号,再进行辨识;经过这样处理再来辨识,能 提高文字辨识率。尔後,进行「线上校对」(由中文OCR提供),取得最 原始的文字档。 (进行「线上校对」时,如遇缺字,首以通用字代之,如无,暂以●取 代」。) 【例一】: (缺字以通用字代之,如无,暂以●取代) 。。。。。。。。。。。。。。。。。。。。。。。。。 佛说阿弥陀经 姚秦龟兹三藏鸠摩罗什译 如是我闻一时佛在舍卫国□树给狐独园与大比丘僧千二百五十人俱皆是大阿罗汉众所知识长老舍利弗摩 诃目乾连摩诃迦叶摩诃迦□延摩诃俱□罗离婆多周梨盘陀迦难陀阿难陀罗●罗侨梵波提宾头卢颇罗堕迦 : 。。。。。。。。。。。。。。。。。。。。。。。。。。。 四、第二次校对文字,分几种情况: A. 如网路上已有相同经文,则校稿方式以档案比对的方式为之。 B. 由另一人再依「线上校对」方式重新校对文字,以这种方式在文 字方面可能会比较少错误;如果第二个人校稿不能以「线上校对」 方式为之,则采用「离线校对」方式,但不加标点。 C. 如无其他人能再做另一次校稿,则文字校对工作假设已完成,并 将文字档储存。 ★第二次文字校对的优先处理顺序为 A -> B -> C。 ★不过,经这几次的排演结果显示,「线上校对」的正确率颇高, 所以第二次校对文字可能更改为「离线校对」,并依第五项原则 处理。 五。将步骤三所产生的文字,加上旧式标点,处理缺字,如遇文字句义 不名处,参考其它大藏经给与正确的处理。 ★此为「第一种存档」方式。 【例二】: 。。。。。。。。。。。。。。。。。。。。。。。。。。。 佛说阿弥陀经 姚秦龟兹三藏鸠摩罗什译 如是我闻。一时。佛在舍卫国□树给狐独园。与大比丘僧千二百五十人俱。皆是大阿罗汉。众所知识。长舍利弗。摩 诃目乾连。摩诃迦叶。摩诃迦□延。摩诃俱□罗。离婆多。周梨盘陀迦。难陀。阿难陀。罗[目∞侯]罗。侨梵波提。宾头卢颇罗堕。迦 : 。。。。。。。。。。。。。。。。。。。。。。。。。。。 六。依步骤四所产生的文字档,改编成网路版,还是以旧式标点为主, 能加以分段则分段。 ★此为「第二种存档」方式。 【例三】: (缺字以通用字代之,如无以组字法为之) 。。。。。。。。。。。。。。。。。。。。。。。。。。 ================================================================== 《佛说阿弥陀经》 姚秦龟兹三藏鸠摩罗什译 ================================================================== 如是我闻。 一时。佛在舍卫国□树给狐独园。与大比丘僧千二百五十人俱。皆是大阿罗汉 。众所知识。长老舍利弗。摩诃目乾连。摩诃迦叶。摩诃迦□延。摩诃俱□罗 。离婆多。周梨盘陀迦。难陀。阿难陀。罗[目∞侯]罗。侨梵波提。宾头卢颇 罗堕。迦 : 。。。。。。。。。。。。。。。。。。。。。。。。。。。 ★第五和第六二步骤可合并进行,只存网路版格式档即可。 七。依步骤四所产生的文字档,以新式标点、分段处理,可能的话再加上校勘。 ★此为「第三种存档」方式。 【例四】: (缺字以通用字代之,如无以组字法为之) 。。。。。。。。。。。。。。。。。。。。。 □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 《 佛说阿弥陀经》 姚秦三藏法师鸠摩罗什译 □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 如是我闻: 一时,佛在舍卫国□树给孤独园,与大比丘僧千二百五十人俱,皆是大阿 罗汉,众所知识。长老舍利弗、摩诃目犍连、摩诃迦叶、摩诃迦旃延、摩诃俱 □罗、离婆多、周利盘陀伽、难陀、阿难陀、罗[目∞侯]罗、□梵波提、宾头 卢颇罗堕、迦 : 。。。。。。。。。。。。。。。。。。。。。。。。。。 目前我正在进行的有: 一、与何宗武兄合作,《楞伽经》、《大智度论》、《大乘起信论》、 《地藏十轮经》、《首楞严三昧经》(因为何兄有这些经书)等,我以产 生如【例一】的原始文字档为主,再交由何兄产生如【例三】型式的 档案,也就是以旧式标点加上稍为分段。 二、与吴宝原兄合作「鸠摩罗什全集」,大致情形一样,但可能的话,还会 产生如【例四】的新式标点分段(要花比较长时间)。 【注】我们目前进行的原则是:不预设期限,全由参与的个人掌握投入的浅深, 而且进退自如,不须任何理由。 目前的想法还是以产生如【例三】型式的版本为主,如要加上新式标 制作的程序之所以会如此: 第一、我有借来一套佛教大藏经。 第二、我有扫瞄器,丹青中文OCR 处理软体。 第三、我有 CD-R 装置。本来我们的构想是第二次也采用「线上校对」 (丹青中文OCR所提供)。所以由我处理第一次扫瞄加「线上校对」, 尔後存成 DFR 延迟处理档。又由於 DFR档包含扫瞄进来的图形档, 档案很大,经研究後,想以 CD-R烧录成CD片後,方便於交给另一个 人处理。但经过我们初期的演练结果,显示「线上校对」的正确率 还颇高的,所以第二次的再校工作,可能就改成「离线校对」,即 直接以第五步骤处理,跳过第四步骤。不过,其中离线校对需要有该 经文本才可运作,正如我和何兄合作项中的描述。 目前「线上校对」工作由我担任,「离线校对」工作由他人担任,如此一来「离 线校对」者必须有该经文才能进行。现在我又想到另一种进行方式,扫瞄部份由 我来担任,再由我存成DFR档烧在CD片上,尔後委托另一人做「线上校对」;这麽 一来,不需要经本也能做校对工作,但也还是要有中文OCR程式,直接参考图形档 作校对;而且「线上校对」完成後的是文字档,档案小了很多,用mail或磁片即 可传送;最後再由我做「离线校对」。以上是我的一些想法。 最後,当然是想请问您愿不愿意也加入我们这样类似的合作方案?「线上校对」 须要改正的中文字会比较多,「离线校对」等於是二校,须要改正的中文字较少 ,主要的工作是加旧式标点和稍加分段。所以中文输入的快慢并不是问题,主要 在於您有无兴趣加入,而且上面也说了我们进行的原则是「不预设期限,全由参 与的个人(当然也包括我个人)掌握投入的浅深,而且进退自如,不须任何理由」 。至於真正要怎麽进行,还可以再讨论看看。 祝 电子佛典制作顺利 徐言辉 roberhhh@ms9.hinet.net |
阅读文章: 第 361/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |