| 看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
| 阅读文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech
标 题: 电子版大藏经输入计画
发信站: (NEWS/INFO) National Sun Yat-San University (Sat Oct 11 01:48:24 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
来 源: buddha.nsysu.edu.tw
※ 电子版大藏经输入计画 ※
┌——┐
│缘起│
└——┘
由於近日诸多因缘配合,让一些朋友觉得可以开始
改变以往被动整理网路上网友输入的经文,而改为
有计画的主动输入大藏经,以产生一套电子版的大
藏经,以完全免费的方式提供大众。
┌——┐
│计画│
└——┘
完成一套完全免费的电子版大藏经。
┌——┐
│目标│
└——┘
产生经过初步校对并含有基本标点符号的电子经文。
┌————┐
│工作内容│
└————┘
1. 处理现有的 CCCII 格式之大正藏资料。
2. 以 Scanner + OCR 来产生电子版大藏经。
3. 将产生之经文整理并放置在下列位置 :
a. 东坡站 FTP Server
b. 梵网 FTP Server
C. 经典系列 WWW Server
d. 梵网 www Server
┌————┐
│工作细节│
└————┘
● 处理现有的 CCCII 格式之大正藏资料
1. 使用转码程式将 CCCII 码转成 Big-5 码。(已有现成程式)
2. 使用程式来依 CCCII 原稿来寻找 Big-5 码中的 ASCII 码为
0xFFFF 的字,这表示该字在 Big-5 为缺字部分,依此产生一
缺字档。(程式待写)
3. 手动将缺字档做成【缺字-缺字代码】对照表。(人工处理)
4. 使用程式利用【缺字-缺字代码】对照表并参考 CCCII 原稿将
Big-5 码档中的缺字更换成缺字代码。(程式待写)
5. 整理缺字资料,进而做出【缺字代码-通用字或组合字】对照表。
(人工处理)
6. 再使用程式利用【缺字代码-通用字或组合字】将含有缺字代码
之Big-5文件之代码转成通用字或组合字。(程式待写)
7. 若有 CCCII 码转 Big-5 码有问题的字,亦可使用上述方法
来还原成正确的字。(程式待写,同步骤 3 - 6 )
8. 初步校对。(错字及标点)
9. 排版。
● 以 Scanner + OCR 来产生电子版大藏经
1. 先找出最好的二种佛经版本及光学辨识效果最好的扫瞄 DPI 值。
第一个版本为主要版本,建议为大正藏。第二个版本为对照版,
目的是利用不同版本的经文比较可加速比对出经文错误之处。
故第二个版本可为 CCCII 版本转成之 Big-5 码档,或是佛教大
藏经现有之图档所辨识出之经文,或是第二种大正藏版本之经文。
2. 使用扫瞄机大量扫瞄佛经。
3. 使用去杂点程式去除图档中的杂点。 (此程式已初步完成)
4. 进行 OCR 文字辨识,以产生初步二种版本之文字档。
5. 将二种版本的文字以程式进行比对,以快速找出相异之处。
(此程式已初步完成)
注: 若本步骤比对校果不佳则省略。
6. 将此档案及图档(缩小四分之一)统一放置管理。
7. 开放由网友传回上述之图档及文字以进行校对. 校对後再传回。
◎取回资料方式: (待讨论,目前的方案计有)
a.统一放置 FTP Server,由下载者至某一 BBS 或 WWW 登记。
该 Server 并提供下载及校对上载的记录供查询。
(难度较高,并重覆下载的机率也可能较高)
b.统一由某人负责,欲校对者可 mail 该负责人,并将校对好
的档案 mail 给他。该负责人必须在某一 BBS 或 WWW 维护
最近记录以供查询。
(须由专人负责,但管理较简单)
◎校对原则 :
a.只处理错字及标点。
b.不处理缺字,仅由 "●" 来表示缺字。
c.不做排版处理。
◎传回资料方式: (待讨论,同上之取回资料方式)
8. 统一缺字处理。
9. 排版。
●将产生之经文整理并放置在各 FTP 及 WWW Server 办法
由各 Server 负责人进行。
┌—————┐
│须保存资料│
└—————┘
1. 原始图档。
2. 1/4 大小原始图档,以供下载校对用。
3. 各图档经 ocr 所产生之原始经文。
4. 由 CCCII 码转成含缺字代码之原稿。
5. 经网友校对过的经文。
6. 经过处理排版过的经文。
┌—————┐
│待讨论事宜│
└—————┘
1. 处理之经文版本。 (最好有二版,以便做快速比对用)
2. 【缺字-组合字】的统一处理方式。
3. 【缺字-造字】的统一处理方式,最好各大单位能一起再开一次会议。
3. 上下载档案的联络、管理流程。
4. 完稿之排版格式。
====================================
|
| 阅读文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |