看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech 标 题: 电子版大藏经输入计画 发信站: (NEWS/INFO) National Sun Yat-San University (Sat Oct 11 01:48:24 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 来 源: buddha.nsysu.edu.tw ※ 电子版大藏经输入计画 ※ ┌——┐ │缘起│ └——┘ 由於近日诸多因缘配合,让一些朋友觉得可以开始 改变以往被动整理网路上网友输入的经文,而改为 有计画的主动输入大藏经,以产生一套电子版的大 藏经,以完全免费的方式提供大众。 ┌——┐ │计画│ └——┘ 完成一套完全免费的电子版大藏经。 ┌——┐ │目标│ └——┘ 产生经过初步校对并含有基本标点符号的电子经文。 ┌————┐ │工作内容│ └————┘ 1. 处理现有的 CCCII 格式之大正藏资料。 2. 以 Scanner + OCR 来产生电子版大藏经。 3. 将产生之经文整理并放置在下列位置 : a. 东坡站 FTP Server b. 梵网 FTP Server C. 经典系列 WWW Server d. 梵网 www Server ┌————┐ │工作细节│ └————┘ ● 处理现有的 CCCII 格式之大正藏资料 1. 使用转码程式将 CCCII 码转成 Big-5 码。(已有现成程式) 2. 使用程式来依 CCCII 原稿来寻找 Big-5 码中的 ASCII 码为 0xFFFF 的字,这表示该字在 Big-5 为缺字部分,依此产生一 缺字档。(程式待写) 3. 手动将缺字档做成【缺字-缺字代码】对照表。(人工处理) 4. 使用程式利用【缺字-缺字代码】对照表并参考 CCCII 原稿将 Big-5 码档中的缺字更换成缺字代码。(程式待写) 5. 整理缺字资料,进而做出【缺字代码-通用字或组合字】对照表。 (人工处理) 6. 再使用程式利用【缺字代码-通用字或组合字】将含有缺字代码 之Big-5文件之代码转成通用字或组合字。(程式待写) 7. 若有 CCCII 码转 Big-5 码有问题的字,亦可使用上述方法 来还原成正确的字。(程式待写,同步骤 3 - 6 ) 8. 初步校对。(错字及标点) 9. 排版。 ● 以 Scanner + OCR 来产生电子版大藏经 1. 先找出最好的二种佛经版本及光学辨识效果最好的扫瞄 DPI 值。 第一个版本为主要版本,建议为大正藏。第二个版本为对照版, 目的是利用不同版本的经文比较可加速比对出经文错误之处。 故第二个版本可为 CCCII 版本转成之 Big-5 码档,或是佛教大 藏经现有之图档所辨识出之经文,或是第二种大正藏版本之经文。 2. 使用扫瞄机大量扫瞄佛经。 3. 使用去杂点程式去除图档中的杂点。 (此程式已初步完成) 4. 进行 OCR 文字辨识,以产生初步二种版本之文字档。 5. 将二种版本的文字以程式进行比对,以快速找出相异之处。 (此程式已初步完成) 注: 若本步骤比对校果不佳则省略。 6. 将此档案及图档(缩小四分之一)统一放置管理。 7. 开放由网友传回上述之图档及文字以进行校对. 校对後再传回。 ◎取回资料方式: (待讨论,目前的方案计有) a.统一放置 FTP Server,由下载者至某一 BBS 或 WWW 登记。 该 Server 并提供下载及校对上载的记录供查询。 (难度较高,并重覆下载的机率也可能较高) b.统一由某人负责,欲校对者可 mail 该负责人,并将校对好 的档案 mail 给他。该负责人必须在某一 BBS 或 WWW 维护 最近记录以供查询。 (须由专人负责,但管理较简单) ◎校对原则 : a.只处理错字及标点。 b.不处理缺字,仅由 "●" 来表示缺字。 c.不做排版处理。 ◎传回资料方式: (待讨论,同上之取回资料方式) 8. 统一缺字处理。 9. 排版。 ●将产生之经文整理并放置在各 FTP 及 WWW Server 办法 由各 Server 负责人进行。 ┌—————┐ │须保存资料│ └—————┘ 1. 原始图档。 2. 1/4 大小原始图档,以供下载校对用。 3. 各图档经 ocr 所产生之原始经文。 4. 由 CCCII 码转成含缺字代码之原稿。 5. 经网友校对过的经文。 6. 经过处理排版过的经文。 ┌—————┐ │待讨论事宜│ └—————┘ 1. 处理之经文版本。 (最好有二版,以便做快速比对用) 2. 【缺字-组合字】的统一处理方式。 3. 【缺字-造字】的统一处理方式,最好各大单位能一起再开一次会议。 3. 上下载档案的联络、管理流程。 4. 完稿之排版格式。 ==================================== |
阅读文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |