看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech
标  题: 电子版大藏经输入计画
发信站: (NEWS/INFO) National Sun Yat-San University (Sat Oct 11 01:48:24 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
来  源: buddha.nsysu.edu.tw


	※ 电子版大藏经输入计画 ※

┌——┐
│缘起│
└——┘
	由於近日诸多因缘配合,让一些朋友觉得可以开始
	改变以往被动整理网路上网友输入的经文,而改为
	有计画的主动输入大藏经,以产生一套电子版的大
	藏经,以完全免费的方式提供大众。
┌——┐
│计画│
└——┘
	完成一套完全免费的电子版大藏经。
┌——┐
│目标│
└——┘
	产生经过初步校对并含有基本标点符号的电子经文。

┌————┐
│工作内容│
└————┘

	1. 处理现有的 CCCII 格式之大正藏资料。
	2. 以 Scanner + OCR 来产生电子版大藏经。
	3. 将产生之经文整理并放置在下列位置 :

	   a. 东坡站 FTP Server
	   b. 梵网 FTP Server
	   C. 经典系列 WWW Server
	   d. 梵网 www Server

┌————┐
│工作细节│
└————┘

● 处理现有的 CCCII 格式之大正藏资料

   1. 使用转码程式将 CCCII 码转成 Big-5 码。(已有现成程式)
   2. 使用程式来依 CCCII 原稿来寻找 Big-5 码中的 ASCII 码为
      0xFFFF 的字,这表示该字在 Big-5 为缺字部分,依此产生一
      缺字档。(程式待写)
   3. 手动将缺字档做成【缺字-缺字代码】对照表。(人工处理)
   4. 使用程式利用【缺字-缺字代码】对照表并参考 CCCII 原稿将
      Big-5 码档中的缺字更换成缺字代码。(程式待写)
   5. 整理缺字资料,进而做出【缺字代码-通用字或组合字】对照表。
      (人工处理)
   6. 再使用程式利用【缺字代码-通用字或组合字】将含有缺字代码
      之Big-5文件之代码转成通用字或组合字。(程式待写)
   7. 若有 CCCII 码转 Big-5 码有问题的字,亦可使用上述方法
      来还原成正确的字。(程式待写,同步骤 3 - 6 )
   8. 初步校对。(错字及标点)
   9. 排版。

● 以 Scanner + OCR 来产生电子版大藏经

   1. 先找出最好的二种佛经版本及光学辨识效果最好的扫瞄 DPI 值。
      第一个版本为主要版本,建议为大正藏。第二个版本为对照版,
      目的是利用不同版本的经文比较可加速比对出经文错误之处。
      故第二个版本可为 CCCII 版本转成之 Big-5 码档,或是佛教大
      藏经现有之图档所辨识出之经文,或是第二种大正藏版本之经文。
   2. 使用扫瞄机大量扫瞄佛经。
   3. 使用去杂点程式去除图档中的杂点。 (此程式已初步完成)
   4. 进行 OCR 文字辨识,以产生初步二种版本之文字档。
   5. 将二种版本的文字以程式进行比对,以快速找出相异之处。
      (此程式已初步完成)
      注: 若本步骤比对校果不佳则省略。
   6. 将此档案及图档(缩小四分之一)统一放置管理。
   7. 开放由网友传回上述之图档及文字以进行校对. 校对後再传回。

      ◎取回资料方式: (待讨论,目前的方案计有)

        a.统一放置 FTP Server,由下载者至某一 BBS 或 WWW 登记。
          该 Server 并提供下载及校对上载的记录供查询。
          (难度较高,并重覆下载的机率也可能较高)
        b.统一由某人负责,欲校对者可 mail 该负责人,并将校对好
          的档案 mail 给他。该负责人必须在某一 BBS 或 WWW 维护
          最近记录以供查询。
          (须由专人负责,但管理较简单)


      ◎校对原则 :

        a.只处理错字及标点。
        b.不处理缺字,仅由 "●" 来表示缺字。
        c.不做排版处理。

      ◎传回资料方式: (待讨论,同上之取回资料方式)

   8. 统一缺字处理。
   9. 排版。


●将产生之经文整理并放置在各 FTP 及 WWW Server 办法

  由各 Server 负责人进行。

┌—————┐
│须保存资料│
└—————┘

  1. 原始图档。
  2. 1/4 大小原始图档,以供下载校对用。
  3. 各图档经 ocr 所产生之原始经文。
  4. 由 CCCII 码转成含缺字代码之原稿。
  5. 经网友校对过的经文。
  6. 经过处理排版过的经文。

┌—————┐
│待讨论事宜│
└—————┘

  1. 处理之经文版本。 (最好有二版,以便做快速比对用)
  2. 【缺字-组合字】的统一处理方式。
  3. 【缺字-造字】的统一处理方式,最好各大单位能一起再开一次会议。
  3. 上下载档案的联络、管理流程。
  4. 完稿之排版格式。

====================================

阅读文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org