您有新信

 
电子版大藏经输入计画
#1
发信站: (novell.zcom.com.tw>, 信区: BudaTech)
	※ 电子版大藏经输入计画 ※

┌——┐
│缘起│
└——┘
	由於近日诸多因缘配合,让一些朋友觉得可以开始
	改变以往被动整理网路上网友输入的经文,而改为
	有计画的主动输入大藏经,以产生一套电子版的大
	藏经,以完全免费的方式提供大众。
┌——┐
│计画│
└——┘
	完成一套完全免费的电子版大藏经。
┌——┐
│目标│
└——┘
	产生经过初步校对并含有基本标点符号的电子经文。

┌————┐
│工作内容│
└————┘

	1. 处理现有的 CCCII 格式之大正藏资料。
	2. 以 Scanner + OCR 来产生电子版大藏经。
	3. 将产生之经文整理并放置在下列位置 :

	   a. 东坡站 FTP Server
	   b. 梵网 FTP Server
	   C. 经典系列 WWW Server
	   d. 梵网 www Server

┌————┐
│工作细节│
└————┘

● 处理现有的 CCCII 格式之大正藏资料

   1. 使用转码程式将 CCCII 码转成 Big-5 码。(已有现成程式)
   2. 使用程式来依 CCCII 原稿来寻找 Big-5 码中的 ASCII 码为
      0xFFFF 的字,这表示该字在 Big-5 为缺字部分,依此产生一
      缺字档。(程式待写)
   3. 手动将缺字档做成【缺字-缺字代码】对照表。(人工处理)
   4. 使用程式利用【缺字-缺字代码】对照表并参考 CCCII 原稿将
      Big-5 码档中的缺字更换成缺字代码。(程式待写)
   5. 整理缺字资料,进而做出【缺字代码-通用字或组合字】对照表。
      (人工处理)
   6. 再使用程式利用【缺字代码-通用字或组合字】将含有缺字代码
      之Big-5文件之代码转成通用字或组合字。(程式待写)
   7. 若有 CCCII 码转 Big-5 码有问题的字,亦可使用上述方法
      来还原成正确的字。(程式待写,同步骤 3 - 6 )
   8. 初步校对。(错字及标点)
   9. 排版。

● 以 Scanner + OCR 来产生电子版大藏经

   1. 先找出最好的二种佛经版本及光学辨识效果最好的扫瞄 DPI 值。
      第一个版本为主要版本,建议为大正藏。第二个版本为对照版,
      目的是利用不同版本的经文比较可加速比对出经文错误之处。
      故第二个版本可为 CCCII 版本转成之 Big-5 码档,或是佛教大
      藏经现有之图档所辨识出之经文,或是第二种大正藏版本之经文。
   2. 使用扫瞄机大量扫瞄佛经。
   3. 使用去杂点程式去除图档中的杂点。 (此程式已初步完成)
   4. 进行 OCR 文字辨识,以产生初步二种版本之文字档。
   5. 将二种版本的文字以程式进行比对,以快速找出相异之处。
      (此程式已初步完成)
      注: 若本步骤比对校果不佳则省略。
   6. 将此档案及图档(缩小四分之一)统一放置管理。
   7. 开放由网友传回上述之图档及文字以进行校对. 校对後再传回。

      ◎取回资料方式: (待讨论,目前的方案计有)

        a.统一放置 FTP Server,由下载者至某一 BBS 或 WWW 登记。
          该 Server 并提供下载及校对上载的记录供查询。
          (难度较高,并重覆下载的机率也可能较高)
        b.统一由某人负责,欲校对者可 mail 该负责人,并将校对好
          的档案 mail 给他。该负责人必须在某一 BBS 或 WWW 维护
          最近记录以供查询。
          (须由专人负责,但管理较简单)


      ◎校对原则 :

        a.只处理错字及标点。
        b.不处理缺字,仅由 "●" 来表示缺字。
        c.不做排版处理。

      ◎传回资料方式: (待讨论,同上之取回资料方式)

   8. 统一缺字处理。
   9. 排版。


●将产生之经文整理并放置在各 FTP 及 WWW Server 办法

  由各 Server 负责人进行。

┌—————┐
│须保存资料│
└—————┘

  1. 原始图档。
  2. 1/4 大小原始图档,以供下载校对用。
  3. 各图档经 ocr 所产生之原始经文。
  4. 由 CCCII 码转成含缺字代码之原稿。
  5. 经网友校对过的经文。
  6. 经过处理排版过的经文。

┌—————┐
│待讨论事宜│
└—————┘

  1. 处理之经文版本。 (最好有二版,以便做快速比对用)
  2. 【缺字-组合字】的统一处理方式。
  3. 【缺字-造字】的统一处理方式,最好各大单位能一起再开一次会议。
  3. 上下载档案的联络、管理流程。
  4. 完稿之排版格式。

====================================
NEWS/INFO National Sun Yat-San University Sat Oct 11 01:48:24 1997
回覆 | 转寄 | 返回

Re: 电子版大藏经输入计画
#2
发信站: (novell.zcom.com.tw>, 信区: BudaTech)
[请各位注意: 由於目前 buda-tech mailing list 回信时, 收信者会
 自动列上发信人的位置, 和以往列上 buda-tech@buddha.nsysu.edu.tw
 不同, 若是各位要回信至 mailing list 者请自行转换.]
==================
> 很久没上网, 今日收email 却状况多多, 但还是有幸看到此计划, 
> 敢问这是您个人的发心还是您结合了一批人要进行, 还是只是
> 您个人最近的从事电子佛典的工作整理.

  谢谢您的关心, 这份计画是一些朋友在私下讨论後略得的结果.
  由於日前 mailing list 主机硬碟出了点状况, 几位朋友就私下将
  以前所开发出来的一些程式, 打算进一步整合起来以便更主动
  的事经典电子化, 加上最近萧先生提供了CCCII 码25 册大藏经
  , 对我们更是莫大的助益. 而美国佛教电脑资讯库功德会及台
  大佛研中心亦很有兴趣参与, 在可见的未来, 希望能有更多的
  朋友来加入.

  如 maha 兄曾在 mailing list 所言, 我们主要是提供技术上的支
  援, 尽量以电脑来取代人力, 我想目前可能是由佛研中心出面
  处理 CCCII 码部份, 而实际上, 全部工作大多是靠众人之力来
  一起完成. 日後有什麽进一步工作计画, 自会在 buda-tech 上
  发布, 希望大家一同来关心, 谢谢!

> 去杂点程式能否给末学一份.

  这个程式目前尚在测验阶段, 有它的限制在, 其实验报告
  已由 maha 兄发布过一些, 实在感谢他的辛苦.

  程式参数说明可使用 fgmvdot /c /? 来取得, 目前限制大概有:

  1. 只能处理黑白 bmp 格式的图档, 希望日後有能力直接处理 tif 档.
  2. 仅能处理大正藏格式 (使用参数 /T) 及佛教藏格式 (使用参数 /B)
      , 目前计画是加入续藏经的杂点处理能力.
  3. 杂点宽度的大小, 请自行估计, maha 兄日前的报告有提到.
      佛教藏就是那些黑圆圈的宽度, 大正藏就是那些 "-", "=" 符号的
      宽度. 日後在程式中公布最佳值. :)

  Heaven
NEWS/INFO National Sun Yat-San University Sun Oct 12 10:35:51 1997
回覆 | 转寄 | 返回

Re: 电子版大藏经输入计画
#3
karma
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於  ("Heaven") 文中述及:
:       ※ 电子版大藏经输入计画 ※
:
: ┌——┐
: │缘起│
: └——┘
:       由於近日诸多因缘配合,让一些朋友觉得可以开始
:       改变以往被动整理网路上网友输入的经文,而改为
:       有计画的主动输入大藏经,以产生一套电子版的大
:       藏经,以完全免费的方式提供大众。

    我写了一些 Java Applet, 可以让无中文视窗系统之使用者
    (如居住国外) 或是非 Big5 内码之使用者得以观看 Big5 中文文件.

    请参考

    http://www.neto.net/~lmy/

    如果有我可以帮忙的地方, 我很乐意协助本计划.
Tue Nov 25 15:43:15 1997
回覆 | 转寄 | 返回

Re: 电子版大藏经输入计画
#4
发信站: (tpts1.seed.net.tw>, 信区: BudaTech)
karma wrote:
> 
>     我写了一些 Java Applet, 可以让无中文视窗系统之使用者
>     (如居住国外) 或是非 Big5 内码之使用者得以观看 Big5 中文文件.
> 
>     请参考
> 
>     http://www.neto.net/~lmy/
> 
>     如果有我可以帮忙的地方, 我很乐意协助本计划.

非常欢迎您加入佛典电子化讨论。

我是个一般网路使用者, Java 什麽的我是不懂。刚上您的网站
一看,发现一个小问题。以下这两个地方,怎麽我一进去,只要
玩到下头的PageUp、PageDown等按钮,没几下就当机了:

Introduction to JACTERM This is a Chinese document, but no
Chinese-enabled browser is
needed to view the file. 97-06-28 14:23

Copyright, Chinese document, no Chinese system needed.

我是使用中文WIN95,流览器是 Netscape 3.0中文版。

*******

我有看到您以倚天16字形所做的demo,虽然看来不怎麽亮丽,但
应该是一种突破吧!

您说目前尚无法输入中文,那麽,假如以後可以输入中文,是不
是就可以针对文件来进行中文检索查询?

□□□□□□□□□□□□□□□□□
 摩诃工作室.吴宝原
 E-mail:maha@tpts1.seed.net.tw
 Tel:(02)6741715/Fax:(02)6741716
□□□□□□□□□□□□□□□□□
NEWS/INFO National Sun Yat-San University Wed Nov 26 00:12:43 1997
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org