看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1128/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: Heavenchow@Lion (Heaven), 信区: BudaTech
标  题: Re: 成立佛典缺字讨论小组
发信站: 狮子吼站 (Mon Jan  5 09:38:45 1998)
转信站: Lion

本篇给各位参考, 若有兴趣的朋友, 欢迎加入佛典缺字讨论小组,
至该小组讨论下去. 谢谢!

  §罗嗦的契子§

在 25T 小组处理经文时, 讨论到最後的成品, 我曾对 maha 建议,
网路上大正藏第九册的格式太麻烦了, 而且很浪费空间, 若要做到
保留完整资讯, 可在每一段做个记号, 如此阅读比较清爽, 档案也
会变小. maha 立即向我说明, 这样在校对时很方便, 立刻可以知
道是何页何行何字, 在其它的处理也很方便. 日後要改, 则怎麽改
都可以....

後来听说 open 98 根据这种格式, 不到二小时就将六十华严全文
检索做出来, 并在其「再论补字机制」 提到 :

「在CCS 2.0 (参考www consortium)的规格中有一个很重要的观念
  ,即电脑萤幕及平面纸张只不过是同一份Core data (核心资料)
  的两不同出版方式而已,所以其内建有出版至萤幕或纸张的指令
  。」

也就是说, 我上述的想法犯了一个错误, 就是想将原始资料、成品
结果、其他处理来源(如全文检索)... 都希望是同一份东西, 所以
处处都遇到捉襟见捉肘的窘态, 怎麽都做不到一举数得的结果. 如
今这个观念, 的确是给了後学一些想法上的出路, 原始资料归原始
资料, 日後要怎麽展现或处理, 都是各人的事, 重点就在「如何输
入原始资料」及「如何展现成品」, 分开来想的确简单多了, 於故
试著整理自己在三篇补字机制及 25T 小组的处理心得, 看能不能整
理出些什麽给大家参考.

  §古早的问题§

缺字最老的问题, 大概就是造字的空间不足. 各家造字的乱象不谈
 (骂了好多人 :p)这个问题也是各家都会遇到的. 看了一些报告,
最常听到的做法是「将最需要的放入」, 比较不重要的就用组合字
或其它方式处理掉. 但什麽才是需要的? 若是输入 30 册大正藏,
重要的字就填满了, 其它的几册怎麽办? 除非大正藏及其它的辞典
, 工具书全部都出来了, 再来麻烦中研院等大机关来裁决?

日後或许会有不少新的标准出来, 但在这之前, 问题还是要解决,
我本来是放假完才要整理这一篇, 但有人觉得事情比较急, 故我就
先写了. 我们是可以慢慢玩, 但资功会及佛光山都是在陆续出成品
的单位, 他们可等不得, 拖愈久则问题愈多, 我想大家都能理解.
现有之 CNS , CCCII , Unicode 及讨论中的 big5-plus(?) , 都是
字较多的东西, CNS 及 CCCII 25t 小组有玩过了, 至於 OPEN 98
则认为 Unicode 会成为标准, 我想其自有专业的眼光. 若有机会,
可请其另文撰写, 发表看法. 这里只是要说, 在这些标准出来之前,
我们必需有一个自己的暂时标准, 并且能容易的转到後来的规格中.

现在就以补字机制及其它心得以「成品输出」及「资料输入」二个
角度来探讨, 看看是否有什麽问题在其中.

  §成品输出§

成品输出就是利用「原始资料」或称 Core data (核心资料) , 再
利用程式转入下列各种格式的成品. 有些如 Word , 则可以利用
Word 的巨集将核心资料转成其可展现的结果.

在此, 小弟只讨论异体字及缺字, 其它如天城体及罗马字母等, 我
没有去仔细想过.

●缺字 : 使用造字空间, 诸位专家们都说真正的缺字实在不多...
         我们就先这样同意好了.

  ○在特殊读经器 (如 OPEN 98 )  : 直接输出
  ○在支援多字面程式 (如 Word ) : 直接输出
  ○在支援图形的介面 (如浏览器) : 直接输出
  ○在纯文字模式 (如笔记本)     : 直接输出
  ○在 dos 模式 (如 pe2 , 汉书) : 直接输出

  ※以上或有兼具多特色的程式, 如 Word 可直援字面及内嵌图形图形.
  ※支援多字面程式, 即可同时看到明体, 楷书等同字(码)不同形的程式.

●异体字 : 使用标准 Big5 空间, 但使用其它字面. 在输出时必需有正
           体字, 字面编号, 异体字形的完整缺字表格.

  ○在特殊读经器 (如 OPEN 98 )  : 直接输出
  ○在支援多字面程式 (如 Word ) : 直接输出
  ○在支援图形的介面 (如浏览器) : 转成图档
  ○在纯文字模式 (如笔记本)     : 1.直接转成正体字 2.转成正体字
                                  但加上标记 3.转成组合字
  ○在 dos 模式 (如 pe2 , 汉书) : 1.直接转成正体字 2.转成正体字
                                  但加上标记 3.转成组合字

  §资料输入§

●缺字 : 由於使用造字空间, 只要提供良好之输入法, 则与一般字输入
         无异.
●异体字 : 在「三论补字机制」一文中, 作者提到为了「兼顾应用(人容
           易读)及流通(机器可读) 便利」提出了的 OPEN 98 经文原始
           档规格的建议, 格式有点类似 <#Vn>[正体字] ,而打算使用
           词库的方式来输入, 以避免使用者查表的困扰.

           这个方式以前 maha 也和我提过, 是为了要输入组合字用的.
           例如[□*木]这个字, 对仓颉的使用者可能会输入[女一木]=[VMD]
           , 只是在组合字时, 希望能输出[□*木]而 OPEN 98 的规格
           可能是输入<#V1>[床]. 输入原理相同, 但 maha 好像提过,
           通用词库无法输出半形字, 有关这方面及通用词库使用法,
           能否请 maha 介绍一下.

           或许我们可以输入[?女一木]或[?VMD], 到时再用转换程式
           依缺字表转换即可. 只是要考虑重覆字的情形, 例如梵网中
           [□*木]的缺字, 即是用 VMD.GIF 的图形来表示. 又想到一
           点, 若用[?VMD床], 大概就比较不会重覆了吧! 这类方法缺
           点是在转换前, 可能不易看出是什麽字.

  §其它§

其它要讨论的事及 OPEN 98 提出来的功能亦不少, 如检索 (异体字可用
正体字检索) , 加入其它标记, 让文章可依作者, 段落...等等您想得出
来的方式检索 (当然, tag 就要再定义下去) , 不过这些比较和缺字无
关, 又如 OPEN 98 亦提到可将自家之造字以另一字面来看待, 这样就可
以不动到核心资料....  等特异功能, 後学已无力再思索下去了...

总之, 核心归核心, 展现归展现. 是一个很好的观念. 以经典系列及梵网
为例, 经典系列是以纯文字档为核心, 所以展现出来的资料就是纯文字.
而梵网则是曾国丰的力造, 有兴趣的人可以去看看. 尤其在古文格式上,
我个人认为不错. 但我曾问过他一个问题, 若有 user 想 copy 资料,
您要怎麽还原? (因为他大量用了 JavaScaipt 在处理, 但处理时很方便,
但还原可能就有点麻烦). 他是说为什麽还原? 我说因为想在家里看, 或
是其它处理.... 那时结论是东坡站还是有原稿, 不然以後也可以提供
Html 格式档, 让 user 下载. 我想可以这样说, 梵网的整体很不错, 但
就是不易变更. 而且他辛苦的加上了作者, 校对者及其它线上注解, 在原
始档案有些可能没有, 也就造成了多份原始资料的场面出来. 在後来的发
展上是比较麻烦的.

这时若能将大家认为重要的资料加入核心资料中, 在成品展现及资料处理
上则大家各凭本事, 都是很好的方式. 而这些就有待大家的共同讨论了.

[问题一] : 若异体字和正体字不是全然相等时, 如何处理?
[问题二] : 有人问及通用字库的作法及限制? maha 能否提出心得.

  其它则看不到什麽问题, 只是一些规格讨论, 欢迎大家提出看法.

  heaven
--
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 140.113.87.165]
阅读文章: 第 1128/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org