您有新信

 
《高丽藏》电脑输入工程考察记
#1
发信站: National Sun Yet San University (tpts1.seed.net.tw>, 信区: BudaTech)
各位关心电子佛典的朋友:

下文摘录自:
  http://power.beijing.cn.net/bikeserver/dharma/9608/b9608f09.htm

----------------------------------------------------------------------------

法音

1996年第8期(总第144期)第21页

                       《高丽藏》电脑输入工程考察记

                          乌·阿浦 著  刘建 译

  1995年9月24日,我访问了正在进行世界上最大的电脑输入工程之一《高丽
藏》输入工程的两个办事机构。我将在下面谈一谈我的一些访问观感。我希望,这些观
感不仅会有益于《高丽藏》输入工程,而且也有益于东亚和其他地方正在拟议中的类似
工程。

  《高丽藏》(高丽大藏经)所以非常驰名不仅是因为其不同寻常的版本质量,而且
也由于其木刻经板至今犹存。这些刻于十三世纪的为数80000馀块的大型双面印刷
经板,现收藏于韩国最著名的禅寺之一海印寺内。这一堪称韩国国宝的收藏,是现存年
代最为久远的囊括全部汉文佛典在内的木刻经板珍藏。

  《高丽藏》电脑输入工程的历史不算很长。它实际上是随刘易斯·兰卡斯特教授二
1991年前後前手输入试验而开始的。1993年以来,曾在京都我供职的研究所研习过的海
印寺宗林法师(Ven.chongnim),出任整个工程的主管。在最初试验期间,《高丽藏》头两卷
得以输入电脑,各种问题日益清楚地呈现出来。嗣後,一批僧人和学者开始研究与大量
存在于《高丽藏》中的汉字异体字有关的各种问题。工程募集到一些资金并获得各种形
式的支持;虽在1994年9月于海印寺召开的电子佛典会议期间,我并不曾想到这一
大规模输入行动会很快开始;然而,不久以後,三星公司总裁决定以资金和人员支援这
一输入工程。
  

项目人员

  目前,有两组工作人员从事这项工程:约50人在位于汉城商业区的输入中心,由
三星公司雇□并支付工资。他们的主要工作是将全部《高丽藏》输入电脑。约40人为
打字员;其馀为编辑、负责给汉字异体字列表的大学生和工程师。海印寺雇□的6人在
汉城的另一个办事处工作。他们主要研究与资料传送(资料校正、检索和互联网络等)
有关的问题。

  自1994年底以来,输入一直进展神速。预计基本输入工作在1995年11月
前後完成。三星工作组组长是个电脑工程师,他说他们将力图在1996年第一季度生
产出高丽藏的光盘版(CD-ROM)。海印寺工作组认识到,校正如此大量的电子文
本,很可能需要十年以上的时间,但效法我们将未经充分校正的电子佛典《禅宗基本读
物》光盘(ZenbaseCD-ROM)作为阿尔法版(αversions)发行
的先例,我们可能很快就可以拥有全部《高丽藏》的阿尔法版。

  
汉城输入中心

  汉城的输入设施干净得一尘不染,而且场地宽敞,所需设备应有尽有。输入人员使
用著良好的电脑、稿架、扶手、荧屏滤光器等等。所有电脑均与工程师办公室联网。我
观看过其他各种输入中心,独对这里的整个配置印象十分深刻。

  四年前上海的最初输入试验表明,不是不同汉字的绝对数目,而是《高丽藏》大量
的异体字,会给输入提出最大的问题。人们应当重新创造稍有差异的汉字还是干脆就在
输入阶段将它们“规□化”呢?三星公司的工程师们在负起这一输入工程的责任之後,
决定使用一套与木刻经板上的汉字大小和式样一致的汉字,从而从一开始就消除Big
5(编者注:Big5是台湾的一种繁体汉字编码集)字库的许多问题。这一原则是十
分容易表述的:打字员在屏幕上应当看到他们在纸上所看到的东西,从而在输入阶段得
以免除大多数本来无可避免的斟酌定夺。经验表明,由于牵涉到太多的人,而且这些人
又有著太多的不同意见,这样的斟酌定夺会使输入的资料发生错讹。

  
输入过程和汉字编码

  对于汉字编码,三星公司的工程师们决定采用韩国文字信息处理软件中的一个包括
16000个汉字的汉字编码集。当人们弄清楚这套汉字编码所包括的汉字数量不够用
之时,这一汉字编码集又被扩充了近2000个汉字。由于基本输入工作正在接近完成
,于是加上了第二批类似规模的工作量。采用并非人们普遍采用的汉字编码具有一些优
点:工作人员可以根据需要自由定制汉字及字型,并可以随意扩充汉字数目。在以後的
阶段,必须创建将三星公司的汉字编码集与台湾的Big5、日本的JIS、统一码(
Unicode)等汉字编码集联系起来的转换表。人们告诉我,一个KS编码转换表
已经问世;然而,怎样处理KS编码中没有的许多汉字我尚不清楚。我认为,日本的汉
字词基(KanjiBase)方法至为有用,因为它被设计得可以独立于硬件和软件
之外。

  对于输入工作,三星公司雇□了约40人(大多数为女性),并将他们送到学校培
训。吸引人的屏幕字体,加上以Windows为基础的定制文字信息处理程序,以及
运转迅速的硬件和源于中国的输入方法(编者注:由北京中易公司开发的郑码输入法,
这一输入法已成为Windows95中文版和Windows3·2中文版的标准配
置),提供了一个至为理想的环境。屏幕上的汉字,宛如它们在稿纸上一样,以竖排版
的样式出现,而在轮廓分明的用户界面上编辑文本是容易的。

  输入系统不是以发音而是以字型为基础的;因此,打字员必须学会将一定的字型与
键盘上一定的按键联系起来。这样,在普通键盘上大约平均击键三次即可出现一个汉字
。对于最普通的汉字或短语,可以创造出缩略打法。输入速度极快,令人目眩。

  
缺字处理

  对于系统中没有的汉字,输入人员用一个红圈将纸上的汉字标出,同时往电脑中打
入一个星号。我在一个文字覆盖仅三分之二的屏幕上,数出了多达十九个星号。这就表
明了在所采用的策略中我发现的主要问题之一。一页标著圆圈的稿纸照片上显示,甚至
非常普通的汉字也被标上查无此字的记号,而这已是整个《高丽藏》的三分之二已被输
入之时!当然,按时将缺失的汉字增加到已有的汉字库中,就会消灭这些星号的大多数
。错过这样的机会往往逃不脱一条总的法则:人们未能在最初抓住机会做的事情日後须
用长得多的时间予以弥补。正如资料卷宗中大量星号所表明的,消除星号将成为一个令
人头疼的主要问题。其实可以不必如此,人们甚至可以不用星号,而将不成功的输入编
码存档,并用记号标出其界限。在以後阶段,可使有单一输入编码的汉字自动复位。

  此外,即使匆促一瞥也可以发现,有些被标出的汉字被圈错了,因为它们实际上存
在于汉字库中。打字员可能没有当即找到这个汉字,就输入了一个星号。如果高度看重
速度而监督又不严密,这样的习气将会司空见惯。我在察看一些输入样张之时发现了此
类习惯的充分证据。例如,上面提到的那张照片底部右边的第一个汉字(“顿”,突然
之意)肯定应在字库之中,因而本来是可以输入的。

  
输入质量控制

  这自然使我想到询问质量控制的程度。在我所指导过的输入工程中,我已经注意到
,为了取得良好的资料质量,我们需要进行频繁的无遗漏的资料校正及对输入人员提出
非常严格的体例标准。这样,输入时间就成了相对时间,并且始终应当与资料校正及编
辑时间结合在一起计算。然而,要做到这一点,人们必须实际从事资料校正并编辑这些
资料。对于我提出的输入错误百分比的问题,他们告诉我约为百分之一。如果考虑到校
正通常比初始输入更为费力,这一比例对于这样一项宏伟的工程来说就太大了。然而,
我在反复询问後获悉,迄今为止,对于输入资料的校对工作仅做了一点;这一工作被推
迟到後期阶段。如若由我负责,我将会在输入的几个早期阶段督促打字员校对自己的输
入;在一个受过良好教育的熟悉汉字及其异体字问题的校对员二校通过之後,每一个打
字员都必须改正自己的错误,从而使眼力和思想都受到训练,并教育她们学会将输入速
度与资料质量适当地结合起来。当然,这样的基本质量控制,也会使所有种类的问题暴
露出来,否则,它们将被掩盖起来。我现在将集中探讨这些问题。

  
处理异体字

  处理汉字异体字至为重要;由于木版印刷以手写体为基础,汉字异体字遂层出不穷
。即使每天都让屏幕上显示出来的汉字异体字数量增加,并将它们用便条送达打字员们
,或照我的办法,以输入编码触发联机文件提供,事情也将永远没完没了。的确,《高
丽藏》中的汉字异体字极其丰富,以至一些人以此作为自己的研究领域。在目前的输入
工程中,三星公司雇□了少数大学生将画了圆圈的汉字以及异体字记在卡片上,然後再
将它们编目。

  由于这一具有相当规模的卡片目录抽屉表现出朝鲜字母体系的特点,我以为整个目
录是按照读音分类的。然而,汉字异体字与罕见汉字的读音常常不是无人知晓就是难以
确定。为什么不根据以字形为基础的输入编码安排它们,从而也让打字员参看它们呢?
一个原因可能是,汉字异体字的审定者是韩国一家大学的教授,过一段时间□来汉城一
次并带来与那些汉字异体字“同等”的汉字一览表。他本人可能不会打字,因而不能使
用输入编码。我不清楚,人们在输入阶段对这位教授的指示执行得有多么严格,但从少
数记在打字员桌上的的汉字异体字判断,我以为汉字异体字“规□化”的大量工作也推
迟到了较後的阶段。

  
异体字规□化

  对于汉字异体字需要规□化到什么程度的问题,通常是从错误的出发点来著手处理
的。总之,印刷商的思维定势依然在起作用:印刷商不能将两个汉字上下叠著印刷,必
须选择出一个单一的字来,因此,更倾向于“规□化”(正字),亦即选定汉字标准字
形,而不是他本来不得不造的汉字异体字。然而,□要加上允许过滤的特殊标志,电子
文本却很容易允许在同一位置采用任何数量的汉字。我们可以根据当时需要,给普通用
户显示普通汉字字形,给专家显示汉字原有字形。换言之,电子文本在得到正确标志之
时是灵活的,可以轻而易举地适应特定需要。

  因此,电子文本的标准化实质上是一项软件任务,但必须为此做一些准备。若此事
由我决定,我将把扫描出来的异体汉字联机列表,使之能为打字员使用,以至他们可以
简简单单地在实际看见的汉字列表上用鼠标点取;然後将输入那位教授所提议的“正体
字”,并加上指明异体汉字序列号的标记。这几乎不会给打字员们造成更多的麻烦(□
须对屏幕多看一眼并多击一键),但却给随後的文字处理提供了价值难以估量的信息。
首先,保证数据资料的最好质量,以避免仅仅受限于一个专家的判断。其次,它将使随
後的批量校正成为可能。第三,它将促使各种版本的问世,并可为对汉字异体字有兴趣
的研究者们提供一个版本。第四,它将极大地有利于转换成现在和将来的各种汉字编码
,这一点或许最为重要。例如,日本的JIS编码包含著数目惊人的汉字异体字;Bi
g5编码则几乎没有这些汉字异体字;统一码(Unicode)将包括相当数目的汉
字异体字,而某一未来编码(或供专家用的编码)甚至可能兼有它们的全部特点。□要
有合适的软件技术,所有这些特性,包括我们还没有注意到的一些特性,均可以实现。
致力于规□化当然需要,但规□化不应当影响原始资料,而应当作为服务于特定用户和
特定目的“处理”这些原始资料的一个部分。用我在《电子达磨》第三卷中用过的比喻
来说即是:输入资料应当像一盘音乐母带,在信息上尽可能最为丰富。这种丰富可以在
後来减少下来,以满足特定的需要和模式(例如盒式录音带)。从多到少的路是容易走
的;但是,任何热爱Caruso录音机的人都会确认,由少至多几乎不可能是顺利的
。

  
程序性标记与描述性标记

  上面指出的一些问题是由于电子媒体问世未久以及我们对于电子文本缺乏经验。这
在汉城输入中心亦显而易见。在那里约有六人在校正输入资料的格式,删除或增加回车
符,以便使电子文本与印刷版本如出一辙。就我所知所有这一切纯属程序性工作(程序
性标记),没有考虑内容方面的任何问题。例如,每篇佛经的标题通常置于一个单行,
接著是回车。通常,印刷版面编排立即辨识出这是一个标题。至于电子文本,人们需要
输入显式标记,以使这一隐式信息更为明晰。例如,人们可以从菜单检索佛经篇名并选
择“章节标题”。可以在选择好的一行文字的开端加上〔HEAD2〕字样,而在其末
尾加上〔□HEAD2〕字样。佛经篇名可用〔HEAD1〕和〔□HEAD1〕予以
标记。这一简单措施可能会使成千上万的不同标题以特定的标识固定下来,或给《高丽
藏》的所有篇名和小标题创立一个综合索引。与程序性标记(手工选择每一篇名作标识
)相对比,这被称为描述性标记。就《高丽藏》输入工程而言,描述性标记可用于各种
目的。除了一个例外,下面诸例均很容易实现,并成为编辑过程的一部分:

  各种层次标题的标记;
  卷帙信息的标记(例如“第二卷”);
  作者名字的标记;
  目录的标记;
  段标记;
  经版边缘信息的标记(例如刻工姓名);
  大汉字的标记(例如《高丽藏》中包括的词典检索词);
  较小汉字的标记(如在注解中);
  诗偈和其他明显格式的标记;
  不同种类空白标记(例如两行诗之间的空白,一行开头的相当于敲击tab键一次
造成的空白,等等);

  用统一标号对异体字进行的标记(无论如何,所有星号都必须由汉字取代,这将是
一个好的开端)。

  这种描述性标记将极有利于随後的工作;例如,与这些文本相对应的汉文文档,可
以全自动地生成,或所有异体字形态均可以通过一个命令就被列出。

  现在还不清楚三星公司在数据校对和编辑工作中将介入多深;然而我认为,至少在
资料校对的第一阶段,原文与输入资料打印稿的逐字校对,应当被视作输入任务的组成
部分。在第二或第三阶段,人们还将阅读文稿的内容,用彩色铅笔作基于文稿内容的标
记,例如:标点符号,人名,佛菩萨名称,地名,著述名,引文,注释,如此等等。

  
电脑专家?还是学者?

  电脑专家标记的第一阶段应该起突出作用,并为良好的数据质量奠定基础。他们对
电子文本及其独特成分、格式和可能性知道得越多,他们的工作就会干得越好。这意味
著,从第一阶段开始,对电子文本有经验的学者就应当参与。正如我对这个项目的一些
方面作评估时显示,这样的咨询可能节省成千上万个工时,并极大地提高原始资料质量
。然而,越是深入佛经内容的标记,这一领域的传统学者所起的作用就越大。任何电脑
专家都标点不了古代汉语佛教典籍,更不要说从事更为重要的标记工作了。这种标记工
作的大部,甚至能由不熟悉电脑的学者来完成;一个人□要配备一套彩色铅笔,就可以
在纸上做大量此类工作。

  当然,电脑专家(他们也许知道什么是可能的)和学者(他们必须掌握什么是需要
的)之间的合作始终都是十分重要的。

  如果计划管理良好,描述性标记最终将带来电子文本与生俱来的优势,其中一些我
们已经知道,更多的我们尚在忽视。它将大量数据联系起来的能力,使人们可以实现一
个重要目标,即将经版信息与辞典信息联结起来。我们可以仅仅检索一个特定人物或特
定时期译出的佛典文本,或点击一个人名,就可以获得辞典的相关条目。无论如何,有
一件事是肯定的:最初将高丽大藏经镌刻到木版上并在每刻一字前作一次顶礼的虔诚的
佛门弟子,做梦也无法想到他们的劳动果实今天正在获得一种新的形态。如与他们的辛
劳相比,十一二年的资料校正和内容标记可能就不能算一项艰难的任务了。即使为了他
们,人们也应当不辞劳苦,创造出一个高质量电子版本,确保它还能再留存另一个一千
年。

------------------
摩诃工作室.吴宝原
E-mail:maha@tpts1.seed.net.tw
Tel:(02)6741715/Fax:(02)6741716
Mon Apr 7 09:50:32 1997
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org