您有新信

 
【佛教文宪造字会议】会议记录
#1
Post Gateway
发信站: 由 狮子吼站 收信 (cctwin.ee.ntu.edu.tw , 信区: BudaTech)
Subject: Buddhism Word Creation Conference

    主    题:佛教文献造字会议

    主 持 人:谢清俊  教授

    引 言 人:释恒清  法师

    时    间:一九九五年九月二十六日(星期二)下午一点三十分

    地    点:台北市罗斯□路四段一号(台大哲学系一楼会议室)

    主办单位:台湾大学文学院佛学研究中心

    录音整理:摩诃工作室

—————————————————————————————————
1A.不明之文句以同音字置於【 】内,语意不全或录音不清以... 表示
—————————————————————————————————

    (与会者自我介绍不完整,只整理谢清俊教授部份)

    <主持人自我介绍>

    谢清俊(中研院资讯科学研究所):

    在中文方面,我从民国六十年开始一直到现在,做了二十几年的中文。
所以佛经方面,大家造字有问题的时候,就跑来找我。我是多管□事,既然
有问题的话,我尽我的能力帮大家解决。其实中文电脑在现在非常普遍,用
的人也非常多,我想有能力解决这个问题的人也非常多。

    今天报告的东西主要是我们庄德明先生做的,等一下我们会把我们这边
已经做的事情跟各位报告一下。

    我现在在中央研究院资讯科学研究所,在所里面我也是年纪最老的一个
,所以他们通常不太管我做什麽事。吴大猷先生以前还没辞院长时,给我一
个聘书聘到公元二○○五年,所以我现在也没有升等的压力,没有出版论文
的压力,所以我确实有时间来替大家做一些事情。

    等一下我们会把我们已经做的事情跟各位做一个示□,也非常欢迎大家
的批评。因为这个做服务的事情,服务的对象是最重要的,各位要利用这个
系统解决什麽问题,不能由我们闭门造车来想。

    这个问题刚刚也有些菩萨提到,说事实上儒、释、道都有这个问题,其
实不只啦,所有用中文电脑的都有这个问题。我昨天在行政院开推动资讯小
组的会议,有人在内政部大声疾呼,他说现在政府的办公室自动化做不下去
了,因为就碰到造字的问题。他说「台湾」的「台」,正写的跟简写的没办
法通,检索的时候怎麽办?诸如此类,很多这种问题。所以这个问题事实上
,我们今天所谈的是一个最基本的问题,要整理电子佛典的话,这个问题非
克服不可。所以事实上也不限於我们这个会议里面,假如我们能够真正把这
问题解决的话,我觉得对中文电脑界都满有好处的。

    我刚刚听倚天刘先生说标准局也在解决这方面的问题,那很好,因为大
家都重视这个问题的话,我们正可以集思广益,把这问题解决掉。不过我先
跟各位报告一下,这个问题似乎不是那麽简单,如果是很简单可以解决的话
,老早就已经解决了。这个问题事实上牵涉到很基本很基本的一些问题,就
是现在整个中文电脑的环境不够好,你要把现在整个中文电脑环境改变的话
,那这个是相当相当长期的事情。好在我们现在佛教界我觉得满合作的,而
且问题也比较单纯,问题也定义得比较严谨,所以假如我们大家有心来解决
这个问题的话,我相信是可以解决到相当的程度,使我们这个电子佛经可以
大家互相的来流传。

—————————————————————————————————

    释恒清(台湾大学文学院佛学研究中心):

    刚才谢教授说,这件工作不简单,可是并不是不可能,所以我希望这次
会议是一个起点。我们也不寄望一次会议就可以把问题解决,如果以後有需
要,我们台大佛学研究中心愿意扮演连络的角色,像这样一个地方,交通又
很方便,这样会议的地方我们可以提供,一些跑腿的工作我们可以来做。我
相信大家共同的愿望就是希望能够把这个造字的问题解决,这个功德应该都
是属於大家的。我现在就不多浪费时间,就把整个会议交给谢教授跟庄先生
。

—————————————————————————————————

    <会议资料说明>

    ... (台湾大学文学院佛学研究中心):

    首先我们先看大的这一份「佛学文献造字会议的课题」,这是我们今天
所要讨论的课题,这里有牵涉到我们可能会讨论到的两个问题。第一个是汉
字造字的问题。另外一个比较没有被谈起的是梵、巴、藏、罗马字转写的问
题,其实这个问题在我们做佛典或佛教文献的时候也是相当重要的一个部份
,所以今天我们就把这个纳入到我们关心的主题里面,也希望大家能够提供
一些意见, 因为这个牵涉到在 PC 版或 MAC 版或是在 DOS、WINDOWS 底下
能够共用的一些问题。这一张的下面就是我们提出关於台湾或整个世界上内
码混乱的情况,然後还有今天我们进行的方式。

    另外一份「佛典共用造字集的规画」,在前几天已经事先寄给你们,这
是庄先生等一下会跟各位报告的。

    另外还有一张「问题、字母、外字集」,这也是庄先生今天再补充给各
位的一份资料。

    另外还有一张有很多码,这一张是我们从日本花园大学的 CD-ROM 上面
COPY 下来的, 它原则是属於他们日本禅学的一些造字,可能可以做为我们
今天开会的一个参考。 就是说看他们是怎麽做,他们选用的是 BIG-5 码跟
他们的 JIS 码,那他们怎麽样做一个转换, 我想这也是一个满好的参考资
料。

    另外还有一份「 EBS 1001 佛典中文输入规则」,刚刚已经有介绍过了
,是我们临时印出来的。

—————————————————————————————————

    <会议开始>

    谢清俊:

    我们今天这个会,根据台大佛学中心规画的课题,有字码的问题,有梵
、巴、藏、罗马字转写的问题,还有中文电脑系统的问题,还有进行的方式
。造字这个问题所牵涉到的,我大概跟各位介绍一下。

    造字这个问题需要一个很良好的沟通环境,因为造字是随时会增加的,
如果没有一个良好的沟通环境,有了新增加的字,把这新增加的字的码定下
来了,那别人不知道,别人也不会去用。所以要解决造字问题,我觉得首先
要解决就是沟通的环境。这个沟通环境,当然我们终极的环境,我们是希望
有一个网路送到大家的每一个办公室、家里,你随时要查的话,从网路上就
可以查到这些字,但是这一个理想可能还要好几年才能实现,因为现在有很
多单位的网路事实上并不见得能够通过去。

    所以我们这个造字的问题在构想的时候,我们可能分两个阶段。第一个
阶段,我们还是用离线的方式来解决造字的问题。所谓离线的方式就是说,
希望有一个管理的中心,这个管理中心能够汇集大家的造字,把这个字的码
、属性还有一些相关的东西都准备好了以後,定期的有磁碟片送给所有要用
的单位,那所有要用的单位就可以从这个磁碟片上去找在这一段期间里面有
没有这个字。如果有这个字,这个字的字码是什麽、各种输入码是什麽、字
形是什麽、有关的属性是什麽,这些资料在问题里面一次就通通把它解决掉
。另外可能还有一个方式就是印书,因为有很多工作环境还不见得是跟电脑
配合来用的,所以在开始的时候我们还印一些索引字典之类的,把所有的造
字印上去。

    这些造字事实上是大家资讯共享的合作结果,也就是说这些字不管谁造
,佛光山造也好,法鼓山造也好,西莲净苑造也好,一旦造好了以後,这些
资料收集好了以後,我们是希望所有的佛教团体都可以享用它。这就好像图
书馆界的书目共享是一样的,一本书有书目资料,只要有任何单位把书目资
料做好了,那麽所有的图书馆都共享,大家不必要再花时间再去从重新做这
件事情。所以这个造字问题的解决,我们是希望朝著资讯共享的方式,很平
等的来做,没有任何的歧见,只要参加的单位都可以用,也不一定是要佛教
的团体。

    我们希望这个系统做到最後就是在网路上。我们假设一个情况,在网路
上我们要查询或者是输入一些资料,当你操作键盘的时候,你发现有一个字
你怎麽样打电脑都出不来。这个时候,当然有一个可能是你打错了输入码,
这个问题我们现在先撇开不谈。假如你没有打错输入码,很可能就是这个系
统里面没有这个字。没有这个字的时候怎麽办呢?我们就是希望能够在网路
上直接叫另外一个程式出来,就是叫我们网路字形服务的造字侍服机构出来
,然後你可以告诉它,你输入不进去的字是什麽样子的字。在这种情况之下
,多半这个字的发音很不容易,偶而会知道这个字的发音,但是多半是看到
这个字的字形,因此你必须要描述一下这个字,给系统知道这个字是什麽样
子。

    那当然我们可以用我们的背景知识,比方说这个字虽然我不认识它,但
是我知道它是什麽部首,它可能是三点水,可能是「言」字旁,可能是草字
头;或者是我知道怎麽数笔画,我把笔画数出来就可以整这个字。坦白来说
,是可以用这些资料去查这个字的。比方说这个字是三点水旁的,大概十七
画,那麽你可以把这些经过一个制式的表达在网路上去查这个字。

    如果已经有这个字了,问题很简单,问题不大。因为到了资料库里面一
查,把这个字查到了,水字旁的十七画的或者十八画、十六画的字一共有二
十五个,那麽你看一遍有没有很快就知道了。所以事实上资料库有这个字的
话,问题不大,资料库里面就可以马上把这个字的内码是什麽、各种输入码
是什麽、它的部首是什麽、笔画是什麽、发音是什麽、它有哪些构词,甚至
於说有哪些异体字,我们希望这个资料库里面可以把这些东西完整的提供出
来,你就可以用了。

    那麽如果你系统里没有这个字,我们也希望有一些软体能够把资料库上
面拿来的这些跟字有关的知识放到你的系统里去。比方说有些字形可以放到
你的 FONT SERVER 里面去,有些 ATTRIBUTE 资料可以放到你自己的小资料
库里面去,输入法可以放到你的输入法里面去,那麽你下次就可以用这些东
西。这个地方还需要做一些软体工具,来帮忙大家把东西弄进去。

    我要解释一下,字形的变化是很多的,有各种体,有宋体、明体、隶书
、圆体、黑体,甚至於还有些各式各样的中国书法上的体;这些东西的变化
也很大,有 DOT MATRIX 的,也有 SCALABLE 可以缩放的。这些东西如果各
位要的话,我想这个字的 SERVER 没有办法提供所有的字形。因此在我们的
构想里, 我们希望大家以後就是一种字体的矩阵式,比方说 24 × 24,仿
宋体或者明体; 还有一种字体的 SCALABLE FONT, 比如说仿宋体或明体的
SCALABLE FONT。这个系统所提供的免费资料就到此为止。

    如果你还需要一些更漂亮的字、不同的字体,那麽这个系统应该有一个
WINDOWS 可以连到倚天、华康、文鼎这种提供字型的公司。我跟倚天谈过,
也跟华康谈过,也跟文鼎谈过,他们的主持人原则上都同意说我们这个系统
发展好了以後,他们愿意提供一个介面跟他们的系统整个连起来。那麽怎麽
样收费?那以後再谈。就是说,我们如果造了一个字以後,不是给一个单位
用;造了一个字以後,放到这里的话,我们是所有的单位都可以用,不用每
个单位造一次这个字就被这些造字公司再收一次钱。

    我们这些安排大致上就是这样子。但问题是,有时候你要找一个字,这
个字在资料库里不一定有。如果你要找一个字,这个资料库里没有,你怎麽
办?这个是比较头痛的问题。那我们现在想了一个办法,我们就把这个字的
结构用一个制式的表达方式把它表达出来。这个字的结构,按照我们中国人
的习惯,弓长张是横的拼的,立早章是直的拼的,言身寸谢是横的拼的,利
用这个字的结构,我们像四则加减乘除运算一样,我们做一个非常简单的所
谓的制式的表达。

    如果你发现一个字,这个字我只看到有这麽一个形,我不晓得它的笔画
,也不晓得它的部首,什麽都不知道,但是我们希望你能够用这种制式的表
达去找这个字。这个制式的表达,我们不一定要你写得很全,你可以写一部
份。比如说我要找一个字,这个字里面有一个【绞丝】旁,那这个系统就把
所有有【绞丝】旁的字,根据字形【家族】的变化,它把整个变化的【家族
】通通给你,你去找有没有这个?如果有了,就跟我刚刚讲的一样,这个字
已经解决了,这所有的资料下来你就可以用了。万一说没有,那麽这个时候
就要商量怎麽处理这个新的字。

    因此我们现在的构想就是用字的结构,也就是你看到这个字以後,你只
要认出这个字中一部份的字根,它所谓的组件,大陆上把它叫「部件」,就
是 COMPONENT, 你就可以利用这一部份 COMPONENT 去系统里面找那个字,
如果找到了,问题通通就解决了。

    如果找不到的话怎麽办呢?这有几个方法,第一个方法,你知道找不到
了,那麽你那个单位如果有人力、有这个工作上的配合的话,你就可以去造
这个字的字形,你可以查一些字典。究竟查哪些字典呢?可能我们要商量一
下,就是说我们要查一些我们信得过的字典,是哪一个版本的康熙字典、哪
一个版本的中华大辞典、或者是一切经音义、或者是佛光大辞典,我们要大
家同意当我们在找这个字的属性时要认清哪一些字典是我们必须要   CHECK
的对象。所谓字的属性,就是部首、笔画、发音、构词、字形等等。把这些
东西通通整理好了以後,经过一个制式的形式传到网路上给中心。这个中心
就好像是一个联合书目中心,你做好一个书目,我收到了,我把它放进去,
然後给大家来用。

    当然你要是没有人力,希望中心帮忙做这个事。那麽你就把这个字影印
下来,传真过来或寄过来,那麽中心找人去做这个事,做好了以後问题就解
决了,大家就可以共用。但是在做的过程中间有很多问题,必须还要想办法
去解决。比方说我在输入一个佛经,输入到一个怪字,比方说三点水旁边一
个言,我怎麽打,系统都没有这个字,我就去查,查也没有这个字,这个时
候怎麽办?我当然可以说我慢慢造字,把这个字造好了再放到中心去,也可
以等中心去造字。但是这个字没造好以前,我工作还是要做啊!那这个时候
怎麽办呢?一个办法就是说,你用一个制式的表达,告诉中心说这个字是三
点水旁边一个言, 那中心就会给你一个临时的 CODE,你输入档案时就用这
个临时的 CODE。 然後你还要准备一个档案,把这个字的制式表达记下来,
为什麽?你再继续输入的时候,说不定你又碰到这个字,那中心还没把这个
字弄好,你是不是又要查一遍?这个时候简单一点,你就查查自己的档案,
以前有这个字了,这个字是什麽码,就把这个码用下去。

    等到这个字的资料通通整理好了以後,正式的码定好了,中心那边的资
料库更新了,那麽就可以有一个软体,这个软体还是要大家开发的,这个软
体就可以根据更新的资料,把你打的档案重新跑一遍,把原来中间用的临时
码通通换成正式的码。

    所以我们就构想了这样子一个解决的办法。这个当然跟你们输入时打字
的规则有关系,各位如果电脑打字用得多的时候,你就会常常碰到这样的一
个问题,就是我输入一个字时没有这个字,我就处理掉,过了一阵子又没有
字,我再处理,当你造字超过几十个、几百个的时候,甚至於造了上千个的
时候,你前面造的字跟後面造的字你忘记了,根本很难比啊!所以这些工作
上必须要的工具,我们也希望在这个计画里面能够发展出来。也就是说,这
个计画发展的不只是一个中文造字管理的问题,而真正这个计画做下去的话
, 我自己的看法是,这根本就是一个所谓 DATA ENTRY SYSTEM  ,就是一
个资料登录系统要好好整理出来。因为这些造字的管理跟资料登录系统不互
相配合起来的话,那这个系统是很难用的;即使你有一个很好的造字系统,
你跟资料登录系统没有办法好好配合起来的话,这个资料登录系统还是相当
的不好用,问题没有好好解决掉。

    这个计画我们就这样大致上这样做了一个构想,但是我们绝对不认为这
个是唯一的构想,或是我们坚持的构想,我们都没有这种想法,我们是很希
望听一听各位实务经验很多的给我们一些意见。就是说,是不是我们开这个
会,大家可以有一个共识——「我希望以後这个系统大概是怎麽样运作」,
这个东西对我们电脑工程师来讲就等於说是外部的规格。你这个外部规格定
好了以後,我再做内部的实施,那这个是工程的事情。那这个外部的规格,
工程师的不能专权的,一定要听听各位的意见。那麽多收集一下意见,我们
把这个东西弄好了以後,这个系统就比较好发展。

    事实上这个字的问题要解决,还不只我刚刚讲的这些资料登录过程中的
管理问题,还有一个非常严重的问题就是字跟字之间究竟是什麽关系。像我
刚刚举的例子,「台湾」的「台」一个大写的、一个小写的,你输入的时候
是一个字还是两个字呢?那你检索的时候是相同的字还是不相同的字?「台
湾」的「台」这个字的问题还少。

    佛经从汉朝一直到现在,这麽多年中间,有历史语言学的问题,也就是
这个文字在古时候是一种形式,到现在是另外一种形式,整个字形、字体的
变化相当的多。在这样的情况之下,这个字究竟是不是同一个字?或者这字
是不是另外一个字的近似字或者反义字,诸如此类的东西。这些东西是需要
相当多文字学方面的知识、文献学方面的知识,互相配合来做的。

    所以这个问题真正要解的话,各位可以想想看,如果我们不把这些文字
学的知识放到电脑里面去,那个笨电脑怎麽会帮我们做这个事!所以这个问
题真正的□结所在,还是一个中国文字上的知识怎麽样在电脑里能够好好表
达的问题。 中国文字的知识绝对不是像现在这样是一个 CODE、一个字形就
完了,如果中文字永远是只有一个码、一个形在电脑里面就算是中文字的话
,那个写程式的就很辛苦了,等於所有其它的知识都要他自己重新加进去,
那这个系统就很难做。所以中文字处理的问题,事实上如果说得深一点,它
根本是一个中国文字的知识在电脑里怎麽表达的问题,这个问题如果不彻底
解决的话,中文电脑所提供的硬体、软体环境不可能好。

    这种情形事实上在台湾我们也说过好多次了,就是我们一直呼吁在台湾
的电脑界能够发展一个好的中文操作系统出来,因为操作系统是伺候人用电
脑的。你看国外的操作系统,它有很多东西都可以帮忙我们做外国语文的统
计,甚至於做英文二十六个字母的统计,可以做字的统计、词的统计,做文
章的压缩。这些用国外的电脑对英文的文献做处理,我们可以看得非常非常
的多;但是这些东西,中文有没有?一个都没有。所以事实上整个中文电脑
的处理环境,中国语文文字的知识放到操作系统里面去,这个工作还差得非
常非常的远。在这个问题没有好好解决以前,我自己的看法是,我们解决这
个造字的问题只能够先从治标的方法开始做起,先做一些工具能够满足现在
大家工作上的需要,然後慢慢的这些工具多了以後,希望以後这些工具能够
变成中文操作系统中的一部份,把它标准化、制式化,这样子我们以後处理
佛经的问题就比较好解决。

    当然我刚刚跟各位报告的这些东西,还是在脑子里的构想,也没有把它
好好写下来。因为我们始终觉得,有这麽一个构想要实施的话,後面还有好
多事情要慢慢做。我们也很希望大家,如果有兴趣的话,发心来大家一起做
这个事。比方说,我们那个办公室只有四个人,德明一个,我一个,还有一
个学中文的、一个学图书馆系的两位女孩子。那我们还有其它的事情要做,
所以通常我们的人力也很单薄。

    上回有几次聚会,大家把这个字交给我们,我们开始整理这些字。不过
这些字的资料,比方说这四、五千个字就要查字典查什麽,也是很繁琐的事
情;而且究竟查什麽字典比较可靠呢?这个也不是我们这些学计算机的可以
决定的。所以各位如果愿意分担一部份事情的话,我很希望我们在这个会里
面大家商量一下怎麽合作。

    过去这一年多,我们实验室是发心替大家解决这个事,但是我们的工作
主要是庄先生他做的字形资料库,这个字形资料库做为以後大家检索文字的
一个核心。大家都知道,根据属性检索的话很简单,我用一个关连性资料库
,把这些属性放进去,我就可以用属性检索了,这个并不难;如果我们现在
还没有这些工具的话,要做我们就慢慢做。但是问题是我刚刚讲的,像这个
结构的资料库就很麻烦,中间还有很多技术性的问题必须要解决。等一下庄
先生跟各位报告的就比较偏向技术方面。

    我们实验室主要是庄先生一个人他花了一年多的时间做了这个资料库,
各位可以看看在这个资料库里面,字是怎麽定义的,字形是怎麽定义的,字
样是怎麽定义的,还有这个资料库里面怎样去找各种不同的字、字体、字形
,以及这个资料库检索时的一些 KEY 是什麽。

    很抱歉!我们过去的一年多,只是把这个核心问题解决了。我刚刚讲到
的外围的这些应用软体,一个都还没有开发,也没有把外围的这个应用软体
系统好好的写下来。我们是希望这个会多开几次以後,我们可以把要发展的
这些系统的外部规格写清楚。大家不一定要是电脑专家,你只要跟这个业务
有关,把这个业务的需求讲出来,我们就可以把这个外部的规格写出来。这
个外部的规格写出来,我们就可以规画哪些好做、哪些比较急、哪些比较缓
,一步一步把它做出来。

    我不知道这样报告是不是大家听得清楚,但是我想也算是一个希望大家
构成的共识吧!

—————————————————————————————————

    庄德明(中研院资讯科学研究所):

    我今天大概很快把我这篇文章的重点念一次,然後有什麽问题大家尽管
提出来,文章上面没有显示的 DEMO 我等一下也会做。

    这文章因为已经事先发下去了,所以我就选比较重要的地方。在第一页
这个地方说,我目前所收集的造字大概将近五千八百多个字,这里面有些有
造字档、有些没有。在我这边萤幕上的显示,你可以看到一些简单的字形。
佛光山的《禅藏》大概有两千多个字,然後沈家桢那边的佛教电脑资讯功德
会也有一些字。 你可以看到这字形有粗有细, 一边是倚天的造字,一边是
WINDOWS 的,因为一个是细明体,一个可能是中明吧,所以粗细不太一样。

    对所收集到的这些造字集,我就提出一些问题。这些造字集里面一定有
很多的一样的,这些一样的到时候怎麽把它合并?还有这些造字集里面有一
些特殊符号、外文字母,这些到底要怎麽样处理?还有一些我认为不太需要
收录的,比如说属於字体上的问题,像这个平常我们写的「尚」,假如是这
样写的话,这是另外一个字体上的问题,但是有时候造字也把这种有关字体
的问题也收录进去,这方面我认为是不应该收进去的。还有另外一个是异体
字的问题,像这个「遍」跟这个「彳∞扁」,到时候这种异体字在我们这个
造字集上要怎麽处理?是都要造呢?还是说明之间的关系,只要用一个通用
字就可以了?

    等一下要 DEMO 的大概就是这篇文章的第二页,就是一个造字在造之前
你怎麽看看这个字造了没有,就是有关於造字的索引。提到这个造字的索引
,我们讲的是一个字的定义,比如说这个字,我可以把它定义成「彳∞扁」
,这就是它的一个定义。这种字在我的文章上有陆续出现,比如说这个横的
「君∞羊」或直的「君%羊」,等一下我的系统都可以显示这些。

    我现在要显示这个部件系统,假如看不清楚,可以到比较前面来看。讲
义上有几个字的字根式定义,我从我这边的电脑可以打出来,大家可以看一
看。像这个「根」,左边一个「木」,右边一个「艮」。这个「时」在这个
系统里面的定义是左边一个「日」,右边一个「寺」。然後这个「寺」还可
以上下分成上面一个「土」,底下一个「寸」。

—————————————————————————————————
1B.
—————————————————————————————————

    就是说这种找法跟字典的部首不太一样。在字典里面你大概只能用单一
的部首去找,因为每个字只有一个部首。但是在这里你找的话,是个字根或
者是部件。在我这边,像「日」是个部件,也是个字根,因为拆到「日」我
们就不往下拆了,所以把「日」看做是一个字根;像这个「寺」,在这个系
统里面它只是一个部件,因为它还可以继续往下拆。也就是说,你只要从这
个字形里面的任何一部份来找都可以,不管是字首,不管是字根,或者是部
件。

    原则上我们是先做字形的定义,把一个字形分解成各个部件,再把部件
继续分解成字根;然後等每个字形的定义都有了,我们就可以回过头来找,
从部件或者从字根来找这个字形。

    这个资料库除了字形的定义跟从字根、部件来找字以外,我们还有处理
到所谓异体字或通用字。比如说大家看到这个「墙」,在我们输入的时候,
事实上我们已经把所有异体字的资料输进去了,「□∞啬」这个是「墙」的
结构,但是右边这三个「墙」、「□」、「□」是「墙」的异体字。

    在我们这个系统,异体字不一定要能够显示。比如说这边有一个「鸡」
的字形,那第二个、第三个因为我没有造字,我们还是可以从字根式来看看
它的字形应该是什麽样子,像这第二个字是「奚∞鸟」,第三个是「又∞鸟
」。也就是说,我们这个系统可以处理异体字,但是异体字不一定要造字;
你不需要造字,你还是可以从字根式来看出它的字形。

    这个系统跟这篇文章特别有关系的,大概就是这样这个样子。就是说,
原则上它先定义字形的结构,然後我们可以从字根或部件来找出相关的字,
或者是处理异体字。

    接下来要讲的是对 BIG-5 里面的造字区,我们现在要怎麽样规画。 因
为我这边讲的是比较细,我要定这些东西的话,还是希望能够听听大家的意
见。所以我这边事实上是一个初稿,等听完大家的意见後,才有办法定稿。

    我们现在大部份用的都是 BIG-5, 但是我这一篇虽然是用 BIG-5 为例
子, 但你真正编码的时候,或许其它的 UNICODE 或什麽码,你都可以用这
个方式来编码。

    BIG-5 大概是 13053,但事实上只有 13501 字, 因为有两组重复字。
它的造字区大致上可以分成四段,总共是 6217 字可以用。但是在它的第四
段里面,倚天中文系统跟微软中文视窗他们的处理不太一样,在倚天中文系
统的第四段的  408  字已经有定义了, 所以事实上在倚天底下能定义的是
5809 个字。 那我们这里为了兼顾在两个系统使用上的一致性,所以那个第
四段我们基本上目前是不拿来造字, 所以我们讨论到的造字总数还是 5809
字,也就是说我们现在有 5809 字可以拿来造字。

    这些造字码事实上并不是连续的,像第三页底下第二个表所讲的,它前
面 63 个字是连续的,後来隔了好几个字,接下来才有 94 个字是连续的,
也就是说这 5809 个在 BIG-5 里面的造字不是连续的。

    然後为了编码的方便,後面附录一有一个方法,就是可以把这 5809 字
变成一个连续的号码。 也就是说, 我从 1、2、3、4 一直编到 5809, 这
5809 个序号都可以跟其中的内码一一对应, 那我们以後在讨论到编码的时
候,就不用讨论到内码,就直接讨论从第 1 号到第 5809 号的序号。

    底下真的是要听听大家的意见,比如说我们现在有这 5809 字可以用,
在使用上我们感觉,造字区应该可以分为两部份,一部份是公用的,一部份
可能是你私底下可以用的。因为中国字的数目远远大於这 5809 字,即使每
个字都拿出来用,到时候还是不够。我们是觉得在处理佛典的时候,可以把
使用频次比较高,大家比较常用的,把它放在公用造字区。假如是一些私底
下只有一个单位或几个单位用的,可以放在一个专属的造字区,他们可以在
这块造字区造字,这个码可能是对他们才有意义的。

    刚刚的考量是依据使用的频次,另外一个是根据索引来考量。像我们刚
刚看的查询字形结构,在字形结构里面有很多的字根跟部件,这些字根跟部
件事实上很多还是要用到造字,就是说有些字根本来就没有,是我们自己造
上去的,有些部件也是一样。所以你假如希望能够用这一套系统来索引你的
造字,你又得把一块造字区分配给这些字根跟部件。我们定义了四百多个字
根,真正需要造字的大概将近 180 个;我们用到 561 个部件,要造字的大
概有 528 个。 我们这个数字是根据我们所做的一个实验,这个实验用到将
近九千个字形,里面用到造字区的就有 528 个部件跟 180 个字根,所以将
近用到 708 个。 就是说,你要用这个文件夹或字根来找新字的时候,就要
分配一去造字区给这些字根跟部件用。

    接下来在编码的时候要考量的就是这些所谓的特殊符号,这些特殊符号
大概会有多少个?我从佛光山《禅藏》 2041 个造字里面看到,它的符号用
得最多的就是这些大小写的流水号。这些流水号有多少种,大家可以看看我
今天後来发的一张「问题、字母、外字集」,那一张最底下有一些流水号的
样子。就是说我们到底要用多少种?在编码的时候要挪多少空间出来?

    另外一个就是所谓的外文字母。 日文字母在倚天中文系统那一块  408
个字已经划为日文字母, 假如我们把那一块在 WINDOWS 的使用上也订成跟
它一样,那日文字母就可以解决。像梵文、转写字母,这些外文字母到底要
收录多少,这我不知道,还有待这次会议来解决。

    所以在这次会议里,我很希望第五页的表四「内码空间的分配」,在公
共区应该给多少个造字,或者外文字母应该给多少个造字空间,然後流水号
应该给多少,这整个把它定下来。

    接下来的表五,比如说我们有四千字的共用造字,这四千字要怎麽分配
、怎麽排序,基本上我们是按照笔画来排序。表五我是从一部字数大概一万
字的大学字典,我把它的笔画做一个统计,计算每个笔画出现的频次大概多
少。 比如说九画的出现频率是 6.54,假如造字空间是 1000 字,那它大概
就分配到 65 字。这个表主要是分配共用区的那一块造字空间。比如说我们
公共字区有 4000 字,这 4000 字要有个排序,我就按照笔画来排。比如说
十画,它所占的频率假使说是百分之十,那也就是说 4000 字里面,你要分
将近 400 字给十画的字来用。

    照以上所说的分配下来後,比如说这一块是给十画用的,我编码的时候
不一定要从头开始编,也可以从中间开始编,然後上下这样跳,这样每个笔
画跟笔画之间留的空间会比较有弹性。

    接下来是讨论到点阵字跟缩放字形,我写了一个比较小的造字转换程式
。 不管你的造字是在倚天或是在 WINDOWS 里面,或者是你有好几个造字档
,利用我写的这个小程式,你就可以把这些造字档合并。也就是说大家也可
以自己先造一些字放在自己的造字档,然後送过来,我到时候再合并。譬如
说, 这边是一个倚天的造字档,这边或许是一个 WINDOWS 的造字档,那我
要把这个新码转过去,这样就可以把这个码转过去了。就是说我有好几个造
字,我最後还是可以把这些造字合并在一块。大家分开造字也没有关系,到
时候也可以合并。这是关於点阵字形。

    那关於缩放字形,我目前还没有处理。我知道市面上华康已经有一些基
本的产品,因为我们实验室有一套,所以我做个简单的介绍。在「问题、字
母、外字集」那一张里面,最後的一部份就是华康的外字集,它所谓的外字
集用的就是造字的那一部份,除了 BIG-5 那 13051 字以外,它大概又定义
了几千个字你可以用。这个情况也就是说,假使我们自己定好了 4000 字,
当然也可以利用它的方法、工具,把那 4000 字补上去,这样也就可以得到
初步的处理。

    像今天印出来的这一份「问题、字母、外字集」,就是我现在机器上所
显示的这份文件。最底下就是华康的外字集,这些都是 TRUETYPE 的造字,
它也提供一个造字工具,我们可以去修改这些造字,也可以把我们自己的造
字变成 TRUETYPE。 中间的巴利文、梵文、藏文、日文,都可以在萤幕上显
示。

    今天来这边做一个简短的报告,主要是听听大家的意见,我这篇文章才
有办法做进一步的定稿。我的报告就到这里,希望大家对我的报告多提出讨
论。

—————————————————————————————————

    单维彰(中央数学系):

    今天来这里发表我个人的一些很粗糙的意见。也许很唐突的,因为我从
来没有在这个 FIELD 尽过一己之力,然後现在却要说一些话, 当然这很可
能是错误的。我刚刚听的时候有非常多的思绪,但是现在非常混乱,一时还
不知道什麽东西比较重要。所以首先就是先跟各位对不起,万一我说错了很
冒昧、很唐突的话,请各位宽容。

    庄先生做的这一套东西,我觉得他个人的功力是很深厚的,这事情可以
说是做得很伟大,因为在一年的时间里面,你可以从最基本的东西,一路从
最下面做到最上面来,等於做了整套的系统。这件事情以一个做学术的眼光
来看是很有价值的,但是我个人认为这里面有两个很危险的事情。

    第一个事情是,你的整个发展,从最下层到最上层,从最下层的字的编
码到字形的结构、MATRIX 的结构、GLYPH 的做法, 然後整个 SEARCH 的方
法,一直到最上面的使用者界面,你全部在同一个系统上面做。这个系统当
然目前是全世界最畅销的系统,但是它很显然不是全世界唯一的系统。这样
做面临两个很明显的问题, 第一个是【 PORTING 】,就是假定今天有一个
人觉得 MAC 比较好用,或是 UNIX 比较好用, 那他要怎麽办?第二个问题
是,  比如说五年前这一套系统根本不存在,  五年前比如说每个人都在用
WORDSTAR,那麽今天 WORDSTAR 已经不存在了;这个东西目前是日正当中,
谁能够说明五年之後是怎麽样的系统,如果五年之後我们不用这个系统时,
是不是整个东西几乎都要重来,或者至少要把它取出来放到别的系统去。这
是一个我发现的明显问题。

    第二个我发现的明显问题,还是跟刚刚可以说是连贯的事情,我觉得这
整个编码、造字、使用者界面,这些应该是不同的东西。在整个电脑发展过
程,现在大家应该会同意的事情,就是说我们应该让不相关的东西尽量不相
关,然後让这些不相关的东西之间,每一个东西它有一个标准的输出、输入
界面。 如果以後我们不用 WINDOWS 了,但是我们希望这所有的字跟编码还
可以用,那麽编码应该是一个独立的系统,造字是独立的系统,它存造字的
点阵集合或者描边字集的方法应该是在另一个系统,等等的这些系统都有一
个标准的界面。有了这些标准的界面,你可以在最下层游走,你可以在这个
系统上用,  或者你高兴就把它拿到   MAC  上面去用,  或者拿到  UNIX
X-WINDOWS 上面去用。

    这是我刚刚看了这套系统以後的想法。我现在又想到,同样是这个系统
的一个问题,刚刚庄先生做了一套非常好的检索系统,但这些检索多半要靠
已经存在的字根,那麽有一些字是没有办法用已存在的字根做的。我刚刚坐
在这边想,实在想不出什麽很好的例子,我举个例子...。 不过这些字很可
能在佛经里面是不可能出现的,像这两个字是广东话的方言字,这个是闽南
语的方言,谁发明的我也不知道,但是本来就存在的。右边那个字是「没有
」的意思,左边那两个字就是广东话说的「蟑螂」,但是我不会用广东话说
。这是个问题,所以你这个检索系统可能不太容易全面。

    事实上我认为因为一共只有五千八百多个字,因为各位已经发展这麽多
年的东西,我个人实在很怀疑还能够再增加什麽字,假定真的只有五千八百
个字的话,那我觉得其实一个很简单的方法,当然庄先生的程式本身很好,
但我觉得实用而言,也许大家把造的字就印在这种 A4 的纸上,假定各位是
按照这种方法来排的话,一页可以排 161 字,5800 字排不到 40 页,不到
40 页是一本很薄的小册子。 如果大家用笔画来排,即使你算错笔画,也差
不多是多一画、少一画,那你要查的页数可能不到三页,那大家眼睛看一看
也大概就查到了。当然这检索系统还有其它的好处,就是 SEARCH 跟它重新
造字的时候是有好处。这大概是第三点。

    第四点,回到我刚刚说的各种东西应该把它隔离出来的问题,因为刚刚
也看到庄先生整理很多单位不同来源的造字系统,这些造字可能是因为大家
不太熟悉到底我们中国字还有哪一些编码、还有哪一些标准的字集。顺便说
一下,所谓的编码跟字集是两回事,字集是我们来规定这些字放在一组集合
里面,编码的意思是现在我要把这个集合里面的每一个字放一个号码上去,
使得电脑在传送的时候,我丢一个号码过去,然後对方就知道这个号码对应
哪一个字。

    那麽当我在说编码跟字集的时候,进了电脑里面,光说这两件事情是没
有意义的。因为当你说我这个字是「你我他」的「我」,那也许大家认识这
个字,那就没有问题了;但是如果今天说我这个就是广东话「蟑螂」的「蟑
」,那也许就没有意义了,因为没有人知道它怎麽写。所以在电脑里面你如
果要有一套字集跟字码的话,你一定要配上一套标准的字体,不是字形,也
许这些都是文字的游戏。所谓「字体」的意思是说这个字基本上该怎麽写;
那它要歪一点、斜一点、花一点、俏一点,那就叫「字形」。

    字形跟字体之间一定要有一个□围,你不能变化得太过份,当然这个□
围是没有数学的定义的,所以我们很难说清楚,就只能说大家凭眼光。像刚
刚庄先生指的那个「尚书」的「尚」,上头是往里面撇两撇,还是往外面撇
两撇,怎麽认为这是同一个字,还是不同的两个字,这件事情我个人没有办
法,因为这没有一个数学上的定义,或许有可能会有,但是我没有想过这个
问题。在英文字母上面有这个数学上的定义,一个字的字体跟它的字形,它
歪斜的程度、花体的程度,有非常严格的数学定义,超过那个□围就考虑是
不同的字。

    我刚刚说到一堆字,我们把它分成三个观念——字集、字码、标准字体
,这三件事情可能是很多造字单位并没有清楚的,也许你在使用电脑的时候
, 你所有的世界里面你只知道 IBM PC,然後所有的字里面你只知道 BIG-5
定义的字,所以你就认为 BIG-5 的字不够,所以你就造了那麽多的字。 事
实上很多人知道 CCCII,但是我个人不知道,所以我没办法在这里讲。我个
人知道比较多一点的可能是 CNS,那是行政院中央标准局订的所谓中华民国
的国家标准交换码。

    这个中华民国的标准交换码, 很可怜,我们自称是电脑王国,但是...
第一次出版的时候是 1986 年, 那个时候它的程度跟 BIG-5 所定义字集的
程度差不多是一样的; 90 年、91 年、92 年,它都有升级,就是广大它所
定义的字集。我看到的这一套是它 92 年的东西,当然我个人的学识没办法
懂,因为上面有大概四万多的字,我认识的字可能就不到二十分之一。但是
从侧面的观察,我个人觉得这一套字的後面一定是有一位非常了不起的人在
做这一件事,至少在我能检查的部份,我觉得非常钦佩它的做法。然後他们
出了一本三百多页的 MENU, 这个 MENU 上面什麽话都没有,就是一个字一
个字印在上面,然後它就告诉你说这个字的标准字体是这样写的,这个标准
字体它有一个 40 × 40 的一个点阵的档案,很清楚的告诉你它的格式是怎
麽排的。然後它存在磁碟片上,所以你要知道这个字标准写法怎麽写的话,
那个资料已经在那里了,你把它印出来就好了;如果你不要印出来,你就看
那一本手册。

    因为我相信在这边可能大家不大清楚,所以我昨天晚上就特别就我手边
的资料我就写了一份有关 CNS 的介绍。总之,这一套 CNS 它一共定义了四
万多个字,其中包括了教育部、户政单位,教育部定义了所谓的常用字,那
差不多就是 BIG-5 码前面的那一段,然後次常用字就是 BIG-5 码後面的那
一段。它分成七个集合,前两个集合外,第三个集合就是罕用的字,比如说
「宏□公司」的那个「□」,还有「□面」的「□」,都是或体字。这些字
倚天的 BIG-5 把它放在所有字的最後,一共七个。

    还有我昨天晚上拿了各位已经放在电脑网路上,由邱大刚先生放上去的
,有很多人输入的东西,我在里面尽量去找那种没有的字,就是有些字因为
没有,所以输入者就说左边是什麽、右边是什麽,那我一共找出来大概十个
左右,因为我的时间很有限。 找到十个左右,我都可以在 CNS 的第三个集
合或第四个集合找到字。它一共有七个集合,我个人还从来没有看到第五、
第六或第七个集合里面的字,因为第五个集合还是第四个集合已经是户政字
了。所谓户政字,各位知道,有很多相命先生会说你缺土、缺水,就在各种
地方加土加水,这种字通常来说是不存在的。最後两个字面是教育部规定的
一万多个罕用字,那一万多个罕用字可能真的是罕用字而不是异体字,因为
异体字、或体字在第三或第四个集合就有了。

    所以我现在就是说,因为不能光听我一个人,也许要问庄先生或哪一位
, 有没有人真正检查过这五千多个造出来的字是不存在於 CNS 标准码里的
。首先也许我们应该先确定这件事情,如果你造的每一个字都已经被定义在
那一套标准码里面的话,那如果我们今天再来说我们要把哪一个字码放在什
麽地方、它应该怎麽写,我觉得这可能有点危险,这会造成多头马车。既然
已经有一套标准在那边,人家也是颇为用心的做这件事情了,毕竟也是中华
民国标准码,或许我们应该给它一点机会,看一看这个码是怎麽回事。

    但是话说回来, 你要写程式来用这个标准码,其实是不简单的。 因为
BIG-5 还有其它的码之所以能够适用於今天的电脑系统,是因为它使用所谓
的两个字元,这也许牵涉到太多的技术层面,但如果没弄清楚这技术层面,
也许我们就没办法弄清楚我们要怎麽做,但是我觉得现在是没有办法谈。

    基本上我的意思就是说,因为中华民国国家标准码定义的字太多了,也
像 CCCII 这些东西一样的,它真的是满难用的。 所以我个人的一点意见就
是说,刚刚庄先生有说过 BIG-5 里有两个重复的字, 不但如此,它有大约
十七到二十个之间错误的排序。所谓错误的排序是当我们要排一个中国字集
时,我们要把它排顺序,排顺序时首先要照它的总笔画排,然後照部首笔画
排,然後再怎麽样,这牵涉文字学的事情是我不能了解的,总之你要有一个
排序,这排序使得以後我们要做检索或 SORTING 时都比较自然一点。 那麽
在大五码或五大码里面有十几个排序错误,其中还有两个字是重复使用的。

    还有一个在【 IMPLEMENTATION 】上面比较麻烦的事情,它字码的编码
并不连续。诸如此类,有这些问题,而且它不是在国际标准局里面注册的码
。国际标准局对所有世界上的国家,你想要把你的语言放一个标准码的,然
後它就开放你们来登记,这叫 ISO。中华民国以政府出去登记的当然是这一
套标准码,中国大陆有它自己的国标码,日本人有它自己的工业系统码 JIS
,据我知道阿拉伯、伊朗都有登记。那麽大五码是没有登记的,它就变成一
个很奇怪的东西,它是在全世界使用传统中国字的华人系统里面最畅行的码
,事实上它很可能是唯一的码,这是很无奈又必须接受的事情。

    讲了半天,我的意思就是说,大五码是一定要用的,至少在我们看得到
的这五年、十年之内,我觉得是没有办法把它淘汰掉,这是很遗憾的事情。
我们一定要用它,但是我个人的意见是说,我们要用它,我们就尽量用大五
码已经定义的那一部份,而尽量不要用它 USER DEFINED 的那一部份,因为
那一部份如果你定了字下去的话,你就一定会跟别人冲突,因为每一个人都
没有一个标准的看法,那个怎麽弄?

    所以我个人的想法是觉得,我们现在佛经或是中文古籍非常困难的这种
东西,这输入是非常劳累的事情,绝对应该只做一次,也许校对两、三次,
就是不应该花太多时间,因此我们要尽量把这一件事情跟其它事情通通分离
出来。

    因此我建议我们做两套事情。一套事情就是说,我们现在输入的所有文
字,我们用一套我们觉得最可能完备的码,现在看起来只有两个候选人,就
是国家标准码 CNS,还有一个 CCCII,看起来可能就是这两个;然後我们所
有的存档都是用这两种码来存,因为这两种码很可能能够包含所有我们碰到
的字。虽然这一套码很难用,但是谁也不能保证以後不能用,反正我们留在
这里。因为这一套码第一点满标准的,第二点它设计的满好的,第三点它很
可能包含我们所有的字,所以我们拿这一套东西存下去比较安全。那有这麽
一套标准字码在这边以後,日本人、英国人、美国人、澳洲人都知道中华民
国有这一套码,那他们要做什麽软体时很可能会支援这一套码,因此我们以
後可以用的别人写的程式就会多起来,而我们要重新写的程式就会少一点。

    所以这一套东西我们也许叫它 MASTER DATA,就是母带,就像一个歌星
唱歌, 我们有一套母带存在那边,以後再拿来灌唱片、压录音带、CD 唱片
。我们这一套东西当然会花比较大的磁碟空间,因为它编码不同的关系,但
是我觉得磁碟空间现在没有任何困难,我们就把它存成这样子,然後以後一
层一层的应用,我们从这里面拿东西出来。

    假定我们选了 CNS 的话,那 CNS 每一个码对应的标准字体也是已经被
定义存在在那里,所以我们需要用一个一个点来造字的机会就少得多。当然
刚刚提到佛光山用到括号 11、99 这些东西,那可能真的是没有的,我相信
CNS 里面也是没有的,那就真的要造字。

    我刚刚说 CNS 有七个集合,事实上它一共定义了十六个集合, 从第十
二到第十六的五个集合全都是空的,那我们可以挑一个集合来用。我个人的
意见是说,尽量不要挑一个所谓 USER DEFINED 的集合。我们应该挑一个集
合,然後各位这麽多大师在这边,也许可以动用宗教界,反正是政治的力量
,然後去跟中央标准局说:「这个集合就是我佛教的集合,我要订在这里。
」因为反正它还有五个空的嘛,足够给五个很大的团体来抢,也许佛教团体
就可以订下这个集合,别人都不要去碰它。

    如果这个政治力量可以走得通的话,我觉得这是比较方便的事情,我们
就订在这里地方了,别人就不要来动我这个地方。那以後造字就一个个慢慢
的增加,但我相信总有稳定的一天,那一天之後很可能大部份我们要碰到的
在 CNS 里面还没有的字可能都会出现了, 这时候我们应该用一个比较合理
的方法把它在那个集合里面排序好,以後如果再发生的话,就真的比较麻烦
了,可能真的要 USER DEFINED。

    但是我个人实在是觉得,今天我们要输入的佛经都是已经存在的东西,
存在的东西都是可以查的,存在的东西里面的字再怎麽多也是有限多个,所
以我个人在数学上不相信会有非常长的时间持续发现新的字,我相信应该在
某一段时间以後所有曾经印在各种地方不同佛经上面的字都被发现了,那时
候我们应该有一个稳定的集合,而这个集合我们就可以去跟行政院内政部要
求我们要有一个字面。

    我觉得这是最底下的那一层了。然後再上面一层是造字的问题,这一层
我觉得相对来说是比较简单的,而且庄先生在这一层已经做了很好的事情,
只是它的层次如果能够【 PORTING 】到其它的地方是更好一点。

    在两年前,留学在国外在台湾跟大陆的中国人合作在一起,订下一个规
格 HBF,叫做「汉字中文点阵集合的标准储存方式」。这一套储存方式基本
上跟 UNIX 上的 X-WINDOWS 的字形标准储存方式 BDF 完全一样,只不过它
多了一些档头, 那些档头定义你是怎麽排码的, 是用 CNS、还是用 BIG-5
、还是用 GB;反正是一些很不重要的细节是跟全世界在使用的 BDF 不太一
样,其它都一样。

    所以在字形这一方面,不管我们用现在庄先生的程式,或是 UNIX 上面
的程式,能够做那麽一个字出来,然後如果能够存成那样的一个标准格式的
话,这也是比较好的事情,使得我们以後很容易换到别的地方时就可以把这
标准格式拿出来。因为标准格式在那边,任何会写程式的人拿到了标准格式
都知道怎麽换格式的,那你就可以换到你喜欢的格式上面去。

—————————————————————————————————

    谢清俊:

    谢谢单先生提供一些不同角度的想法,反正我们开会就是要收集大家不
同的想法,这些想法可以给大家做一个参考。

    单先生刚刚提到一些机器环境的问题,现在我们庄先生这一套东西是在
一个 SERVER 里面,所以大概受到环境改变的影响不会那麽大,问题是使用
的人。 对使用的人,当然这个系统在 DOS、WINDOWS、WINDOWS 95、MAC 下
面,各种不同的情况的话,这些东西是真的需要花时间去开发。

    关於单先生讲的字体、字形的问题,可能跟我们谈的字体、字形的定义
不太一样,这些东西因为定义不同,所以看法也有些不同。

    关於 CNS 跟 CCCII 这个档的问题,CNS 的问题就是现在没有系统上面
有 CNS,如果要大家去用它的话,事实上字体也没有、字形也没有,什麽都
没有。 而且 CNS 这个码是一个很奇怪的码, 它从两个  BYTES  变到八个
BYTES,两个 BYTES、四个 BYTES、六个 BYTES、八个 BYTES 都有,所以事
实上用起来的话,... (单维彰解释),我跟你说,ESCAPE SEQUENCE 我了
解, 而且 ISO2022 的标准是我带到国内来的,这些东西事实上用起来的时
候不是你讲的那麽简单。事实上这个 ESCAPE SEQUENCE 也没有在 ISO 登记
,如果真正讲是一个国际标准的话,这个 ISO 的 ESCAPE SEQUENCE 在 CNS
里面是私下做的决定,这还是会跟别人的码冲突的。而且它这个确实不是两
个 BYTES 的码,即使有 ESCAPE SEQUENCE,把 ESCAPE SEQUENCE 加上去的
长度还是不一样。所以这个问题我想是技术性的问题,我们不要再争了。市
面上根本没有 CNS 的产品存在,要大家去用的话, 事实上也不太可能,我
们现在是要解决一个实际的问题。

    当然单先生提到的是不同的想法、不同的看法,这个问题事实上就是留
给大家来看,怎麽决定比较好一点。如果大家觉得我们现在收集五千字,把
这五千字印个小册子,大家所有的问题都解决了,那皆大欢喜,这个是好得
不得了的事情。

    这个字体的问题我再说明一下。你看到的这些字的问题,事实上我想也
不如单先生说的那麽单纯。为什麽呢?因为佛经的研究,有时候它原来那个
版本所呈现那个字是什麽样子,事实上跟佛经的考证、考据都非常有关系的
。比方说,有一些异体字,这些异体字是在中国某一个朝代、某一个时间、
某一个地区出现的。因此这些佛经上的异体字它有那样特徵的时候,我们必
须要把它能够尽量忠实於原来的样子把它存下来。如果这些东西都把它消失
了,然後都换成现代的字存在 COMPUTER 里面的话,事实上对佛经的考据跟
一些义理的研究是有相当大的伤害。因为这样的关系,所以事实上佛经里面
所碰到的字牵涉到中国整个文字学的演变,并不是那麽的单纯。所以这些问
题,可能使用的情况不一样,大家接触的不一样,有不同的看法。

    单先生提的资料,我想我们列做会议的记录做参考。单先生提的意见,
我想记录就照单先生的意思完全把它录下来,然後给大家参考。我刚刚讲的
这些意见,如果单先生有意见的话,我们会後再谈,我想技术性的事情不必
要在这边浪费大家太多的时间。

    各位还有什麽其它的意见吗?请提出来!很抱歉!我刚刚没有请大家发
言简要一点。我看主办单位已经准备好了便当,好像是准备长期抗战下去。
所以你们如果想要早一点回家,就说得短一点。

—————————————————————————————————
2A.
—————————————————————————————————

    刘铭威(倚天资讯):

    我就比较商业面的角度来看这些事情,就是比较以我们公司的角度来看
这些规则,我大概跟各位介绍一下。刚刚我有提到中标局其实也在订造字的
问题,造字的问题中标局一直想要订,这次是委托中文推广委员会来办这件
事情,其实是由我们这边在提这些案子。目前我们是有一些构想,跟单先生
刚刚讲的 CNS 码其实是很接近,我们也是想运用 CNS 码。刚刚他拿的这份
资料是 92 年的,这是比较老的。今年 CNS 会把整个所有 CNS 订好,可能
空的字面也找不到了,你不见得可以用,但是它定义出来的可能几万个字,
像目前它有四万八千个字,所有字形都有了,我们也都拿到了,它是 24 ×
24 跟 40 × 40 的字,那我们会去整理。

    至於这四万八千个字我们怎麽去整理呢?我们可能要去做一些对应的关
系,然後把它摆出来,加到我们的 BIG-5 里面去。我们还是会以 BIG-5 为
BASE, 因为 BIG-5  还是大家最常用的一个  BASE, 所以我们还是希望在
BIG-5 里面去做扩充,把这四万八千字加进来。这样子变成有些造字可能会
跟这四万八千字是一样的,那我们可以去省略。但是像刚刚提到的,不见得
很多相同的就可以省略,因为这要考虑到文学的观点。我举个例子——「么
」,我们台湾可能称它是「ㄧㄠ」的字,可是它有两个意思,在大陆这是「
什麽」的「麽」,它是简体字,一模一样的,你说你要收录一个还是收录两
个,你收录一个绝对出问题,因为它是不同字,它的念法也不一样,它的意
义也不一样,有很多类似这样的问题要解决。

    所以我们之前在谈这个中标局造字规□时,国防部也找过我们,其实跟
佛教界来找我们是一样的情况。在国防部里面,它造字也碰到很多问题。为
什麽?国防单位有多少个,每一个单位都在造字,这个单位造五百个字,那
个单位造六百个字,那整个整合起来怎麽办呢?他们最後没有办法。所以现
在国防部它也统一了,它现在要把全国所有的国防单位的所有造字通通收纳
到行政院国防部里面,他们会有专人来统计,先把所有一样的字删除掉,不
一样的收集起来。他们预估大概是有三、四千个字,其实很多可能都重复造
字,那麽他们就要有一个规画,就像刚刚谢教授这边讲的。

    就是说他们的定义也是这样,例如说我今天造了一个字,这个字它的笔
画是多少,它的字根是什麽,还有部首,以及怎麽去形容这个字,或是说这
个字是出自哪里,这个字我可能是从哪一篇文章里面出来的字,这个都是方
便以後你去查询,这个很重要,没有这个,以後你很难查询。虽然你说造字
不多,图书馆的造字有多少?一个图书馆的资料可能十几万字,造字可能几
万个,你要去找,那是很辛苦的,你知不知道它是一样或是不一样,你可能
会不清楚,你一定要去叙述这是什麽东西。所以他们委托我们去做这样的一
个资料库,就是说我把一个字订进来,它是什麽字根,它的仓颉码要怎麽打
,它的注音码怎麽打,它是出自哪里,这个都是方便以後的寻找。今天有个
人要造一个字,我要先来找看看有没有重复。所以以後国防部任何一个单位
要造一个字,它先要到行政院国防部这边,跟它登记说我要造这个字,字形
告诉他,是出自哪里,所有的资料提供了以後,国防部帮它造这个字,然後
发给全国的国防单位,所以全国的每个国防单位都可以用同样的内码,这样
就不会有出错。

    中标局想到更的层次,因为它不是只有国防单位,它还是有一些行政单
位都要用,所以它想整体来做一个总整理,这个毕竟是一个满大的工程。在
佛教这领域里面,我想可能会比较偏向国防单位这样子,就是说我们先以治
标的方式来做,我们先不要以治本的方式,因为治本势必是一个很庞大的事
情,你可能一做要做个五、六年或十年,那都不一定,因为光是一个十几万
字要请多少人去整理,这个字有没有冲突的问题你都很难理解。通常一个人
一生中大概顶多用两千多个字,如果你用五、六千个字,那大概是对文学很
有修养的人才会用那麽多的字,这是经过统计过的数字。所以你要了解那麽
多的字,那是很困难的。

    接下来我想提一下,在佛教界里面使用并不是只有造字的问题,还有巴
利文、藏文、梵文的问题,这些我们要怎麽处理?其实我跟圣性法师这边有
谈过,他们因为使用的需求,所以我们是去整理那个巴利文。我有一个同学
当完兵就出家了,他就要求我帮他弄巴利文,我就帮他做一个巴利文的系统
。结果後来发现跟圣性法师这边提供的巴利文不一样,就是说我原本只找了
十二个字而已,结果发现他们说有十七个,可是我今天看到庄先生提供的这
些有二十三个,那我现在搞不清楚到底巴利文要有几个字根。原本我想,如
果我们可以确定几个,  我们要用到多少个字, 我们把它定义出来, 因为
WINDOWS 这方面不是我们公司所能做的, 但至少在 DOS 方面,就是在我们
倚天中文系统方面,我们可以来提供这个巴利文的字根进来,甚至提供这个
输入法,让大家可以打巴利文字,我们就可以来解决这些问题。但是我现在
比较耽心的就是字数的问题,我们可不可以把它收纳得进来?

    至於刚刚提到我们的造字区,如果只是佛教界这边来用的话,如果说几
千字就可以解决的话, 我们目前 BIG-5 内码里面有五千八百多个字可以来
造, 可能不是很足够,其实 BIG-5 还有四千多个字可以扩充,其实以前我
们也在用这四千多个字,所以其实整个造字区应该是九千多个字。

    最後我提一下我们倚天在造字上未来的策略,其实我们已经在开发一个
系统,就是造字系统。这造字系统就是刚刚我提到的这个,我们在做点阵字
造字时,我们可以造出一个可能是 16 的字或是 24 × 24 的字,这个我们
都可以。那你造字时你要给它字根,因为你今天造出一个字,你要有办法做
输入,你不能每一个都去打内码,这是很辛苦的,所以当你造一个字以後,
你要订它的仓颉码、注音码,或是笔画什麽的,这些定义出来。那我们会有
一个这样的系统,根据这个系统,你还可以造出描边字。这些你都可以在这
个系统里面一次全部把它造出来。我们这个造字系统造出来的字,你可以用
在 DOS 上面的倚天系统,也可以用在 WINDOWS 上面,可以同时使用的。

    这样子变成以後你只要有一个单位固定来管这个东西,你所有的造字透
过这里,你可以把描边字也造出来、点阵字也造出来,它的规则是怎麽样,
笔画是多少,注音码、仓颉码,都可以解决,然後再发给各个单位。至於细
节流程,我想刚刚谢教授也提到了很多,到时候真的要来考虑的可能是往返
传递的问题等等,这个可能是比较细节的问题。

    我报告到这边,不晓得各位有什麽样的意见要指教,请各位提出来。

—————————————————————————————————

    周伯戡(台大历史系):

    今天会议是讲佛经造字的问题,可是牵涉到许多关於像国防部的造字和
其它地方的造字,我不晓得我们谈到佛经的造字是不是也要跟国防部的造字
或者中央政府户政使用的造字要互相互通?这点我还不太清楚,因为不晓得
这次召开会议主要的动机是什麽?不过我可以提供一些经验,关於过去在佛
经形成的过程中间,对於中文字的写法所造成的一些困扰。

    中文字毫无疑问的不是像英文字一样,它有很多不同的写法。在以前佛
经传入的时候,就有许多抄经,最早期有汉隶,一直到後面的楷书。当初是
抄经是会造成许多困扰,每一个抄经的人,虽然是同一个字,张三和李四会
写出完全不同的字出来。所以佛经出现各种不同的字,是在历史上我们读佛
教写本的时候经常会看到的事情。

    在唐朝初年的时候,在秘书省成立官方抄经的地方,所以由中央政府写
了一部书叫做《字样》。《字样》就是当时同样一个字有各种不同的写法,
它把它都列进去,然後对在中央政府里面抄经的,譬如玄奘翻译完毕以後要
开始抄那部经,应该要用什麽字,强迫规定使用那个字样。这个《字样》当
然现在已经不存在了,但我们在敦煌的作品里面可以看到,当初在敦煌那些
人在抄经的时候手上有一个参考作品,就是那个《字样》;就是说你看到一
个旧的本子,本子里的这个字你不认识,然後你把《字样》翻一翻,用当时
的楷书把它抄下来。

    我们晓得中文字有很多各种不同的写法,我们知道最早期是在汉朝时候
就有【西平十经】,由官方来确定经书这个字应该怎麽写法,不然考试的时
候张三跟李四写的,虽然是写同一个字,但是考官看不懂的,所以那时候有
强迫规定的。在唐朝初期,我们知道为了要抄佛经,官方定了《字样》;以
後又有所谓的【开平十经】,再强迫定出标准的字样。到了北宋初年的时候
,印开宝藏的时候,再度定出标准来。

    可是即使如此,我们到现在为止,即使是读刻本经的时候,同样的一个
字又有各种不同的写法。所以想企图把这个字完全统一起来,其实是有点困
难的。但是官方至少要想办法确定一个立场,说哪一个字是标准的字,但是
它没办法完全禁绝这个字的其它不同的写法。

    再讨论到另外一个问题,就是等到大正年间的时候,印当时《大正藏》
时用了活字印刷,是根据当时的《高丽藏》,那个时候又把《高丽藏》当时
写经的字体用现在的楷书重新印上去。所以事实上你如果去看的话,各位可
以看到有很多地方不一样。所以你能读《大正藏》,未必就能读写本,我先
提醒一下,这两种完全不一样,因为字体完全不一样。

    所以如果今天是讨论佛教写经的造字问题的话,必然会面临一个问题,
我们要决定。就像以前在定下本子的时候,哪个字是标准字体,这个我们必
须要先做一个决定,不然造字可以造得没完没了,因为中国字可以写很多种
。像「法」这个字,如果你读到六朝初期的写本,那个「法」字是很奇怪的
写法,各位看了那个字都不认识。所以,所要面临的问题是,我们是不是要
用现在的,譬如《大正藏》的方式,用现在楷书的写法,硬是把它定了下来
。

    像在韩国的佛教协会, 他们企图把《高丽藏》编入 CD-ROM,但是它也
面临了问题,因为《高丽藏》写经的时候有很多奇怪的字,它们在韩国自己
的 KSC 码也不完全存在,所以现代集团自己造字。 我们现在不知道,它最
後造出来的字,到底我们能不能用,很可能就只是在 CD-ROM 里面跑,根本
不能上网路; 绝对不能上网路, 据我所了解,不可能上网路的,最多是以
CD-ROM 的形式在传布。

    我们今天讨论到佛经,如果讲说我们不讨论治本的方式,只讨论治标,
那现在我们面临一个问题,就是佛经造字的时候是不是要用一个现在标准的
写法,强迫那个字必须要用这个方式出现?还是要把原来那个字怎麽写法的
继续摆回来,那当然那是做研究用的。我说过,你如果能读《大正藏》,不
一定能读写本,那是两码事情,因为那个字的形式已经完全改变了。所以如
果只讨论治标的话,就应该考虑是不是要用一个标准的现代字来确定。那麽
如果用标准的现代字,很可能我们现在已经出现的字已经够用了,因为我们
可以把它全部改成现代的字体。

—————————————————————————————————

    谢清俊:

    谢谢周教授的说明。我想这边有几位计算机方面的,对佛经方面的工作
可能还不太了解,周教授的说明很好,大家可以多了解。

    事实上一个国家标准码,它通常是很难照顾到文学、社会方面研究用的
字。同样的情形也可以举个例子来说,日本京都大学在印东洋文献目录的时
人,它已经印了十几年了,它为了印东洋文献目录收集了十万多个字,然後
自己在学校里面做了一个资料库,自己编了一个码,然後印这个东洋文献目
录印了十几年,但是日本国家标准从来不把它放到国家标准里面去。因为各
位知道,标准局是工业局的标准局,标准局是隶属工业局,然後隶属经济部
,所以通常文化方面的标准或教育方面的标准,在标准方面总是会有所欠缺
。

    那我们做佛经的登录,我说一下我自己的立场。我们整理这些造字应该
是跟怎麽用这个造字是两回事,如果我们整理这些造字的时候,就有一些强
制性,举个比方说,都一定规定只造现在的字,只根据现在标准里的来造字
,那麽对古籍来讲就造成相当的伤害,对研究来讲也造成很多不可能的状况
,所以这个我想我不必多说了。

    所以事实上我们这个造字系统应该是,看我们现在佛教的团体、学术的
团体怎麽去用这个佛经、怎麽去用这些字,那麽这些电脑工具应该是站在一
个中性的立场,没有任何预设立场的,然後帮忙去把大家的问题来解决。如
果是先有预设立场在这里的话,那这个使用就会有偏颇了。

    事实上各位所看到的这个展示,只是这个系统的前半部,因为後半部一
直还没有做出来,所以我们没有给大家展示。现在这个系统里面有说一个字
的定义是什麽,这个字有哪几种不同的字形,这个刚刚各位看到了。事实上
这个笔画的变化在这里面展示得并不多,这个系统的下半部就是包括所有笔
画的变异都在里面。这些的笔画的变异都在里面的话,也就是说这个所谓的
字形资料库,它可以解决笔画之间差异的问题。你只要能够用一个制式的描
述把这些笔画描述进去的话,这些问题都可以解决。

    因此这个资料库让大家造的各种字形,坦白讲是没有任何限制的。也就
是从技术的立场来讲,我们尽量提供一些现在有的技术,你这个字形有什麽
稍许的差异,你只要在你的应用上面,你觉得有道理,我要做一个这样的字
形,这个字形可以登录在上面。那究竟多少呢?我想以我们现在台湾做佛经
的处理跟做研究的状况来讲,也不会是无止境的吧!所以这个处理起来,应
该这方面的东西可以处理。

    我想字形结构上的变异现在已经可以处理了,笔画上有少许的变异,你
如果要把这些东西留下来的话,我只能跟各位说,大概过一年以後,这个资
料库连笔画的变异也可以帮各位留下来。

    那麽谢谢周教授的说明,我想这样子也可能让学计算机的朋友了解一下
。事实上在佛教的应用方面,目前还不只是说,把佛经打成一个档案,放到
电脑上让大家去用,或者是印佛经,或者是做一个资料库去检索佛经,这些
东西都是比较初级的应用。如果你真正讲电脑里面佛经的考据以及义理之辨
,那事实上以後这个系统希望能够兼顾到这方面的应用。

    事实上这件事情我是觉得这样,我们实验室做的这个系统能不能用?这
并不是太重要的事情。最重要的事情就是说,我们现在大家要不要合作,组
织起来,把这个造字的问题跟资料流通的问题把它解决掉?如果大家有心这
样做的话,那我们可以决定我们下一步该怎麽做。如果要决定下一步该怎麽
做,就要有些人把一些规格写出来,然後让大家来讨论,让大家来改。如果
说大家自己做自己的,觉得没有必要这时候把它统一的话,那事实上这也是
一种做法,我想并没有强制说大家一定要通通一起来。

    关於佛经造字的问题,我们可以这样说,是牵一发而动全身。事实上造
字的问题不是一个单纯独立的造字的问题,因为它牵涉到资料的登录,牵涉
到资料的共享,牵涉到资料的传输,牵涉到资料的检索,以及牵涉到以後印
刷等各方面各种不同的应用。所以事实上这个东西不是一个独立的事件,它
是一个很基础很基础的东西,那麽牵涉的东西可以多一点、可以少一点。那
如果大家一起要来解决这个问题的话,那我们一起工作的□围到什麽程度,
这个我们也需要大家来谈一谈。

    刚刚提出来的还有些问题,我觉得单先生提出来一个很重要的问题,就
是说大家的电脑不一样,怎麽共享资料?这也是很麻烦的事情。事实上如果
不能达到资料的共享,这些大家一起造字也是白造了。大家一起造字,大家
一起共用同样造字的码,最重要的是希望这些资料可以互相流通、互相共享
。资料互相流通、互相共享,不是说你的档案我可以拿得过来就可以了,不
是这样;你的档案我拿过来以後,我还要能够读得懂;我要能够读得懂你的
档案,当然我必须要认识你的字码;但是这个还不够,你这个档案的结构要
不要描述给我知道?所以佛经变成电脑档案以後,怎麽样把电脑档案的佛经
它里面的内部结构能够有一个共同的描述,这个可能是在造字解决以後第二
个要碰到的问题。如果没有这样子的了解的话,事实上大家拿到别人的档案
,也没有办法说不经修改,我的程式马上就可以用,事实上不太可能。

    如果要做到佛经的电子档案,不分机器的种类,不分软体,都可以通用
,这个理想是可以做得到的,这个技术是现在已经有的,这个我可以肯定的
跟各位报告。但是需要我们多沟通,把这些基本的造字的问题、资料的格式
、档案的格式,以及种种对内容的标帜,这些标准通通要做出来,所以这条
路还很远,不是那麽近。但是最基本最基本的问题,是要把造字的问题解决
掉,造字问题不解决掉,後面讲的都是白说,你不可能做到那个境界。

    我跟各位报告一下,世界上有一个组织叫做 TEI,这个组织是三个大学
会,包括世界上的计算语言学会、人文与电脑学会,诸如此类,三个大学会
,他们邀集了全世界的学者,当然不包括中国的,花了六年的时间,把英文
的各种文献,它重要的内容,如何标帜,通通做出来,这个资料是今年四月
出版的。国外的学者他们花了这麽大的功夫,把诗、词、散文、小说、信件
等等里面重要内容的标帜、标准通通弄出来了,那麽你以後整理文献的时候
,碰到这些标题是什麽,你就加一个记号;开始的主旨是什麽,你就加一个
记号;称呼是什麽,加一个记号。这些东西通通有了标准以後,那麽英文的
电子文件就可以被所有的机器、不同的软体通通分享,因为它们都用共同的
方式来表达。这个是国外花了大力气,邀集了全世界的学者在做的。

    我的一个感觉是说,事实上我们把佛典造字问题解决,这个是最基本的
;造字的问题解决了以後,如果要让电子佛典在网路上或者媒体上,大家不
分机器、不分软体,通通都可以流行的话,那下面一个更重要的工作就是要
把佛经的内容标帜的标准做出来。这可能分经、律、论各种不同的部一个一
个来做,可能分不同时间翻译的东西这样子来做,所以下面那个工作才是更
可怕。

    这个工作,很坦白讲,我真的不知道大家意见如何,如果有需要我们帮
忙,我们实验室的几位都非常愿意来帮忙做这个事情。但是这个事情,恒清
师父找我的时候,我跟师父特别报告,我说这个不是我们学电脑的人可以出
来主持的,这个应该是佛教界的大师出来主持,我们只是工人,你们要盖什
麽样的房子,我们帮你盖,盖好了,这个房子是真的佛教界的房子。所以我
是用这样的心情来参加这样的工作。

    刚刚各位没有意见,所以我花一点时间,我把对这个事情我所看到的意
义跟各位报告。如果我们电子佛典共同用字的问题,大家都没有办法一起来
解决的话,那说要以後所有的电子佛典流出去,要不分机器、不分软体,大
家都可以处理,这是不太可能的事情。那麽这一部份如果解决了以後,我们
以後说不定可以做到真的电子佛典可以给大家共享。这好像香积佛的饭,也
好像师子座,这个是取之不尽用之不竭的东西,我们至少可以把这个电子佛
经尽量让大家都接触得到。佛法难闻,佛经也难接触得到,但是至少我们现
在有这个技术可以做这个事啊!所以这个应该是满有意义的事情。

—————————————————————————————————

    释慧明(西莲净苑):

    我对谢教授一直觉得很感动,他对佛经的推动真的很发心,而且真的是
菩萨心肠。现在我把我个人碰到的一些问题,还有一些所使用的解决方法提
供给大家。

    首先,谢教授有提到字典的版本问题,末学在碰到一些古字的时候,也
曾经查过很多的字典,譬如说三民书局最新出版的字典,还有文化大学主编
的《中文大辞典》,後来我发觉在《康熙字典》里面找到的古字比较多。《
康熙字典》有新修跟原始的,在原来的《康熙字典》是切音,因为有时候我
们查到那个字需要知道它的读音,後来我所用的版本是台北启业书局民国六
十八年出版的那个《新修康熙字典》,里面就很多古字都可以查得到,它是
民国【高树帆】再重修的。如果在《新修康熙字典》没有找到的,我再用《
增修辞源》,这是台湾商务印书馆民国五十四年【增续】编修订版的五版。
我用的是这两个版本。

    我想假如我们用同一部字典,这样会比较好。譬如说,像末学在整理古
字方面,我自己就先做了一个表,首先我有序号,然後再来就是部首,然後
再来就是笔画,还有书本上的字形,还有电脑上的字形,它的注音,还有它
的字义, 我在每个字义後面会标譬如《康熙字典》 518 页的下栏,这样以
後大家要回查的时候会比较容易。然後在字义,甚至我还会,譬如说「错误
」的「误」这个字,在书本上它是竖心旁,然後它跟言字旁的「误」是相通
。这个做法跟刚刚庄德明先生所做的那个完全一样,它这个有很好的好处就
是,我当时在看到竖心旁的「ㄨ□」,我可能不知道这是言字旁,那你查到
一个字,你就又可以了解它就是那个字,你就可以了解它的意思;再来你假
如又知道它的读音,我又会读;然後如果在字形资料库再加上它的意思的话
,你又知道它的意思。或许以後庄先生这个资料库可以变成《康熙字典》另
外的一个资料库。这是有关字典的方面。

    再来就是异体字,因为我所整理的是的唐宋的古籍,那书名叫《南山三
大部》,是唐朝道宣律师所著的。它有三个版本,一个是清静金陵刻经处的
版本,那是木刻本,也就是【会本】;另外一个是《万续藏》的版本;另外
一个是《大正藏》的版本。有时候我碰到一个字,我会去查这三个版本有哪
些字形的差异。因为当时我的想法,除了出版书面上的书以外,还想出磁碟
片,然後如果太多的造字,那我岂不是发行磁碟片还要发一个造字集给人家
!所以在造字的统一上,我觉得是很必要的。像刚刚庄先生所提的,如果我
们大家共用一个字区,这样每个人所用的那个字就是那个区,都不会重叠。

    像谢教授当时有给我三百多个《文心雕龙》的造字,结果我转到我的电
脑,它就必须要舍掉,因为重叠,所以我不是要用那三百多个,就是要舍掉
我自己的;後来我考虑的结果是没有用那三百多个,因为我原来的档案就是
我自己的造字。所以我觉得如果我们能够统一,这样子会比较好。

    我曾经请问师大国文系的一位教授,我说我们真的有必要完全照经书上
的那个字来用吗?我们难道不可以用我们现代的字?譬如说刚刚「君、羊」
这个「群」,「君」在上面跟在左边还不是一样,我们能够了解就好了。可
是那位国文系的教授说,他的讲法跟谢教授一样,如果「君」在上面的话,
可能是哪个朝代的作品。那现在我们的佛经一直经过现代学术化的研究,有
些後人就会推断说这部经可能不是隋朝的智者大师所写的,可能是宋朝或者
哪个朝代的人编出来的。假使我们没有去更动,他从字形上面就可以推断唐
朝确实是用这个字。这在佛经上还有文字学上会有它的价值,所以我觉得异
体字还是有必要保留。

    最後就是末学今天有带一份华康外字集,因为末学在编辑的过程碰到很
多的造字,然後我都一一登录下来。後来我的电脑公司的那位顾问,他就给
了我华康造字集,我一看那外字集,很多我都不用造了。所以我们在五千多
个造字里面,如果能够以华康那三千多字为基础,然後剩下的两千多我们再
扩充,是不是比较好?因为华康那一份点阵字也有了,然後印出来的都有了
。这是末学的一点意见。而且华康的那一份,它的流水码几乎都有了。

—————————————————————————————————

    周伯戡:

    今天如果有讨论造字问题的话,会面临到一个最基本的问题,我想把刚
才讲的话再精要的说一次。

    毫无疑问,中国字的异体字有很多种,那是不是每一种异体字都要造一
个字?在唐朝初期官方就立了一本书叫做《字样》,虽然有很多异体字,但
是请抄经手抄的时候请抄这个字,不准抄其它字,硬是把它固定下来。《大
正藏》在编的时候,《高丽藏》有很多当时的木刻字,但是《大正藏》在编
的时候,高楠顺次男就强迫说就用现在这个字。所以我说过,你读《大正藏
》受再读《高丽藏》的话,很多字都不一样。刚刚讲的意思是说,现代集团
要重新要恢复古字,不过我们相信它绝对不可能在网路上出现,因为它根本
没办法流传。

    所以今天我要问的一个问题是最基本的一个问题,我们在为这个佛经造
字的时候,我们造字的基本目的是在什麽地方?如果说为的是流传,或者是
把古代的字用现代的字,意思不要改变。譬如说「和尚」的「尚」有两种不
同的写法,如果是规定在有一个基本的字码的话,我们就不必再去造另外一
个字,硬是强迫用一个字来确定。这涉及到价值上的判断,当然这和研究没
有关系,因为做研究的人最後还是要回归原来的那个本子是怎麽写的。但如
果是只是在知识上的流传来讲,为了资讯时代的来临,使知识能够流传,而
不必找太多麻烦,我们可以用现在已经出现的字。但是我们要强调的是,这
当然和做研究没有关系,但是适合於资讯迅速的普及。

    我说这涉及到价值上的判断,所以各位这样讨论一下子,是不是为了一
个资讯时代,使资讯大量普及,而不必牵扯太多的麻烦,来使用现代已经造
出来的字来流传。这是让大家来考虑的问题。

—————————————————————————————————

    释慧明:

    刚刚你的意见,不是上次我们电子佛典有讨论说,我们以後会有藏经区
,还有现代文学。所以目前在使用字体上,如果在写自己的东西就用现在通
用的字,可是如果是整理古籍方面就是一定用原来的字。因为我们现在有现
在的同义字,可是到了後代会... 像大藏经它的下面不是也有标元本、宫本
是用什麽样的字,它还是有标出来。你的意思,当时末学有想到说,其实我
这个东西是要让人家了解意思就好了,反而你用那个古字比较不知道。就像
「自强」的「强」,古字是「□」,当时我一看也不晓得这是什麽字,後来
去查才知道它就等於那个「强」。在你传播知识上说我要人家了解这个意思
,那这个字不同,可能意思就不了解了,当然在意思的了解上用「强」会比
较好。可是如果你所顾及的层面多的话,就是还是保留原典,那麽末学的用
法还是用那个「□」,然後下面再用括号说同「强」字,这样读的人他也可
以了解这个字,然後另外一方面做研究的人还是可以了解。

    (周伯戡解释)可是目前纵使那些,譬如你说的很像「鹿」的那个「法
」我们不要造,就照我们现在这个「法」,可是目前佛经上还是有很多需要
用到造字的;假如异体字不造,还是有很多需要造字的,真的很多,那时候
末学有做整理。(周伯戡解释)周教授!如果那个字到现在没有相通的字呢
?(周伯戡解释)

—————————————————————————————————

    谢清俊:

    我想这个问题,在我们工程师的立场,我们工程师做出来的工具是不希
望有任何的限制说你只能拿这个工具去做怎麽样的事情。所以也就是说,我
们有一个统一造字的管理,但是各位要把这个造字用到什麽地方去,我想应
该没有什麽太大的关系。你如果真正要做得很仔细,我们帮你做得仔细。如
果这个东西只有你一个人用,这个事实上有一个特别的档案给你专门用都可
以。所以事实上从工程的角度来看,我倒觉得各位要怎麽用,不同的用处可
以有年百种,每一个造字的需求会不一样;但是我们设计一个工具的话,我
们不希望这个工具被限制只能用在这里。

    所以事实上我想没有关系的,举个比方说,这一个文献,我要把它电子
化,事实上电子化第一个问题该考虑的是什麽呢?第一个问题该考虑的就是
这里面的这些讯息我要保留多少在电子档案里面,我要牺牲多少进不去了。
比方说,这个纸张的资料就进不去啊!这个电子档案,你不可能摸到这个纸
张的感觉嘛!那人所用的几版的资料,事实上有很多讯息是没有办法进而电
脑档案里去的,这个时候你究竟该保留多少资料?文字的资料该保留多少?
这就是个问题,因为你用的目的不一样,你在这个机器里面存的造字就可能
有不一样的需求。

    但是我们总觉得,如果说我只是要把佛经普遍化,给大家都看得懂,尽
量用现在的字,那这里面如果有必要的话,我们为这个目的可以专门营造一
群造字字形给它用的。那如果说某些人要做研究,我就拿你们刚刚举的例子
,《大正藏》的字可能经过修改,《高丽藏》的宁没有经过修改,那如果《
大正藏》的资料跟《高丽藏》的资料通通进而电脑里的话,那研究的人员就
很方便了,他至少在电脑里就可以看得出来,这个字是这样子的,这个资料
是属於《大正藏》的;那个字是这样子的,那个资料应该是属於《高丽藏》
的。

    中国文学方面的东西,至少我所接触的、我所了解的,就是你考据之学
、义理之学都是基於文字学,你这个文字学的东西不保留下去的话,你这考
据学也好、义理之学也好,做不下去了。如果现在有一些工具都可以把这些
资料都存起来,都可以帮你整理这些资料的话,你要怎麽用那是你的事情。

    我不知道我的意思说清楚了没有,就是说大家要怎麽用这个系统,这个
工程系统应该不会有这种偏见才对。如果一个工程系统有这种偏见的话,那
它就是很偏的。举个例子,这个东西只能给研究用,它就只能给研究用,不
能给推广用;只适合推广用的,不能给研究用。

    事实上我觉得我们这个系统做出来的话,你要整理什麽什麽样的字形、
整理多少字形,应该都可以处理的,不会有什麽太大的问题。

—————————————————————————————————

    单维彰:

    因为现在用 BIG-5 的话,有六千个格子, 假定像你刚刚那样说的,如
果现在造了一万两千个字在里面,那用的时候是临时 ASSIGN 那个格子吗?

—————————————————————————————————

    谢清俊:

    这个是这样子的...

—————————————————————————————————
2B.
—————————————————————————————————

    (续上)

... 某些人他必须要保留一些文字细节资料的话,那麽可能有一个版本是专
门给这个用的,那一般用的有一般用的版本。也就是说,这五千多字这个空
间,以後可能会有一部份因为用途的不同而会造成重叠。这个我想,如果以
目前的情况来讲的话,这个是在所难免。还有刚刚倚天的那位先生说, BIG
-5里面还有四千多字可以扩充的空间,也许那个地方也可以给我们再用。

    不过这所有的问题都哪里来的呢?我很坦白跟各位讲,就是那个 13051
做的孽啊!那个 13051 大家用了多少字了?那个 13051 实在没有好好去统
计一下使用的频度。 很坦白讲, 那个 13051 如果照我的意见的话, 只要
5401 在里面就够了,5401 以外的字我通通把它杀光,把它分好几个块,给
各位不同的团体去用它不同的字。因为根据统计,中国字三、四千字的使用
频度在各种应用里面都已经超过百分之九十九,大概五千字在很多应用里面
使用的频度都可以在百分之九十九以上,就剩下的那麽百分之零点一的那些
字是散布在一个几乎八万字的一个空间里面,这八万字空间的使用频度几乎
是一样的,因为你不同的用途就会有不同的选择。所以中文字除非你收集到
八万字以上,要不然你永远没有办法完整,你也就是永远有那麽一个小机会
你有的字不在那里面。

    我刚刚报告的这些统计资料,还不包括书法的变异在里面,还全部都是
印刷体的统计。如果还包括唐朝手写本的书法变异的话,那这个数目字还比
这个更大,大得比这个更多。

    所以现在这个字码的问题,  很坦白讲, CNS  也好, CCCII  也好,
UNICODE 也好,不管它收集四万、五万、七万,还是大陆上最近宣布一个八
万字的大字库,不管它是哪一个,事实上对我们来讲是一个很远的东西。如
果有这样一个东西在,做背景支持,每一个都很有用。 举个比方说,CCCII
现在有五万三千字,那拿 CCCII 做一个 BACKGROUND,你没有的字到 CCCII
去找一找拿过来, 如果这些  UTILITY 把它开发出来, 这也是很有用的;
CNS 的 UTILITY 如果能开发出来,应该也是很有用的。 但是这些 UTILITY
都没有的时候,你拿来就要命了嘛,那没办法用啊!所以如果有这些大字库
、大字集,它已经变成电脑可以用的,可以在背景上支援我们这边做很多事
情。就像庄先生说的,你现在发现其它的造字档上有一些点阵字体,这些点
阵字你要用的时候发现没有, 他已经写了一个小程式,就可以从那个 FONT
里面把它抓进来,存到我们自己要的 FONT 里面去。像这些东西慢慢我们就
要做出来,做出来就可以把别的字集上把这些 FONT 抓过来自己来用。所以
那些东西,我是觉得只能慢慢再说。

    关於中文字集需不需要照不同的应用来编不同的字集?这个问题大家有
很分歧的看法。有人主张说,不同的应用就要编不同的字集。举个比方说,
你会计用的字、进出口海关用的字、化学用的字、军事用的字、佛经用的字
,这些东西都要分。有人说不需要,我把它通通抓来就好。事实上如果我们
根据日本的经验,如果分不同的行业用的字,这个对文字处理方面会造成很
大的好处,这个是日本所做的经验。日本甚至於他们在做翻译的时候,他们
都必须要根据不同行业用的字来做翻译。当然日本的经验不见得能够用到我
们自己身上,但是在佛经方面,因为做研究需要字集,印刷需要字集,传播
需要字集,有各种不同需要的话,需不需要做画分,我不敢说,但是这个可
能是一个必须走的趋势,也可能是以後我们在一些细部讨论的时候所必须要
面临来决定的一些问题。但是在目前这个情况之下,我是觉得再谈下去的话
,这个问题没办法解决,因为还是一直谈、一直谈下去。

    关於 BIG-5 的 13051, 能不能把一些字跟空间放出来给大家用?我觉
得这也不是不可能的事情。因为我跟倚天有一位先生谈过,他说你们如果要
的话, 我们就把 13051 後面的那些字抽掉几千个也可以啊!让你们自己去
定义啊!所以这种不是技术上的问题,是技术上可以做得到的。但问题是有
没有那麽多人有这个需要?有那麽多人有这个需要的话,事实上就可以诱发
出这样子适合我们的产品出来。

    (周伯戡问)我的意思就是说,这个造字的服务,应该是一个统一的服
务,不管你做哪一样的研究,希望能满足大家不同的应用,而不是解决几个
单一应用方面所产生的问题。

—————————————————————————————————

    周邦信(法鼓山资讯中心):

    刚刚从各位专家发表的意见,我们会看得到以後会有很长的路要走,而
且里面还有非常多的细节的问题。从我一个使用者的角度来看,我们非常希
望有像谢教授刚刚所提的是一个大家可以沟通的环境,我们大家要造的字能
够有一个统一的码,然後大家共通来用,这是我们最希望能够看到的,希望
这件事情能够完成。

—————————————————————————————————

    谢清俊:

    根据我们的统计,很少说一个文献它用的不同的字集会超过一万个字。
我跟各位报告一下,司马迁的《史记》,<本纪>大概是五十多万字,然後
注释大概是有差不多七十万字,加起来差不多超过一百三十万字,那它用了
多少个不同的字呢?不到六千。《清史稿》超过差不多一千万字,它用了多
少个不同的字?八千零一点,连八千一百都不到。也就是说,我们可以看到
几百万字,甚至於上千万字的大文献,事实上它用的字集不大。但是如果把
《二十五史》从《史记》一直到《清史稿》, 我们跟这个 13051 对照一下
, 我念各位讲,很滑稽的一件事情,这个 13051 里面差不多有五千字用不
到。    这个《二十五史》总共加起来用了差不多一万三千多个不同的字,
13051 之外我们要几乎造五千字才能够把《二十五史》处理掉。

    我为什麽花这麽多时间跟各位报告这个事情,13051 这个字真的是作孽
无穷,为什麽?连《二十五史》那麽常用的历史文献,字没有包括在里面,
它那些字不知道从哪里来的,然後弄了一些非常冷僻不用的字放在里面。我
可以很肯定的告诉大家,每一个电脑里面都背了五千个以上你从来不会用的
字,不只是浪费你的钱,浪费码的地方,也浪费机器里面所有消耗的电力、
IC 板的空间,通通给它浪费掉了,每一个机器里面都是这样。 所以整理这
些文字的事情,我是觉得刚开始的时候我们台湾实在做得很不好,这个原来
没有好好做,就遗害到我们现在。 说一句很不雅的话,这 13051 不只是占
著茅坑学拉屎,它如果把那个空间让出来的话,我们现在还更好用一点。它
那个空间地方占掉了,撑著那麽大的一个地方 13051,然後你说字都在里面
,你却经常会找不到一些字;然後你说你要用得够,然後我们自己现在要加
一些字,那就在外面加得很辛苦。

    现在的问题是, 我们 13051 如果做一个基础,我们现在有五千八百个
空间可以造字,这五千八百个当然你还要留几百个给其它的符号用,所以大
概有五千字的空间可以造字。这五千字的空间,根据我自己的判断,不一定
是对的,我觉得可以够我们用一个相当长的时间,如果没有太多怪字的话。
也就是说,13051 这个字集,再加上我们自己选的这个五千字,如果运气好
的话,至少可以够我们用个五年、六年,甚至於更长的时间。我所讲的用个
五年、六年的时间或更长的时间,是说大家做一般的推广用,现在印经书或
者推广用。如果周教授他要做佛经研究的话,那些原来的字体、很多东西都
要弄进去的话,那可能这个就不太够了。

    这不太够的问题在哪里呢?大家没有搞清楚这个码究竟是什麽码,你用
的电脑的 BIG-5 或者 CCCII 或者 CNS,究竟是字码还是字形码?如果是字
码的话,根本不会增加那麽多嘛!如果是字形码的话,那字形就数目很多。
那字形跟字码中间应该有个关系啊?举个比方说说,刚刚讲的「群众」的「
群」,「君」在左边,「君」在上面,或者大陆上的简体字跟台湾现在的正
体字,你说是一个字吗?「群众」的那个「群」,你说是一个字吗?是两个
字?还是一个字?大家说不定都说,这个「群众」的「群」,这个「君」字
放在右边、放在上面有什麽关系呢?但是以前总统府一个资政叫做张「君%
羊」,你如果把他那个「君%羊」写在右边的话,你看他答不答应,他绝对
说那个不是我。

    中文字不同的使用情境有它不同的需求,因为当那个字用做一个识别符
号的时候,它的语意都没有关系,重要的是形。它如果以形为主的话,「君
」字摆在左边跟摆在上面,确实是两个字的形,那个字的应用的时候是以字
形来区别,那麽当然有人说那是两个字,事实上他的意思是那两个字是不同
的形,他是根据那个形来识别中文字,并不是说那两个字是同样一个字。现
在又牵涉到一个问题,什麽叫同样一个字?「中华民国」的「华」字被大陆
写成「化%十」,那个「化%十」跟我们说的「华」是同样一个字吗?那你
必须要有一个定义,说同一个字是什麽定义。如果我们用语言学的角度来讲
,同样意义的字就是同一个字,那麽我们有一种定的方式。如果说,同样外
观的字是叫同一个字,那我们有另外一种定的方式。刚刚有一位先生说,这
个究竟是「么」还是「麽」?这个看定义不同。

    那麽这些东西怎麽定义呢?我跟各位再报告一下,这个系统里面有方法
帮各位去区别什麽是字的定义、什麽是字形的定义,你只要定出来,这个系
统可以帮你做。我们现在举的例子是按字的意思来做区别的。刚刚庄先生报
告我们做了九千一百一十几个字形,事实上只有 8532 字,中间有五百多个
字的形是重复的,今天各位看到的示□是可以做这方面的事情。

    事实上这个问题真正说深入一点的话,也就是说我们现在要整理佛教的
造字,刚刚有很多菩萨也都讲,我们不只是管理造字的事情,甚至我们讲同
一个字,什麽叫做同一个字?什麽叫做同一个字形?什麽叫做同一个字体?
什麽叫做同一个字样?这些东西在造的时候,我们这个码究竟是怎麽编?很
坦白讲,CNS 也好,CCCII 也好,UNICODE 也好,10646 也好,一直到现在
, 这个问题还没解决,因为这些东西都是说它编一个字码 CHARACTER CODE
,事实上它所谓 CHARACTER CODE, CHARACTER 也在里面,GLYPH 也在里面
,FONT 的变化也在里面,甚至有些符号也搅混在里面。 你可以看看那里面
, 那个韩国人最有意思, 白底黑字的是一个 CODE, 黑底白字是另外一个
CODE,它通通抢在里面。

    有时候这些东西,我们现在做起来的困难就是这个环境不好。事实上一
个中文字,如果照意义分的话,一个中文字可能有好几个不同的形,每一个
形又有不同的体,形是说它的结构的问题,体是说它的外观的问题,所以这
整个弄起来的话,这个系统是照这样一个发展顺序做下来的。所以这个系统
,我们自己的看法就是说,这个 DATABASE 如果好好建好的话,可以在计算
机里面当做一个制式的定义,来定义告诉 COMPUTER 什麽是一个字、什麽是
这个字的字形、什麽是这个字相关的字体、什麽是这个产生的字样,这里面
都可以处理。也就是在这种情况之下,我们才有信心说这个系统应该应该可
以处理大家所造的字, 因为它的一个 DATABASE,它是一个 OPEN SYSTEM,
你有多少字, 只要它机器里面的储存空间够,它就不会 OVERLOAD,可以一
直存下去;可能以後存得太多了,一个字有几百个字形的话,那说不定会速
度慢一点,那个时候我们再来看效果方面要怎麽处理。

    所以我趁这个机会也再跟各位说明一下这个系统。这个系统究竟要怎麽
用?不管大家要怎麽样把它用,我们是很愿意公开让大家用的,所以今天如
果大家愿意拿回去做做实验的话,我们就抄给大家,各位可以带回去自己用
一用。各位怎麽用它,我们都没有意见,将来你最好不要拿去做生意啦!其
实这个也没有办法做生意,因为我们这个是免费的,你拿去做生意卖钱的话
,大概也卖不了多少。

—————————————————————————————————

    释圣性(海明寺):

    我最关心的是我们能不能在今天这一次会议订出一个最近程的目标,就
是说我们能不能够有近程、中程、长程的目标。我们治标也要治本,我们今
天也谈了很多观念上的问题,第一个,那我们能不能达成一个共识?能不能
成立一个组织?就是说大家能够在一个共同的游戏规则下来运作。要有这样
一个共识,就算刚开始起步人不多,没有关系,但是它要有一个地方能够工
作,像工作站一样,要有一个地点。第二个,大家能不能寻求一个共识,最
近我们想达成什麽目标,然後把这几个目标大概能够谈出来的话,我想起码
我们可以著手去推动它;不然的话,如果这种东西没有共识的话,还是各做
各的。

—————————————————————————————————

    释恒清:

    其实我听了一个下午,我还是不懂。可是像法师说的,我想我们今天也
花了好几个钟头的时间来谈一些技术上的问题,还有观念上的问题。那比较
深一层的细节,我想还是留待一个层次再来讨论,因为势必要有长时间的让
专家去思考,然後去商量,技术上去解决等等。我也赞成圣性法师所提的,
我想我们共识大概都有,就是我们必须要有一个统一的造字规格。如果大家
有这个共识,一定没有反对,对不对?好!那这个是大家的共识。第二个是
用哪一个系统,我们今天的讨论,有的赞成 CNS,有的是 BIG-5,主要还是
这两个系统比较多。 刚才杜老师说,如果是用 CNS 为背景,BIG-5 为使用
者,换句话说,CNS 当做 MASTER DATA,BIG-5 用做 USER DATA,是不是可
行?这个我不太懂,大家也可以当做一种思考。

    现在我们是不是决定由哪一个单位来负责统筹?现在做这些工作的人,
基本上中研院、佛光山造了很多字,然後其它在座的单位可能造几百个、几
百个,那大概其它的寺庙、团体会跟著这个大的组织或领导的人来走,所以
我想这应该没有问题。要紧的是,在座的,尤其是佛光山、中研院,还有其
它几个地方,如果在座的今天能够推举一个负责的单位来统筹... 我不知道
这样讲对不对,我不是说叫它当山头,这个没有什麽山头;就是说,把这个
重任交给它,它要负起这个责任来做统一佛教典籍造字的工作,要把这个重
任扛起来。那至於怎麽样去做,它必须要去沟通,必须要去跟关心的人,或
者是在做的这些人,去做沟通。然後至於怎麽样造,那可能就是下一步他们
可以自己去决定。或者说,我们硬性规定,将来佛教界自己造字的话,造完
必须送到这个单位来;然後谁要这个字,你这个单位有义务要支援,技术上
的支援、什麽的支援,一切一切它都必须要负责。如果我们今天起码能够决
定这样的话,那下一步就可以进行第二步的工程,再来找适当的人。像我就
可能不参加,因为我也听不懂。就是找真正参与、真正懂的人,让那些人在
细节部份去商量。

    是不是这样会比较具体一点?如果大家同意这样的话,那我们今天是不
是可以决定一个单位?谁愿意扛起这个重任,这个实在是非常非常重的责任
,因为如果做得不好,将来全台湾佛教界一定骂它,因为是你决定的这个系
统,将来如果是字不够啊,字造得不好用啊,它必须要扛起这个责任,它必
须要有这个使命感。可是呢,其他人也有这个义务,必须要跟随著它;因为
大家要统一嘛,大家就照它的嘛,以後才你的可以用我的、我的可以用你的
嘛,这样才叫共享。所以那一个单位,我想我们今天是不是可以来决定一下
?那下一次要怎麽样召集会议,或者是需要什麽,以台大佛学研究中心,在
人员上、在资源上,我们可以全力配合,可是技术、智慧的层面它要来领导
。针对这一点各位有什麽高见,或者是推举哪一个单位,或者说谁愿意?

—————————————————————————————————

    释慧明:

    我赞成由谢教授来主持。因为末学曾经找过华康,它造一个字一种字体
五百块。像刚刚看的这个华康外字集,它有三种字体,这些也要用买的,然
後另外你没有的字再请它造。譬如说它这边有细明、中楷、中黑,你造一个
字就要一千五百块。那如果我们由谢教授来负责的话,这样华康它也不吃亏
,因为它造出来的字可以给很多人用。而且谢教授已经做到这种地步了,我
觉得是很合适的。

—————————————————————————————————

    陈履碚(佛光山):

    中央研究院谢教授已经花了很多年的时间在做这件工作,而且今天大家
看了庄先生开发的软体,这以後是会非常有用的。我举个例子,佛光山造了
两千多字,现在每次在打字的时候是这麽厚的一本,照笔画在里面去找。有
时候比如说很多人在打,同时举手说这个字没有的话,一下子找不出来,就
另外再造一个,所以重复的字非常多。所以我想我们不能继续这样做下去了
,一定要有一个标准的方法。那既然谢教授跟庄先生已经开始做了,是不是
应该让他们继续做下去?因为我想今天大家听起来,会觉得没有另外的一个
方法可以做的。所以我的建议是请中央研究院谢教授继续做下去。

—————————————————————————————————

    谢清俊:

    其实有些话我必须说清楚,因为我们实验室做这些事情,真的,我们认
为我们是个工人,我们不是主人。这个庙应该怎麽盖,哪里有房子,哪里有
楼梯,哪里有窗户,哪里应该供一尊佛,这些事情,坦白说,我们是不够的
。所以我一直希望请佛教界出来主持,这样子大家可以合作得更好一点,能
有一个平衡。

    我有很多意见,我是嘴巴很大,但是至少大家请相信我一点,我不坚持
我的意见,如果别人有更好的意见,我会接受。但是如果让我们那里就这样
做下去,没有一个平衡的话,我觉得这样不好,我真的觉得这样不好,这就
是为什麽以前我们那个电子佛典学会到後来无疾而终。

    後来恒清师父找我,我说我们不能开这个会,如果要开这个会,请台大
佛学研究中心来开。工作我是很愿意做,我们也很愿意帮这个忙,但是我是
希望还是像台大佛学中心出来主持这件事情。这样子我是觉得,佛学中心跟
各位的沟通会比我直接跟各位沟通有时候会好一些。当然,技术的沟通由我
跟各位来沟通。但是有很多政策方面的,有很多佛学方面的,等等有关的沟
通,由恒清师父这边出面会比较好。

    我这是心底的话,我这不是推辞。做小工,我们都愿意做,对不对!事
实上这个事情要做的话,我是觉得应该有一个很开放的议坛,让大家把所有
的意见都说出来,最後这个规格该怎麽订、工具该怎麽修,这样子才会比较
好一点。

—————————————————————————————————

    释恒清:

    谢教授讲得很有道理。我们用「台大」这个招牌当然看起来是很中立的
一个立场,这是唯一最大的好处。我们这个研究中心一点山头的色彩都不会
有,这是它的好处。可是我们也有我们的困难点,但是我们绝对全力支持。
我觉得谢教授讲得很有道理的就是说,它必须要集思广益。所以基本上我们
可以组一个 COMMITTEE,组一个小型的,不要太大的,几个很重要的专家。
因为可能你也希望有其它专家来给你一些意见,大家可以来讨论,总是精益
求精。 组一个 COMMITTEE 倒是有需要,可是不要太多,因为不专家的人不
必要。

    再一点就是,我也了解谢教授的资源可能也有限,他在中研院的管辖之
下,他必须要遵守他的规□等等,换句话说,他不能拿著中研院的,然後完
全做佛教的事情,恐怕也有他的困难。所以我想,如果在经费上、人员上有
一些需要支援的话,那我们佛教界是义不容辞,必须要支援的。这个有什麽
办法呢?我们中心是没有办法,我个人也没有办法,可是我们可以募款。经
费方面,我们可以用世俗不同的管道去募一些必须的经费,给他请人来做,
这是一定要的,这些问题我想倒是容易解决。而技术上的问题必须要有一些
专家,解决的方法就是组一个 TEAM。 如果你要我们出面帮你邀请人,你的
人手不够啦,我们办公室可以帮你打打电话,这个我们可以做得到,这样好
不好?

—————————————————————————————————

    谢清俊:

    当然,在这种情况下,我们一定参与。不过,我想有些基本立场还是必
须要做一个说明。

    各位了解这个系统不是一个小系统,绝对不是很简单的系统,若是简单
的事情老早就解决掉了。这个系统需要投入比较长的时间,还有相当多的人
力,因为还有好多资料。举个比方说,现在收集到的五千多个字,还没有输
入进去,这些字都要找人一个一个输入进去,那没有输入的人,还要再训练
一些输入的人员。所以事实上,光是这一部份,已经造的字把它放到资料库
里面,一旦放好了以後,马上一个效果出来,就是你们要用的话,每个单位
都可以有一个资料库,你马上就可以查;如果以後新增的字不太多的话,事
实上它就已经帮了大忙。

    但是这个事情,像我今天跟各位报告的,这个事情牵涉得很广,牵涉到
很多服务性的事情。所以事实上我们实验室花了些时间把它弄出来,但是我
们很愿意把它变成一个大家的东西,就是属於 PUBLIC DOMAIN 的东西。 甚
至於我们写的程式的 SOURCE CODE 都可以给大家, 为什麽?因为有很多这
上面的应用程式,不是我们可以写的,是要大家一起来写的,说不定需要中
央大学的、倚天的、法鼓山的,大家一起来写。所以我们很希望这个东西是
为我们大家做的东西,这个东西做好了,产权是属於大家的,所有人都可以
用。

    在这样的情况之下,我是觉得这些管理的事情比这技术上的事情可能更
麻烦。我们可以尽量帮忙技术性的事情,就像恒清师父讲的。但是整个管理
上的事情、决策上的事情,需要有一个像台大佛学中心这样,真的比较超然
的单位,让大家来决定这个事情,决定了以後,我们就来做。

    成立委员会的事情,我也很赞成。说不定我们可以成立两个委员会,一
个是管理的委员会,这些公共的财产、公共的工作是怎麽分配的。举个比方
说,现在佛光山有两千多个字,我们一直到现在还没有放进去,那是不是哪
位发心来放进去?事实上两千多个字大概一个人两个月就可以放进去。那有
些地方新造的字怎麽放进去?怎麽规画起来?像这一些东西,工作上的分配
,倒不是说技术上的发展。那技术上怎麽发展?可能专门有一个委员会来商
量一下, 像这些东西你怎麽跟 MAC 连起来,MAC 的东西怎麽跟它连起来,
像这些不同机器、不同软体现在不能互通的,这些问题是不是我们想办法去
解决,由这个技术委员会来想办法去解决。

—————————————————————————————————

    释恒清:

    谢教授的这个建议就是两个委员会,有他的道理,不知道大家有什麽意
见?那「管理」,你的意思是怎麽样?它必须要做哪些事情?

—————————————————————————————————

    谢清俊:

    举个比方说,我们现在已经把佛光山的两千三百多个字都放进去了,现
在要发给大家用,那总要有人去做这些发的事情,发了以後後续管理的事情
。如果说西莲净苑那边又有新的五百个字要加进来,那至少要看看有谁去做
这些事情,把它加进来。我是觉得有很多这种... (释恒清:小细节那些。
)不只是小细节,我举的例子可能是小细节。

    我们现在应该发展一个系统来做什麽,这个就交给技术委员会去做,你
现在是不是可以找一些人在技术上往这个方向做。事实上这个管理委员会是
掌舵的。也就是说,我们现在用这个系统解决造字的问题,那对我们来讲,
我们现在大家都是要来印佛经,那说不定第一个问题就是先替大家把印佛经
的问题解决,那这个需要怎麽样配合,那技术委员会跟著来做。

    我的意思就是说,这个大的方向,跟政策方面的走向,由管理委员会来
决定。那麽有很多技术性的问题,找人写程式啊,分配工作啊,这些东西交
给技术委员会。

—————————————————————————————————

    释恒清:

    那这个管理委员会必须要有什麽东西来配合,譬如说在佛教界造的字它
必须要全部收进来给你们,然後你们做好之後,它从这边又可以发出去...

—————————————————————————————————

    谢清俊:

    现在是这样,现在整理字是一个很好的时机,因为很多单位都做了很多
电子佛经的东西,很多单位也都造了一些字,那如果趁这个机会把大家造的
字集合起来,把它整理一下,根据部首、笔画或者什麽东西,重新整理一下
,使它比较更有规律,能放到造字区去,这个是目前可以做的,这个时机比
以前好,因为你如果再早几年的话,说不定你收集不到这麽多字。那现在既
然已经收集到了五千多个字,我们把这五千多个字整理一下,把重复的去掉
,然後把它的位置摆好。如果这些工作大家同意这样做的话,我们可以根据
庄德明先生今天的报告,技术委员会就朝这个方向做下去,做了一些,就让
大家去流传。那做了多少就让大家来流传,我想这个事情由管理委员会来决
定。

    因此我是觉得,管理委员会可能沟通很重要,可能就是要跟佛光山、法
鼓山、西莲净苑或者弥陀内院或者很多不同的单位,要充分的沟通。大家希
望这个系统能够帮你做什麽事,这个你不要找工程师,在旁边自己谈都可以
;工程师在旁边,有时候还碍於面子不好谈。所以我是觉得,这个事情都谈
完了以後,你希望这个系统能帮你做什麽,最紧急的是什麽事,然後把这些
问题交给技术委员会来解决。解决了,怎麽去用,怎麽去散布,或者有关版
权的问题... 比方说,佛光山两千三百字进来了,它有一些要求,它说这些
东西只能给大家沟通用,你不能把这些字形拿去卖;那麽,管理委员会要来
解决这些问题。也就是说,我们大致上要有一个职掌上的叙述。

—————————————————————————————————

    释恒清:

    这样的话,我们是不是今天可不可以就来决定?因为也就是现在这些人
。那如果你想到他今天没来,可是他确实是这方面的专家,或者他可能在这
方面可以具体帮忙的话,也请各位提供,因为我知道的比较有限。那是不是
我们现在就可以来提供一些名单?就是说在管理委员会跟技术委员会... 换
句话说,由这个TEAM来负责,至於他们下面要做的项目,他们必须再去开会
,然後详细去讨论,有很完备的计画之後,然後公诸於全佛教界。我们可以
从杂志,或直接个别的通知,把我们这个造字的整个构想、计画、推动的情
况,能提供什麽,还有大家的权利、义务,我们都跟整个佛教在做这方面的
人讲清楚。那我相信大家一定会支持,因为他一定会有求於你嘛,很简单嘛
,他一定会合作嘛,他自己造的会出来,然後人家的字库那麽多,他将来马
上就可以用,我相信还是可行的。

    现在我们起码先把它组织起来好不好?我们先说技术委员会的,那当然
是谢教授,还有... (谢清俊:技术委员会我看我也跑不掉,我就参加技术
委员会。)就当召集人好了。

—————————————————————————————————

    谢清俊:还有庄德明先生,还有蔡先生。我想这样吧!我们弄一张纸传
下去,你愿意参加技术委员会的,我们都欢迎。如果有推荐的话,也请写下
来。

—————————————————————————————————

    李鸿荣(928电脑股份有限公司):

    我趁这个时间讲一下。我今天来也是辗转知道的,因为没有发通知给我
们,也不可能发通知给我们,因为我们不是在这□围之内的。那我们公司为
什麽愿意来参加?主要目的也是愿意来参与这个事情。因为我们公司有造字
部门、有输入部门,所以关於有些字是不是要输入电脑,其实我们有人员可
以帮忙做。我们是电脑公司,你们会想到跟利益上有什麽牵连在一起,其实
你想说有也有,说没有也没有。因为我们帮忙做这个事情,可能不需要收费
用的。我们总经理希望我来了解这个事情。原则上我会参加技术委员会这个
部份,关於执行部份我们会分一点力来做。

—————————————————————————————————

    释自衍(香光尼众佛学院图书馆):

    管理委员会是不是先选出负责的单位?我建议是台大佛学资料中心,它
是最中立的地方。

—————————————————————————————————

    谢清俊:

    对!对!我想台大佛学中心已经没有什麽异议了。

—————————————————————————————————

    释恒清:

    我们像谢教授说的,也是跑不掉了,也是没办法。当然我们愿意服务,
可是我们还是需要大家的帮忙,这是一定要拜托大家的。你也是可以参加两
个,如果你两个都能够帮得上忙的话。

—————————————————————————————————

    谢清俊:

    如果大家没有什麽话说,我再罗嗦几句话。上两个礼拜,我去阿拉斯加
开一个会,  那个会是谈论中、 日、 韩文件处理标准的问题,  提到有关
ISO10646 跟 UNICODE 的一些问题。大陆大概在上一次 ISO10646 开会的时
候,他们建议把中文字根放到 ISO10646 里面。这件事情事实上也谈了很久
了,谈了有两年了。大陆上整理了三百多个字根、八个操作符号,所以我们
现在中央标准局也在整理字根。这一套字根我们会给中央标准局,也就是说
,中央标准局拿了这一套字根,我希望它能够把它放到未来的码里面。我想
这件事情大概没什麽问题,顺便跟各位报告一下。

    德明刚刚手上拿了一张这个纸很好,我以为他今天没带来。我们现在这
个系统一共 485 个字根,还有 557 个部件,部件就是比较复杂的字根而不
是字的,如果大家有兴趣可以来这边看一看。

—————————————————————————————————

    <会议结束>
Fri Mar 29 18:53:53 1996
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org