看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1083/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: ita@Lion (ita), 信区: BudaTech
标  题: 补字机制
发信站: 狮子吼站 (Fri Dec 26 09:02:25 1997)
转信站: Lion

转载自 http://210.61.183.71 之补字区

OPEN 98 的补字机制 (以下为行文方便,缺字使用张文明居士之组字法)

补字:在电脑中没有标准储存方式(encoding)的字(Character)/字母(Letter)。
一)中文异体字
佛典因年代久远的关系含有大量的异体字(异於今日标准写法的字),如[月*□] 之标准
写法是「胁」,[□%公%心]事实上是「葱」的异体,考虑到如果将这些异体字皆当成缺
字,一律造在BIG5使用者字区(五千馀个空间),将会有空间不足及输入及查询非常麻烦
的问题。所以,本软体采用「同码不同形」的方法来解决异体字的问题,具体的做法是
:利用造字工具设计一系列的异体字型,并在13051 标准字区置入相应内码的异体字,
异体字型的档名为EBTVn.TTF,其中n为第n号异体(1937>n>1) ,第0号保留给大陆用的
简体字,第1937号保留给日本的Kanji(汉字),因为版权的关系,本软体只能提供自家
造的佛典异体字,不过如果[口*十]、[人*(私-禾)]虽然分别为「叶」字的简写和
「佛」字的日本版,但因为佛学文件常常出现,所以我们还是会造进异体字区。其馀第
1至1936号空间则为异体字,我相信一个字不会有超过1936种异体罢!此外,有些BIG5
有收录的字,如「□」、「饥」等其实是「尔」和「□」的异体,为了一致性,我们也
会造进异体字型。
在首页将「正规化异体」的功能取消即可显示异体字。(研发部按:目前未完成)

二)中文缺字(非异体字)
这部份我们以佛典补字集(感谢中研院提供)为底本,扣除异体字再加上佛光山禅藏及般
若藏中一些新的字,做成新的一套Truetype 描边字型,因为是TTF的关系因此可以立即
下载显示,不需重新开机。本网页将扮演一个积极的缺字资讯分享环境,开发网路版的
缺字查询/报告/下载/转换工具,供大家免费使用,并设专人永继地为大家解决相关
的技术问题及制作最美观的描边字型。我们希望这套缺字方案在中研院强力的支援及结
合佛光山藏经系列、印顺导师文集等无论质量及数量均属上乘的资料下,能成为教界最
後的一套造字档,终止造字档不相容的梦魇。

三)不属於A~Z的罗马字母 (梵文转写字、法文、德文等)
一般称作含有区别音符(Diacritical Mark)的字母,即在A上面一横、E上面两点之类的
字母,这在虽然不是什麽大事,却发现倒也困扰了不少从事佛典输入及散布的工作者,
第一版的佛光大辞典是以中文造字来解决这个问题,坦白说这是非常笨的方法,因为不
但显示难看(占两Bytes),查询麻烦兼无法排序 (A和 [A长音]无法排在一起),实在一
无是处,(笔者忝为该版核心研发人员,惭愧),另外台大佛研中心梵文巴利文的教学则
用小图(Gylph)的方式,显然也不是非常好的方法,因为小图只解决了显示的问题,在
资料输入维护及网路传输上都不理想。
现有的英文字母字型虽然不少,却没有一套能支援全部的区别音符字母又同时不占用
A4 (中文字字区第一字元)以後的字元(以便与中文相容),何况一般大量资料的输入工
作皆以纯文字模式进行,要如何才能让一般的录入员方便地输入这些字母?

四)特殊字体
这部份以天城体(Devanagari、俗称梵字)和藏文为代表,我们稍微研究了一下,发现如
果要让它要在输入层次(很难教育使用者输入)与中文相容不太容易,但显示则没有问
题,所以原则上我们原始资料一律用转写字母来表示,在输出时再转换为相应的字型。

结语
和电子佛典结缘至今已近七年,其中有太多的法喜,当然也有面对现实的无奈,随著经
验的累积,除了义无反顾地继续为这意义深远的工作努力之外,有几点信念只有随著时
间越来越坚定,愿与大众共勉。
1)不要试图在电脑资料库中保存原始文件的所有资讯,这是不切实际的做法,因为电
子媒体是自人类发明印刷术以来最大的突破,很多观念和做法将因之彻底改观、所以完
全迁就旧有的文件是没有意义的,我们要保存的是文件的内容和结构,而不要花太多精
力在其外观及物理性结构上。
2)不要完全信任科技,要抱持科技为文化服务的态度,不要图一时之快,将重要的文
化资产削足适履地迁就科技,这是我多年的心得:不当的规划、储存方式将会令後人非
常痛苦!另一种极端是完全不信任科技,认为科技变化太快、电脑化没有意义,很快就
过时,有书本就好了。这是断佛慧命的邪说!自古至今,有太多大德为了保存留传佛
经,奉献了毕身的心血,他们无一不是善巧利用当代最先进可行的技术,为的是什麽?
难道他们不知道木刻的佛经极易毁於兵燹、石刻的佛经制作成本高昂而移动不易吗?他
们当然知道,但不能因为这样就不做了,自己修行就好,而是了解到只要尽一份心,芸
芸众生中就会多一点机会接触到佛经,藉此悟入佛的知见。我们今天面临的情形是电子
媒体以其无与伦比的优势吸引了这一代人类最杰出的精英、越来越多的文化成就是以电
脑网路的形式来做媒介,学佛而又懂电脑的我们又怎能置身事外呢?
3)要加强合作,汉文佛典电子化已落後其他语系一大截,我们既然认同菩萨道,并了
解汉文佛典在大乘佛法中之价值,那麽就应放弃一已之私、门户之见,多多配合连络,
如果认为自己的比妙云兰若(印顺导师驻锡处)更有佛学素养、汉字处理技术比中研院谢
清俊教授高明、资源也比佛光山多的话不仿继续闭门造车,以我个人的了解,论人才、
资源、文化遗产,我们绝不输人,但为什麽在汉文电子佛典在国际上没有得到应有的地
位呢?真的是中文的整体运算环境不好吗?还是没有整合的缘故?值得大家深思!

--
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 203.73.26.1]
阅读文章: 第 1083/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org