您有新信

 
补字机制
#1
ita
发信站: 狮子吼站 (Lion , 信区: BudaTech)
OPEN 98 的补字机制 (以下为行文方便,缺字使用张文明居士之组字法)

补字:在电脑中没有标准储存方式(encoding)的字(Character)/字母(Letter)。
一)中文异体字
佛典因年代久远的关系含有大量的异体字(异於今日标准写法的字),如[月*□] 之标准
写法是「胁」,[□%公%心]事实上是「葱」的异体,考虑到如果将这些异体字皆当成缺
字,一律造在BIG5使用者字区(五千馀个空间),将会有空间不足及输入及查询非常麻烦
的问题。所以,本软体采用「同码不同形」的方法来解决异体字的问题,具体的做法是
:利用造字工具设计一系列的异体字型,并在13051 标准字区置入相应内码的异体字,
异体字型的档名为EBTVn.TTF,其中n为第n号异体(1937>n>1) ,第0号保留给大陆用的
简体字,第1937号保留给日本的Kanji(汉字),因为版权的关系,本软体只能提供自家
造的佛典异体字,不过如果[口*十]、[人*(私-禾)]虽然分别为「叶」字的简写和
「佛」字的日本版,但因为佛学文件常常出现,所以我们还是会造进异体字区。其馀第
1至1936号空间则为异体字,我相信一个字不会有超过1936种异体罢!此外,有些BIG5
有收录的字,如「□」、「饥」等其实是「尔」和「□」的异体,为了一致性,我们也
会造进异体字型。
在首页将「正规化异体」的功能取消即可显示异体字。(研发部按:目前未完成)

二)中文缺字(非异体字)
这部份我们以佛典补字集(感谢中研院提供)为底本,扣除异体字再加上佛光山禅藏及般
若藏中一些新的字,做成新的一套Truetype 描边字型,因为是TTF的关系因此可以立即
下载显示,不需重新开机。本网页将扮演一个积极的缺字资讯分享环境,开发网路版的
缺字查询/报告/下载/转换工具,供大家免费使用,并设专人永继地为大家解决相关
的技术问题及制作最美观的描边字型。我们希望这套缺字方案在中研院强力的支援及结
合佛光山藏经系列、印顺导师文集等无论质量及数量均属上乘的资料下,能成为教界最
後的一套造字档,终止造字档不相容的梦魇。

三)不属於A~Z的罗马字母 (梵文转写字、法文、德文等)
一般称作含有区别音符(Diacritical Mark)的字母,即在A上面一横、E上面两点之类的
字母,这在虽然不是什麽大事,却发现倒也困扰了不少从事佛典输入及散布的工作者,
第一版的佛光大辞典是以中文造字来解决这个问题,坦白说这是非常笨的方法,因为不
但显示难看(占两Bytes),查询麻烦兼无法排序 (A和 [A长音]无法排在一起),实在一
无是处,(笔者忝为该版核心研发人员,惭愧),另外台大佛研中心梵文巴利文的教学则
用小图(Gylph)的方式,显然也不是非常好的方法,因为小图只解决了显示的问题,在
资料输入维护及网路传输上都不理想。
现有的英文字母字型虽然不少,却没有一套能支援全部的区别音符字母又同时不占用
A4 (中文字字区第一字元)以後的字元(以便与中文相容),何况一般大量资料的输入工
作皆以纯文字模式进行,要如何才能让一般的录入员方便地输入这些字母?

四)特殊字体
这部份以天城体(Devanagari、俗称梵字)和藏文为代表,我们稍微研究了一下,发现如
果要让它要在输入层次(很难教育使用者输入)与中文相容不太容易,但显示则没有问
题,所以原则上我们原始资料一律用转写字母来表示,在输出时再转换为相应的字型。

结语
和电子佛典结缘至今已近七年,其中有太多的法喜,当然也有面对现实的无奈,随著经
验的累积,除了义无反顾地继续为这意义深远的工作努力之外,有几点信念只有随著时
间越来越坚定,愿与大众共勉。
1)不要试图在电脑资料库中保存原始文件的所有资讯,这是不切实际的做法,因为电
子媒体是自人类发明印刷术以来最大的突破,很多观念和做法将因之彻底改观、所以完
全迁就旧有的文件是没有意义的,我们要保存的是文件的内容和结构,而不要花太多精
力在其外观及物理性结构上。
2)不要完全信任科技,要抱持科技为文化服务的态度,不要图一时之快,将重要的文
化资产削足适履地迁就科技,这是我多年的心得:不当的规划、储存方式将会令後人非
常痛苦!另一种极端是完全不信任科技,认为科技变化太快、电脑化没有意义,很快就
过时,有书本就好了。这是断佛慧命的邪说!自古至今,有太多大德为了保存留传佛
经,奉献了毕身的心血,他们无一不是善巧利用当代最先进可行的技术,为的是什麽?
难道他们不知道木刻的佛经极易毁於兵燹、石刻的佛经制作成本高昂而移动不易吗?他
们当然知道,但不能因为这样就不做了,自己修行就好,而是了解到只要尽一份心,芸
芸众生中就会多一点机会接触到佛经,藉此悟入佛的知见。我们今天面临的情形是电子
媒体以其无与伦比的优势吸引了这一代人类最杰出的精英、越来越多的文化成就是以电
脑网路的形式来做媒介,学佛而又懂电脑的我们又怎能置身事外呢?
3)要加强合作,汉文佛典电子化已落後其他语系一大截,我们既然认同菩萨道,并了
解汉文佛典在大乘佛法中之价值,那麽就应放弃一已之私、门户之见,多多配合连络,
如果认为自己的比妙云兰若(印顺导师驻锡处)更有佛学素养、汉字处理技术比中研院谢
清俊教授高明、资源也比佛光山多的话不仿继续闭门造车,以我个人的了解,论人才、
资源、文化遗产,我们绝不输人,但为什麽在汉文电子佛典在国际上没有得到应有的地
位呢?真的是中文的整体运算环境不好吗?还是没有整合的缘故?值得大家深思!
Fri Dec 26 09:02:25 1997
回覆 | 转寄 | 返回

Re: 补字机制
#2
Heaven
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於 ita (ita@Lion) 文中述及:
: 的技术问题及制作最美观的描边字型。我们希望这套缺字方案在中研院强力的支援及结
: 合佛光山藏经系列、印顺导师文集等无论质量及数量均属上乘的资料下,能成为教界最
: 後的一套造字档,终止造字档不相容的梦魇。
: 3)要加强合作,汉文佛典电子化已落後其他语系一大截,我们既然认同菩萨道,并了
: 解汉文佛典在大乘佛法中之价值,那麽就应放弃一已之私、门户之见,多多配合连络,
: 如果认为自己的比妙云兰若(印顺导师驻锡处)更有佛学素养、汉字处理技术比中研院谢
: 清俊教授高明、资源也比佛光山多的话不仿继续闭门造车,以我个人的了解,论人才、
: 资源、文化遗产,我们绝不输人,但为什麽在汉文电子佛典在国际上没有得到应有的地
: 位呢?真的是中文的整体运算环境不好吗?还是没有整合的缘故?值得大家深思!

  很高兴看到有人很有魄力的要开发"教界最後一套造字档", 深为造字档所困扰的
  我们, 没有理由不大力支持.

  想想软体界的国王 Microsoft , 之所以能称霸许久, 除了软体强又好用之外,
  有一个原因就是能整合别人的资料, 也就是能让使用者在不改变原有之资料
  格式下, 进行使用其好用的软体. 若当时 excel 不支持 123, IE 若不支援
  java , 它能有现在的使用群吗? ... 扯太远去了. :p

  前一阵子由佛研中心主导, 临时成立的25T藏经整理小组, 是一支为了将手中
  现有资源--25册CCCII大正藏--做最佳处理的临时团体, 这部份的成果日後会
  公布, 这先估且不谈. 主要是在成员中, 是由 huiqun 及中研院负责缺字的
  处理事宜. 中研院的努力大家是有目共睹的. 而 huiqun 也花了许多苦心,
  将当时的主要三家造字档 -- 中研院, 佛光山补字集 (佛光山大辞典 v1.0)
  及美国佛教电脑资讯库功德会 -- 这三家的造字档, 他将之整理, 并列出对
  照表, 将各字的内码整理, 用人力方式将所有内码一一比对, 所做出的整理
  表, 若是佛光山有意要来整合所有的造字档, 并永续服务, 个人认为利用这
  份资料来撰写其它家造字档转换程式, 这是很重要的关键. 也只有如此, 才
  能让其它造字很容易的转换. 若能在起步时先将现有资源整合, 後续大家再
  一起共同发展, 这可能才是比较圆满的方法.

  若各位想看这一份资料, 它是 Access 的资料库, 目前放在
  ftp://buddha.nsysu.edu.tw/pub/25t/BIG5_DB.zip
  有 6M 之多, (因为每个字都有图档), 这是一份非常珍贵的资料, 还希望
  能让它发挥最大的功效.

  至於几封相关的重要讨论, 下封提出让各位参考. 说句真心话, 若真有人
  愿意出来做, 大家都是会力以赴的帮助到底.

  heaven
Fri Dec 26 15:31:00 1997
回覆 | 转寄 | 返回

Re: 补字机制
#3
Heaven
发信站: 狮子吼站 (Lion , 信区: BudaTech)
这是上封提到的讨论, 这些讨论日後会全部公开, 现在是利用这个机会,
将相关讨论提出来, 看能不能趁势将整合的大事一举推到顶点.
===========================
【11/11 huiqun】

基於各位近日多封信件皆讨论25T、CBS、中研院庄居士、普贤WMC兄、缺字等错
综复杂的关系,弟想说明一下我的立场。

各位的发心都是佛典电子化吧。弟一来没有这方面的能力,二来从不担心佛典没
有人去电子化,所以没有这个发心。

只是看到"big5缺字"这个基本而首要的问题如果没有统一处理,以後会构成许多
交流上的麻烦,而这些麻烦将是没有办法解决的,教界在佛典电子化的合作更会
因此而受负面影响。

以big5的普及性,忽略它是不可能的。但大部份的人都视缺字处理为一项佛典电
子化的附带工作,只要把自家所电子化的经文推出,缺一个字造一个就算了。

如果想著推出电子化经文是给别人读的,恐怕要重新思考一下,谁会在萤幕上读
经?弟以为佛典电子化一大优点是便於检索、"处理"、交流。缺字连连,各家各
码,如何检索、处理、交流?

弟却觉得缺字是big5的遗憾,造字并非佛典电子化的附带工作,每个造字都应享
有与任何一个系统内建字同等的地位,"标准造字档"更应是标准配备而非附加配
备。

在目前欠缺"标准造字档"的时候,组字和图形都是很好的过渡方法,当然也可以
把组字和图形作为另一种固定的表达方式。

目前三大造字档是中研院、资功会、佛光山,都是能看不能用。前者应是最具权
威的,但只提供一个造字档和若干学术文献,没有提供个别原始资料转码服务,
爱用者无法从原有的自家造字档转移至中研院造字档,也没有提供常态性的增订
服务,爱用者发现新缺字时只能报告而无法适时取得新造字。後二者更只是为配
合出版品而产生的附属品。

弟的主张是大家一起来,培养因缘以建立一套"佛典Big5缺字系统",包含:

一、标准Big5造字档
二、个别原始资料转码机制与服务
三、常态性造字增订机制与服务
四、组合字、图形、相通字表、异体字表、繁简对照表、其他相关工具...

凡是朝这大方向走的,必定会遇上大量繁琐的人工作业,无论是甚麽单位,小弟
都乐意义务协助处理此等耗时的人工作业。凡是为了一时交差而只肯原地踏步
的,弟则恕难提供协助。凡是指向个别出版品的短视作业,小弟也不会助其制造
更多混乱。

弟相信Maha兄和Heaven兄二位大概都颇清楚弟的想法,弟也很乐於跟二位学习和
配合。Tone兄则因最近才有接触,弟还待加强合作默契。普贤WMC兄方面,只是
这几天来了两封信,弟还搞不懂那边在做的是甚麽,如果与弟的想法相符,我还
是一样随缘协助。中研院庄居士则弟完全生疏,但以其崇高地位,中研院无庸置
疑乃落实整套"佛典Big5缺字系统"之最佳负责单位,不知道庄居士是否有这种打
算,是的话,我想大家都会非常欢喜的投入协助。如果资功会或佛光山有意出面
负责"佛典Big5缺字系统",弟也会不遗馀力帮忙。
====================================================================
【11/26 huiqun】
...........
有中研院为大家做好的现成东西,教界和学界都应安心尽量去应用,
也相信没有人会笨到要闭门造车或舍近图远的。
不过,只是「标准统一造字执行机制」还未完整,其中元件发挥不了。

  标准统一造字档 (大家都公认中研院的)
+ 安全转换服务 ( ? )
+ 适时增订造字服务 ( ? )
+ 标准统一造字档更新 ( ? )
——————————
= 标准统一造字执行机制 ( ? )
====================================================
【11/28 heaven】

至於 huiqun 所提的, 我脑中大概的构想如下:

1. 适用度高的转换(码)程式是要写的, 但这是 case by case 的工作.
对不同的造字档做对照表, 才是最辛苦的一环. 这点日後另外谈好了!

2. 依目前大正藏第九册缺字的格式 (若有不足再讨论) , 将中研院的造字档
也放上 web server 供人查询, 大家才知道哪个字已有造字. 基本资料为何.

3. 做一个留言板, 有人有新字要处理时, 写在留言板上, 大家就知道这个字
将被处理. 并自动 mail 给中研院及 web server 管理者或缺字负责人.

中研院负责编一个 big5 造字内码 (依德明兄以前写的笔划原则) 或不造
的原因 (是不是每个字都一定会造呢?) .

缺字负责人则做"标准"组合字, 笔划, 仓颉码... 等资料 (这部份是否由中研
院统一做? 我是担心中研院负担较重, 这种比较不重要的, 可以随时改的,
就给缺字负责人或 web 负责人来做就好了)

做完後就交给 web 负责人, 负责将留言板资料清除, 放入正式区, 并 mail
原通知者. 若有资料网友想填充的, 留言板亦是个好地方. 而留言板的资
料亦可考虑过滤後送上 buda-tech .

4. 缺字查询的区域分为二个, 站上会随时附上最新的造字档, 故第一个
查询区就是以造字档的字为主.
第二个就是最近新增的字, 尚未加入造字档, 但已有指定内码. 若各单位
想自己加入造字档亦可, 只要内码一致, 自己造也无碍. 另外就是可能有
些字不造 (出现频率太低或其它原因, 因为我不知道是不是每个字都造,
直到爆掉为止?) , 也是写出不造原因, 组合法, 注音....

.... 嗯! 看来似乎不错.... :p
========================================================

  heaven
Fri Dec 26 15:48:34 1997
回覆 | 转寄 | 返回

补字机制
#4
ita
发信站: 狮子吼站 (Lion , 信区: BudaTech)
个人了解电子佛典此事也有六、七年了,每年均有人在讨论
造字的问题,从CCCII、UNICODE、Big5造字诸如此类的大作,
而随之每年新的技术,从DOS、Win31、Win95不同User平台,
各方均有不同的见解,近来看到 "补字机制"此文从侧面得
知是多方面人士的心力结合,应是不错的解决之道。似乎
没有人有更好的意见,也希望大家多方面的支持,不然老
是看到大家在buda-tech上天马行空!没有较好的具体成果(
抱歉小弟也只会说说也不会coding )。

相信"补字机制"均达目前的标准,我想大家有空可
多多了解 http://210.61.183.71/ 站长的用心!!
Fri Dec 26 16:59:00 1997
回覆 | 转寄 | 返回

Re: 补字机制
#5
Heaven
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於 ita (ita@Lion) 文中述及:
: 拜读了Heaven兄的大作小弟有点疑问:

  不敢, 不敢, 多是别的人东西, 小弟只是引出来而已. :)

: 各方均有不同的见解,近来看到 "补字机制"此文从侧面得
: 知是多方面人士的心力结合,应是不错的解决之道。似乎
: 没有人有更好的意见,也希望大家多方面的支持,不然老
: 是看到大家在buda-tech上天马行空!没有较好的具体成果(
: 抱歉小弟也只会说说也不会coding )。

  不错, 真的是非常好的东西, 不然小弟也不会如此兴奋了. ^___^

  目前的成果都有赖於中研院的努力及佛光山的实做, 才能有如此
  之成就. 小弟也是从旁看消息的人而已. 不过中研院及佛光山也
  知道这方式有其限制, 将资料转至纯文字的档案格式, 问题就出
  来了. 许多根本问题还是会存在, 看看下一版的 big5 (big5 plus?)
  能不能解决这些问题.

  但目前, 这的确是最好的方式了, 故引出如何将其它造字档整合协
  助转换, 这也是一个重要的部份. 这部份并不是谁的义务, 而是希
  望大家一起来努力的事.

  heaven
Fri Dec 26 18:03:47 1997
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org