看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 282/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: b83050@ccstudent.ee.ntu.edu.tw (Post Gateway), 信区: BudaTech 标 题: Re: 组字法 (fwd) 发信站: 由 狮子吼站 收信 (Mon Nov 18 08:37:01 1996) 以下是吴宝原居士的回信: ---------- Forwarded message ---------- Date: Sun, 17 Nov 1996 17:16:52 +0800 From: Maha Wu <maha@tpts1.seed.net.tw> > > 一个有结构性的组字法是有必要的,当你编辑大量的佛典资料,总不能还在左 > > 边是什麽、右边是什麽。当你碰多了,你就知道有太多电脑缺字不是你用一般 > > 文字可以描述清楚的。而且一个有结构性的组字法,才可方便你对资料内容的 > > 管理。 > > 我的认知经验与行为可能是不太对, 我总是不能体会组字法的妙用. 比如说, > 爽, 是上面一个点横头, 加四个叉叉, 再加一个人字, 还是一个大字, 左右各加四 > 个叉叉呢? 而爽这个字是要左右拆, 还是上下拆, 还是里外拆呢? 还有比如由字, > 应该是上下拆成一个直竖加上一个田字吧. 但是我就是无法释怀, 中国字本非如此, > 一个由字应该拆成一个曰字加一个竖才对嘛. 但是一个曰加一竖又不够精确, 因为 > 你无法说明这一竖有多长, 造成的字是由呢, 还是申呢, 还是甲呢? > > 但是我同意中研院谢教授说的, 组字法可以解决大部分的问题 (95%?). > 只是我的数学训练使得我感到很不自在. 但是, 我又提不出更完备的意见, > 所以, 看来, 即将要接受这种组字的做法了. > > 但是我不认为省掉组字符号的简化部件式可以拿来代表中国字. 周一我当面 > 问他这个问题, 他说那种混淆的情形很少. 当时我想不出例子, 後来想到 > 很多组. 例如君羊, 如果去掉了组字符号, 电脑如何知道是左君右羊的群 > 字, 还是上君下羊的另一个群字? 同理还有口贝, 山□这些例子. 所以, > 我想, 组字符号和字根 (或部件) 是必须完整的写出来的. 但是, 组字 > 运算却没有结合律, 也就是说 a*(b*c) 未必等於 (a*b)*c. 因此又必须严格 > 写下括号. 如果讨厌看到括号, 或是必须没有括号, 那就必须为每个组字运算 > 符号定义其优先律 (precedence), 或是把组字运算符号定义成後运算表达式 > (postfix expression). 例如 a+((b*c)-d) 改写成 abc*d-+. 但是这又太 > 技术了, 电脑内部可以这样处理, 对一般使用者, 可不能这麽干. > > > 最近看了几封信,有个感慨:虽然我们是以电脑科技在做事,但不要忘了我们 > > 是在做一项文化的工作,是我们以科技不断创新的能力去保存、重现、发挥文 > > 化内容,而不是将文化内容削足适履的来配合我们不求进步的科技。 > > 这是我们常常会忘掉的, 的确, 要常常提醒自己, 什麽是目的, 什麽是手段. > (三年前我在 CCNET-L 上写过几乎完全一样的话, 当时是和一位旅英的华人 > 学者辩论. 宝原果然有默契 8-) > > -Shann 很遗憾的,11月11日中研院资讯所的座谈会我没能去参加(从三峡到南港,好长的 一段路,且早上九点开始开会;我一早七点半骑著摩托车直飙去,但在中和被雨淋 成落汤鸡,只好作罢),所以对於维彰兄上文的意见我只能在底下表示部份的或者 不成熟的看法。 关於组字法的妙用,之於我,以及之於中研院资讯所,其意义是不一样的。在我而 言,为了电子佛典的传播,在目前这个无法快速改变的现况下,组字法可以让从事 电子佛典工作者方便的输入,而使用者也可方便的解读电脑缺字的字形。而对中研 院资讯所来说,以我的了解,他们是要透过对字形结构的合理拆解来建立一个中文 字形资料库,并且利用这个字形资料库来组合成字(类似某些体积较小、字形较丑 的向量字形所采用的部件组字法)。所以我才会在之前的信件中表示说:「中研院 资讯所的东西才是可长可久的,而我们目前私底下所运用的组字法只是一个暂时的 方便。」 因为中研院资讯所对於组字的要求很严谨,他们拆字拆到电脑没有的字根或部件时 ,就不得不造个新字,他们大概造了一千个左右的这种字。所以若要运用他们的组 字法来严谨的表示电脑缺字,变成是以电脑缺字来表示电脑缺字;这样子,我觉得 在目前的一般用途上并不大,尤其是在网路上头。 我们现在所暂时采用的组字法,若考虑与中研院资讯在符号上相容的话,主要的表 示符号将会是:∞(横连)、%(直连)、◎(包含),以及新加入-+?三个符 号。後面这三个新加入的符号,其定义如下: - 表去掉某部份 如:青=〔请-言〕 -+若前後配合,表示去掉某部份而改以另一部份代替 如:□=〔间-日+月〕 ? 表字根特别,尚未找到足以表示者 如:背=〔(?∞匕)%月〕 以维彰兄上文所提的「爽」字,此字目前在中研院资讯所的中文字形资料库中乃一 字根,假设它真是一个缺字的话,那麽中研院资讯所可能会利用所造的部件来表示 这个字吧!但在我而言,这个缺字的组合表示式可以「勉强」简便的用〔□-土〕 表示;说「勉强」是因为那个「土」字的最後一笔有点不一样,若要更精准些应该 是〔□-(坎-欠)〕。 「-+?」这三个新加入的符号,减号及加号是试图突破原先组字符号概念中只有 ∞(横连)、%(直连)、◎(包含)的限制,因为以「爽」字来讲,说什麽上下 、左右、包含呢?所以用个减号就解决了,虽然表示出来的「爽」字在符号意义上 好像比原来的「爽」字瘦一些,但那意思已经明白的达到了。而问号则是我们自知 在不对部件造字的情况下,总有少部份无法表示的部件;我们这只是一个便利的手 法,绝不是万能的。 我在前文末後的那段话,是某年某月某时维彰兄托梦付嘱给我的(开个玩笑!)。 ---------- 摩诃工作室 吴宝原 Tel:(02)6741715 E-mail:maha@tpts1.seed.net.tw |
阅读文章: 第 282/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |