您有新信

 
中文 BIG5 码 vs CCITT 码?
#1
Post Gateway
发信站: 由 狮子吼站 收信 (cctwin.ee.ntu.edu.tw , 信区: BudaTech)
~---------- Forwarded message ----------
Date: Fri, 8 Sep 1995 17:35:26 +0800 (CST)
From: David Chiou <b83050@cctwin.ee.ntu.edu.tw>

以下是以前关於 BIG5 vs CCCII 内码的一些讨论。

须注意的事: CCCII 在国内图书馆界已行之有年,不过若就佛典
             完全电子化的考量,问题如同上次花园大学的调查
             所显示的,仍有待商确。

不过最大的问题是:好的东东,不见得是人们通用的东东。
                  不通用的好东东,只能自己收著,对大众就没有用了。

所以不论最後是采何种交换码( CCCII? BIG5 改良版? CNS 中央标准码? ),
最後都得再转出一份通用的 BIG-5 格式。


圣性法师正打算推动使用 BIG-5 改良版,不过这个版本的最大问题,
就是不能公开出售,因为是由倚天内部的学佛者所更改的,而不是
倚天公司所发布(况且这套改良版只是个构想,尚未正式著手进行)。
所以,对於一般的倚天使用者,这套 BIG-5 改良版有跟没有一样,
而且还无法提供非常庞大的造字数(只是比起标准的 BIG-5
大得多,多到多少我就不知道了。)

花园大学的心得,是分为 master date 及 user date 。
他们现在是以 BIG-5 输入为准,透过其 ZenBase CD
上所附的「中文码转译器」来进行加字的工作,理论上可以很快的
转换至各种内码。

中央数学系单教授则是建议我们使用 CNS 内码作为 master date。
以单教授在国内外此类相关讨论区的多年资历,是值得我们列入参考的。


这一切,我也不大清楚,就等看看哪位师兄取得花园大学那套
「中文码转译器」,大家用过了後才能见真章。

否则,圣性法师应该将继续推动改良版 BIG-5 (在没有证明
花园大学那套有实用价值前),有的人甚至还打算设计新的内码
系统(这种人先不理他),还有使用 CCCII ,还有使用 CCCII
很久後碰到问题的,还有人使用 CNS, etc.   唯一的交集仍然
只有「最後要转出一份 BIG-5 的档案」,其馀仍旧是在战国时代。



"'*-._,_.-*'"'*-._,_.-*'"'*-._,_.-*'"'*-._,_.-*'"'*-._,_.-*'"'*-._,_.-*'"

      URL:  http://www.ee.ntu.edu.tw/~b83050
   E-mail:  b83050@cctwin.ee.ntu.edu.tw ; david@math.ncu.edu.tw
   邱大刚,  Sophomore of Electrical Engineering Department,NTU.





==> Rollaned.bbs@bbs.ee.nthu. (风□□□□) 提到:
:    那我想请教您一下, 上次我做通讯录时, 有个字打不出来, 就是
:    " □ " 然後把水字边去掉, 这个字不论我怎麽弄都出不来 !
:    可否请教您如何打出来 ? 谢谢....
:    ps : 到现在才发现倚天中文是如何的不完整, 害我同学不能用她自己的名字 !
:    告诉各位 ! 连她学生证上的名字都是用 "□" 来代替原来的字说, 好可怜 !

  说到某人的名字「电脑打不出来」,心中又开始感慨。

  半年前,台大的  BBS 在讨论为什麽台大没有电子榜。後来演变到有人的名字
在 Big5 中找不到,我一时「激愤」回了一帖,如下所示第一篇。後来,许多帖
子也跟著一起讨论,不过大概可分成两个方向:一是讨论中文内码;另一是题目
是 Ungian 君牵出来的,讨论国字本身。

  以下,我将讨论中文内码的部份整理出来,提供各位参考。希望能让更多人了
解及重视这个问题。语言是活的,会随著使用者而逐渐发展;最有影响力的中文
使用者是——如果现在不是,那不久的将来必定是——电脑。如果中文不能在电
脑上妥善的处理,对於中华文化的发展,必定是一大阻碍。

  为了不跟本版的主题脱节,请问是否有人愿意另开话题,来讨论中文内码使用
两位元以上时,对程式设计有多大影响?

亦驴候教

=========================================================================
Newsgroups: tw.bbs.campus.ntu
Subject: Re: 台大不愿意公布电子榜的原因
=========================================================================
From: rux@eembox.ncku.edu.tw (RUX)

   若有人因名字不在 Big5 中, 而造成任何困扰, 建议你可以把帐算在"何x慈"
 这个人身上. 各位可知, 六七万个中国字当中有多少字不在 Big5 中? 而 Big5
 中又有多少字不是中国字 (特殊符号除外)?  各位可曾听说过 CCCII 这个完整
 且考虑周详的中文交换码, 是如何被何x慈用卑劣的手段将之排挤於国家标准之
 外? 却用从日本抄来的字码当国家标准. Big5 脱胎於此, 当然问题丛生....

   中文在电脑上的应用越广, Big5 的遗毒就愈深. 自从看了 CCCII 的发展历程
 之後, 看到 Big5 的毛病, 就有一股无名之火.....
=========================================================================
From: rux@eembox.ncku.edu.tw (RUX)

Iunn Ungian (iug@ccms.ntu.edu.tw) wrote:

>据我所知, Unicode虽然保留汉字空间有一万多字, 但是问题可能跟
>Big-5一样, 反正制定标准的人最大, 一切以他(她)的意见为意见。

  Unicode 把中日韩的汉字通通混在一起,问题确实很大。

>但是, CCCII的问题也是很大, 不是吗 ? 异体字是很麻烦的东西, 只要
>有转码的机会, 总是会漏东漏西。

  CCCII 有考虑到异体字。异体字皆在不同字面的相同位置。

>另外想起一件较不相关的事, 「和」可以读ㄏㄢ□ 也可以读 ㄏㄜ□,
>白话文运动时, 利用「和」这字做and 的意思, 使用这字的人要读 後者,
>但是总要订个标准, 当初选择齐铁恨的腔口做标准, 在北京, 有少数人
>(如齐铁恨)"and" 是读 前者, 於是, 「和」这字就多了一个音了。
>我想, 只要你想使用汉字、使用中文, 许多麻烦的问题都逃不掉的。
>我一直觉得汉字是进步的包袱, 不过要改变, 谈何容易 ?

    我不敢说汉字是进步的动力,但汉字绝不是进步的包袱。至少几千年来
  所造就的,曾是世界上数一数二的高度文明。她的包袱在於:改变时代的
  利器,计算机,经常忽略她的存在。这一点,你我都难辞其疚。

    汉字在计算机上的麻烦其实不大:对使用者来说,输入似乎是最大的麻
  烦,但我觉得除了中英混合输入比较伤脑筋外,输入中文和输入英文并没
  两样(何况,现今的输入法非常进步。如许闻廉博士开发的「国音」好学
  易用);对於程式设计师来说,只要有标准可循就没有太大的困难。难就
  难在这里,标准不可闭门自订,需符合现行国际标准。这一点,国字整理
  小组已经为我们迈出成功的一步(CCCII 已经在美图书馆界使用十多年,
  中日韩的资料据以归档);但仍有艰苦的路要走。ISO 10646 及 UniCode
  这两个世界性的多国语言交换码标准正在制订中,可悲的是它们都是以西
  方人的观点来看方块字。这还不算什麽,更可悲的是自家人扯自家人的後
  腿。国字整理小组的成功使某些黑官眼红,遂拿出辞海「乱点鸳鸯普」也
  跟著编了一套叫什麽东东的中文码,并仗权势推广,压抑 CCCII。当然,
  外行充内行,牛皮很快就吹破了。可是,此票人却也发挥百折不挠的精神
  ,自此国家标准一年一变,开始为祸千年的「五码乱华」。Big 5 便是这
  混乱下的产品。并不是它有什麽强处,在急迫的需求下,错的最少的也能
  出头。而考虑周延、有学理根据的 CCCII 却在美国流浪。
=========================================================================
From: syc@cc.ntu.edu.tw (Shiau Yong-Ching)

RUX (rux@eembox.ncku.edu.tw) wrote:

:     我不敢说汉字是进步的动力,但汉字绝不是进步的包袱。至少几千年来
:   所造就的,曾是世界上数一数二的高度文明。她的包袱在於:改变时代的
:   利器,计算机,经常忽略她的存在。这一点,你我都难辞其疚。

是啊,只怪中国人太不争气了....曾经看过朱邦复先生的'组合语言的艺术'
一书,虽然没有学到什麽组合语言,但是对於电脑中文化的历史感受良多,贡献的
人少,破坏的人多......Internet在台湾越来越普及,Big5码的地位也越来越无法动
摇,中文电脑的梦想也越来越希望渺茫了..
=========================================================================
From: iug@ccms.ntu.edu.tw (Iunn Ungian)

我个人赞成拼音文字是根据自己的经验, 我没有学过速记, 有一次
我在记一场会议的谈话, 那次是台语, 因为我会罗马拼音, 所以我
是用罗马拼音来记录的, 发现速度跟得上, 但是, 若使用汉字显然
没有办法。

我并没有主张废汉字, 前面有些网友的讨论显然已经把我的想法等同
於废汉字了。 其实, 我们现在没有在使用篆体写字, 平常没有用毛笔
写字, 不是吗? 但是汉字还是在。

研究生时期, 连同担任助理的时期, 我接触中文自然语言处理有
三年半的时间, 有许多事情并非因为我很有兴趣而去探索, 而是侧面
听来而渐渐得到的一些概念。

我们现在来想一件事, 假设我是一个文字创作者, 今天, 我灵感来了,
脑子里有一个概念, 当我想把这个概念转成文字记录下来是, 那麽,
我们是怎麽做转换 ? 转成音(注音输入法的概念) ? 转成字素(仓颉
输入法的概念) ? 转成汉字的字形 (没办法输入) ?

第三种方法可能最自然, 但是得用手写, 速度慢, 修改麻烦;
其次可能是第一种, 但是这已经不是自然的反应, 其实也是拆
音素的方式, 注音虽然慢, 新的输入法(如汉音、国音……等)
可以解决一些问题; 第二种方式最不自然, 但是输入速度最快。
这点,朱邦复的贡献确实很大。

当初中文电脑刚起步, 有大键盘, 也许以人的习惯而言,这种方式
并不利便, 渐渐消失了 。 另外一种观念, 各种笔划存在电脑里,
用这些笔划结合成一个字, 这个方法其实很有用, 试想, 我们
一般用的汉字可能顶多三千个, 而我们为了成就这三千个字, 每次
进中文系统, 就是load 13053 字, 老实说似乎有点不值得, 现在的
电脑可能好多了, 再几年前, 一进中文, 很多应用软体不能使用。
笔划结合成字还可省造字的问题, 听说技术上也不是问题, 为什麽
会没了下文, 我自己并为著清楚, 希望知情的人告知。

CCCII 我详细情形不清楚, 我只知道他们一直在收集字, 看到就收,
因此它的set 有多大, 现在没人知道, 而且听说有 2-byte/3-byte/
4-byte, 而且只要set 存在, sequence(字序)就是一个逃避不了的
问题, CCCII 的方式, 我猜想字序会很乱, 另外一个问题是, 可能
一个无心的错误, 就多了一个异体字, 然後CCCII就多了一个原本是
错误的字, 这个情形真的有发生过。

异体字的问题, 也许没有各位想的简单, 举个例子, "甚麽"=="什麽",
这个时候 "甚"=="什", 但是 "甚至"<>"什至", 所以这个时候 "什"<>"甚",
语境(context)的问题。

CCCII的观念与大部分使用汉字者心中, 并没有词的观念, 有的只是
字的观念, 中文在做自然语言处理时, 一定得用词做单位来存
Information, 例如"台"=="台"(这是BIG-5可以找到的少数例子, CCCII
就多了), 所以我们要做的link 其实很多, 当然, 技术上还是可以克服,
但是牵涉语境时, 这link 远比想像中复杂。

还有很多东西值得谈谈, 不过我还有其它事情, 下礼拜礼拜二起要请假
(......不可说), 有空再谈了。 有件事倒想先说说, 国音输入法, 个人
觉得许闻廉贡献不大, 这牵涉到一些人与人之间的恩怨, 以後再说了。

        Ungian 94'0617
=========================================================================
From: r2701017@hp850s.ntu.edu.tw (Koan-Chiu Jim 3821653)

CCCII 不被采用干 Big5 何事?
有中文电脑基础的人就知道,CCCII 是交换码 , BIG5 是内码,交换码和内码
是不同的东西,各有各的用途。BIG5 从来就不受官方支持,它的地位是靠倚天
国乔打出市场占有率的。而当年挤掉 CCCII 的那套 2 bytes 国家交换码,也没
有人把电子榜单不存在原先讨论的问题,我只能说NTU CC太烂了。
:         ****所以,不要因电子榜单做不好将问题归究於中文码;
:         ****也不要因中文码设计不好将问题归究於汉字。
:         实际上,中文码及汉字都有其需要再检讨,但决不是因为中文榜单及中文
:         码。
=========================================================================
From: rux@eembox.ncku.edu.tw (RUX)

Koan-Chiu Jim (r2701017@hp850s.ntu.edu.tw) wrote:

>CCCII 不被采用干 Big5 何事?

  一、 CCCII、Big5 和「那套 2 bytes 国家交换码」之间的关连,我都是从以下
      两本书看来的:「国字整理小组十年」、「万码奔腾、一码当先」。从这两
      本书,CCCII 和 Big5 确是有间接的关系。不过,话说回来,只看了两本书
      就来这边大吹大擂,可能犯了以偏盖全的错。若有任何错误,请各位先进告
      诉我,我愿意更正及道歉。我也想多找一些这一方面的资料,希望知道的人
      能给我 mail。

  二、交换码和内码的意义确实不同,但内容可以是相同的。两者相同应该只有好
      处吧?(我需要研究研究 :->)另外,如果你承认  CCCII 是好的交换码,
      那我说 Big5 不是一套好的内码,也不算错得很严重。因为内码不应该和交
      换码没办法一一对应。

  三、2 bytes 的内码在当时的环境下,确实比较容易装在 PC 上。至少萤幕占两
     个位置就表示两个 byte,是很吸引人的。但在现今的图形介面下,我不认为
     3 bytes 会造成任何问题。 3 bytes 的中文电脑不是没有,王安即是一个最
     有名的例子(王安倒了,像是反例,有没有人帮我举个好例子?:-()

  四、我确实想题应该是想换一套更好的内码吧。谢谢你帮我□清逻辑。 :-)

  五、TCA?我可孤陋寡闻了,能不能告诉我那边可找到资料呢?
=========================================================================
From: u8113002@csie.nctu.edu.tw (Brian_H.S.Chen)

    朱邦复是仓颉的发明人,现在正在花莲清修,不知道他下一部要做啥
    至於 big-5 这个「不良内码」跟 CCCII 之间的纠缠不清我们在 Linux
    中文系统 chdrv 的制造当中就大吃苦头,姑且不论 CCCII 怎样,国
    外目前的解决方案也不会太烂:4 byte 字码 unicode,在 Windows NT
    上已经配备,希望吃下全世界文字。各位以为中文在 unicode 当中会
    找到新的希望吗?
=========================================================================
Fri Mar 29 17:36:45 1996
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org