湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

第二章  汉字编码的历史发展

 

“历史科学就是要认识这些历史事实的真实性;在千头万绪五光十色的事实当中,抓住他们相互间主要的关系;才能从时间的系统中,寻出他们不断演进的趋势,则融会贯通,自能发现一种原则,以指导民族乃至人类的命运。”(摘自罗家伦:《历史的先见》)

 

为计算机中文应用而设计的编码方案,把汉字检索的功能扩展为用字和排序。因此,它就成了汉字的另一种存在形式——汉字的辅助形式。利用这种形式,我们就可以加速信息交换和运转。尽管过去的汉字检索方案与现在的汉字编码方案同样是汉字排序检查的设计,但它的含义已大不相同。前者的局限性与后者的无限性说明历史在向前发展,当前的现实对汉字编码的设计要求也在问纵深延伸。

汉字编码不断增多的现实,说明它不是静止不动的,而会因历史的发展变化而发展变化。各种编码方案在设计和应用实践中,相互参照,逐步演进,或另辟蹊径,探索新路。我们可以透过编码发展的全貌分析,窥视并研究设计系统的成熟和完善的过程,才能得出比较科学的结论。

研究者是否能正确运用历史的、系统的、科学的观点看待每个编码设计,并认真分析它的系统结构和发展规律,关键在于能否把所有的方案设计,当作一个自然的历史过程,而不单在一个输入环节上做文章。如果能在它们从萌芽到长大的全过程中,吸取经验,顺藤摸瓜,进而认识它的客观规律,我们就能找到解决问题的钥匙。我们把汉字编码方案设计的发展过程概括为三个阶段,即:萌芽阶段、争鸣阶段和探索阶段。

 

§2.1 萌芽阶段

 

电报码和四角号码虽并不是因计算机中文应用而产生,却的汉字编码设计的初次尝试。

一、汉字编码的产生

自从我们的祖先创造了汉字,国人的生产生活经验就能冲破时间的障碍,得到书面的积累,中华民族的文明才得以发展。但是人们想把文字记载的东西送到远方,不管使用什么样的交通工具,总会受到种种制约。于是外国人发明了电报技术。他们借助于电报技术,在几秒钟时间里,使他们的书面信息,传遍地球的任何一个角落。问题在于外国人拼音文字组成的元素只有几十个简单有序的表音符号。而中国人用的汉字是几千上万个用笔画构成的表意符号,很难用简短的信号表示。但是电报技术不允许等待,它逼得中国人仓促地设计汉字编码。为了及时使用先进的电报技术,中国人只能使用无理难学的电报码。电报码是一种全字形编码,每个汉字给四个固定的数字作为代码。

编码与检字本是同一个原理。外国人使用拼音文字,可以直接翻页检字,也可以发电报,不需要编码。而我们使用的电报码,却不能用来检字。一个最为重要的原因是难学难记它不可能使所有的汉字使用者都能迅速学会。我们虽然有部首笔画数检字法,却需要经过两道手续:用笔画数查部首,再用部首查汉字。这是一种间接检字法,它使用起来很不方便。部首检字法不仅是因为间接检字难学难记,同时,部首又只能代表汉字的部分字形,不能涵盖全部汉字。20年代产生了四角号码检字法,利用汉字四角的简单笔形,代之以四个规定的数字,只需要很少的记忆量,就可以直接翻页检字,从而改变了检字的落后面貌。

电报码和四角编码应该说是最原始的汉字编码。

二、电报码和四角码的意义和局限性

电报码和四角码的编码方法,有两个共同点:其一,它们都是全汉字字形编码;都使用简单有序的数字代表笔画构成的汉字;其二,它们都是使用四个数字代表一个汉字。它们的区别是:前者无理,后者有理。无理编码需要死记硬背,而有理编码只需要很少的记忆量。这无疑是一次不小的进步。由此可知,汉字编码的有理化、有序化是设计的基本要求和前进轨迹。

电报码虽然无理,但它的优点是具有唯一性。每四个数字代表的汉字只有一个。电报技术使用价格昂贵,需要语言简短。唯一性适合使用于简短的具有确定意义的语言;大部分汉字都是词,可以用简短的语言来表达意义。电报码给后来编码设计者的启示是:尽可能减少码,以避免不必要的误述;简短有序的数字,可以代表复杂的汉字;汉字必须编成简短有序的符号,才能为现代科技使用。

四角号码将汉字四角笔形分为十类,代之以十个数字,它给我们的信息是:利用汉字的某些部分特征信息,可以使复杂的汉字成为简短有序的符号。四角号码是不理的。有理编码学习容易,记忆方便。但是它的根本缺陷是用四个数字代表汉字的方法是人为规定的,可以主观变换,这就能使编码无限增多;汉字的四角笔形,分类的方法没有任何客观的依据,你认为可以分为十类,我认为可以分为十一类、十二类,谁都说服不了谁;主观决定的笔形与数字的对应也没有依据,你可以把甲数代表A,我可以把甲数代表B;汉字四角笔形简单,类同的字很多,再加上只用了十个码元(即码位),就会产生大量的重码。同时这种编码方法使用的是字的外面四角笔形信息,与字的内在联系不多,不能表达字的内在信息。不过,作为字典检字法,每页都有很多个字,所以重码并不重要,只要能检字,不能表达内在信息也不重要。

电报码和四角号码都不能作为计算机使用的输入编码。因为电报码难学难记;四角号码重码太多。他们的设计都太简单。但在编码设计的发展过程中,四角号码给我们提供的启示具有划时代的历史意义:利用汉字的某些部分特征加上有序的符号,可以使汉字具有有序性,有理化,这为后来者开拓了十分有益的思路。

三、四角号码得以推广的启示

四角号码应用于字典之后,许多人都动起了改进汉字检索方法的脑筋。自20年代到48年,全国发表的汉字检索方案就近90种。但是真正得到使用的还只有四角号码。这并不是说,只有四角号码是最好的,其他方案都不如它了。问题在于检索方案是纸上文章(这种纸上文章就成为有的人认为单纯的编码是“纸上谈兵”的思想依据),检索设计是应用科学,必须得到使用,方能为世所知,不上字典使用人们就不知道它的好处。四角号码发明人王云五先生是商务印书馆老板,只有他才有条件把自己的方案用在字典上(这个事实,使有钱的方案设计者想方设法编制编码字典)。这一事实表明:如果我们把一些好方案当作“纸上谈兵”,放弃对它们的研究,一定要设计者自己出钱,搞成软件,进入市场,出了名,才让它有资格参加评测,岂不是自我糟蹋!把编码设计方案说成“纸上谈兵”,固然可以大量减少参与比较的方案数量,但是有两个副作用:一是可能把好方案关在门外;二是突出了输入法的重要性,轻视基础研究,激发短期行为。方案设计是输入的基础。输入法是在设计的基础上建立起来的“上层建筑”,基础不实,即使是最好的上层建筑,也是不牢固的。

 

《汉字编码设计学》目录

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有