§6.2拼形文字与线性排列 一、拼形文字的形成和延续发展的原因 世界上所有的文字,都始源于象形文字。人类创造文字之始,目的在于传递和记述信息。 后来因语言的不同,为了与各自的语言相适应,分为拼音文字和拼形文字两类。我国的文字学界总是拿拼音文字的定义给拼形文字定义,显然不十分恰当。 世界上的各种文字走着拼音和拼形两条不同的道路。外国人的文字叫做拼音文字;中国人的文字叫做拼形文字。外国要走拼音化的道路,中国造字,为什么要“拼形”到底?据我们的研究,这与汉字的特点有关: (一)文字与语言相适应。汉语的声韵相拼,只产生了一千两百个音节 ,如果采用拼音造字,只能造出一千两百个不同的字来,不容易区别不同的意义。 (二)尽管中国的方言复杂,但大都是单章节语言,所用的词汇也都是由这些单音词合成的,多音词只是极少数。它的表意性能使讲着不同方言的人群共通信息,不同地区、不同方言的人们虽然口头语言不通,但汉字的书面语言可以让人望知义,也利于互相沟通信息。因此在古代,虽然没有统一使用某种规定语言,却可以相互交流;而拼音文字却不可能这样的书面沟通。 (三)构成文字系统,造字法的完善是决定因素。外国人开始也用象形文字,但随着文明的发展,象形造字无法表达他们的多音节语言。他们只能利用音素,重新创造拼音文字。中国人的造字法跟上了中国古文化的发展,适合汉语的特点,在我们发现音素之前,就已经选够了要用的字,积累了大量信息。丰富的文化和文化的继承性,一方面制约了文字的突变,又同时配合历史的的延续,不断完善了这种文字系统。 (四)单字本身就是词,也可以是词素。用字来构词,表达中国人的语言,十分便捷。我们读书识字,不仅仅为认识字的读音,更为重要的是通过词义接受知识。历史发展,新词不断产生,旧词搁置不用;词的变化叫快,字的变化却慢。通过字来造词,以字义理解词义,使学习和继承历史文化,要比拼音文字方便。尽管汉语已经向多音词发展,但单音词仍然是它的基础。汉语不可能扔掉它的基础把自己“悬起来”。 二、拆字揭示了“线性” 拼音文字可拼可拆,拼形文字却不能拆是没有道理的。汉字既然是拼形文字,能拼就能拆。现在却不能拆,不拆就不能使之形成线性排列,不能形成线性就无法构成序性。但是,现代社会要求汉字必须具有线性和序性,字形编码开辟了一条寻找汉字线性和序性的道路。 古人也曾动过拆分汉字的脑筋,把汉字的基本单元称为字元、字素等等,但现在,一个汉字集中到底有多少个字元或字素?历代文字学家 没有一个明白的交代。上千年过去了,社会发展需要文字学家作出明确的答复。这不是过去的文字研究没有想到,而是过去的社会现实条件没有提出这个要求。文字学是应用科学,没有普及应用的条件,人们不可能超前走到这一步。 汉字形码方案的实践不断地提醒我们的文字工作者:实现汉字线性排列的前提是必须知道汉字基本单元的总数;这就是部件定义和部件定量的唯一目的。只有这样,我们才能彻底打开“关押”汉字线性和序性的“巴士底”。 只有使方块的汉字作线性排列,它才能实现有序性。要使汉字具有序性,首先要使汉字具有线性。因此要使汉字具有线性,首先要使汉字具有可拆卸性。拆字编码就是这样的思想基础产生的。 三、汉字部件的线性排列分析 有了部件清单,对照清单拆分汉字,每个汉字就可以由方块而变成线性,我们就走出 了汉字序性化的第一步。部件清单证明拆字编码接近成熟。它是中国人现代信息技术迫切需要下 “逼”出来的,它的成熟显示出汉字应变的巨大潜能和中华民族的高度智慧。 尽管汉字是拼出来的,几千年的多次变革,现代汉字与古代相比,已经面目全非,有的地方还掺进了许多人为的因素,因此,根本不可能“原拆原建”。假设能够,也并不一定能适合编码设计的要求。我们理顺这条线索不是为了复古,而是为了利用它的规律。 汉字拆分牵涉到汉字的结构体系,本是件非常严谨的工作。可是,某些编码设计者竟然认为,为了使键盘打出汉字,可以不顾汉字的规律和规范,应该“削”汉字之“足”,“适 ”编码之“履”,把“不”拆为“一、小、”,“东”拆为“七、小”,“民”拆为“已、七”……,这些拆分引起许多文字教育工作者的不满。于是,有的人从经验主义出发,以为只要拆字,就会损害汉字规范。他们反对一切“拆字编码”,并措此为据,认为“拆字编码”已经山穷水尽,没有出路了。这障目的一叶使这些先生在困难的时候看不到光明。 人们都说汉字拆分是个难题,其实,只要有了部件清单,汉字的拆分就不再是难题了。我们根据上一章所述的部件定义,将一级字库的3755个汉字,拆为下列线性形式,到底拆得对否,可以一个一个地进行讨论。如果这3755个一级字的拆分能够得到通过,就可包含所有的汉字。因为它已经包含了拆分所有汉字的规律。不相信者,请看附表。我们希望反对拆字编码的人,不要认为有个别字不合己意,就轻易加以否定,把孩子和脏水一起倒掉。讨论编码最忌两点,一是带有主观成见;二是忽视系统关系。附表是我们把3755个一级字库的汉字,拆为部件并排成线性形式(见本书第156页——182页)。 我们对照部件清单,将一级汉字字库的汉字,套拆为部件,并根据部件的第一笔出现的先后,排成线性形式,说明:一、汉字是有线性的;二、部件清单是完全分解汉字的根本;三、只有拆分规则和部件清单的结合,才能实现拆分的唯一性。 把汉字分解为部件并使之排成线性形式是汉字形码的第一个要求。以上虽然只有3755个字,但由于这种分类方法和编码方法都有可扩展性,所以增加再多的字数也不与紧(如不相信,请见本书最后一张附表:ISO/IEC DIS 10646 汉字集20902个汉字补充部件表)。 上面的汉字线性排列中,汉字部件数量分配的分析: 单部件字111个 占2.956%; 二部件字629个 占16.77%; 三部件字1249个 占33.26%; 四部件字1068个 占28.416%; 五部件字489个 占13.023%; 六部件字160个 占4.216%; 七部件字39个 占1.038%; 八部件字8个 占0.213%; 九部件字2个 占 0.053%。 一级字库3755个字,除掉111个单部件字(本身既系部件,也是汉字),有3644个多部件字(即含有两个以上部件的字)。其中二、三、四、五部件字,就有3435个,占94.26%。即是说,拼形字母系统以四键出字,基本可以反映出全部字形信息。六、七、八、九部件字仅占5.74%,以四键取码,要略掉一部分部件,但及占比例已很有限了。 这个统计说明把笔画结构块作为汉字的基本单元(部件)是最合适的。因为,根据各个方案出字键数的统计,绝大多数方案选择得四键出字。从电报码开始,我们就确定四键出字。因为,尽管汉字总数有五六万个,但流通使用字种只有四五千个,不会超过四位数。这说明四键出字是汉字输入最佳的选择;部件的大小,也当然有个最合适的选择,它的选择标准是能否最准确地反映最多的字形信息。我们从五部件字开始统计,根据: 部件数-应取码数=字形信息省略数 五部件字 489个×1=489个 六部件字 160个×2=320个 七部件字 39个×3=117个 八部件字 8个×4=32个 九部件字 2个×5=10个 489个+320个+117个+32个+10个=968个(部件静态省略总数) 3755个汉字合计使用了13145个部件,但是,我们在输入时却把超过四个部件字的多余部件省略了。合计省略部件数968个,如除以总数13145,得出信息损耗率为7.365%。答案是:这个选择的字形结构静态信息含量为92.635%。这个数字说明我们以笔画结构块来研究部件,其大小是合适的。所有以“优选”为基础的设计方案,都以四键出字计算,无法作出这样高的字形结构信息统计。因为,“优选”方案在未进入编码前就把许多字形结构信息筛选出去。以笔画笔形作编码的方案,例五笔字型,就更无法统计了。字形编码方案,应该反映最多的字形结构信息。 有的人也许认为汉字集扩大了,为了避免重码,要五键出字才对。其实不然,因为,汉字集扩大,用五键出字,固然可以减少重码,但不能提高工作效率。常用字还是那个使用频度,不会因汉字集的扩大而降低。汉字集增大,字数增加,只能增加重码率。而这些增加进去的重码,大多数人一辈子也用不上,因此,它们与输入速度基本上没有关系。有的设计者不明白这个道理,将大字符集的出字键数改为五键,这种方法,从纸面上看,重码率虽然减少了,但使用性能差了。因为,我们在键盘上输入,绝大多数是常用字,那些一级字库以外的字是很少用到的,即使偶然用到一次,看屏挑选,花费时间极其有限,而把这些经常用到的字从四键改为五键,以宝贵的使用性能换取毫无价值的纸面重码率的降低,是最不合算的。 部件数在握,以拆分分析作为反证,能够使我们更加理解汉字是“拼形文字”这个新概念,同时也可以加深理解部件的定义及它的重要意义。 有的人说汉字是形意字,有的人以言汉字是形声字,现在又提一个拼形文字的新概念,觉得接受不了。汉字是含形、音、义为一体的文字,讲它是形声字,侧重于音;讲它是形意字,侧重在意;讲它是拼形文字,侧重在形:它们从三种不同角度描述了汉字的本质和特有规律,并不相互排斥。过去之所以没有拼形文字的概念,是由于过去我们没有字形编码的需要。现在我们有了这个新需要,出现新的命名和新的概念当然顺理成章。 |