§3.5 比较结论和启示 纵观上述九种形码典型方案,我们可以发现它们之间既有本质的差别,又有内在的联系。 一、九类方案之五大差别 具体分析字根(部件)编码特点,归纳各种字根(部件)编码方案的差别表现如下: (一)对部件的命名不同。有的叫部首、字根、字元…… (二)选取的部件数不同。 (三)部件归并方法不同(即分类方法)。一般是一键代表多部件,但将哪几种部件合并到一个键位各不相同。 (一) 使用的码元多寡不同。有的多到101个键,有的只用了8个键。 (二) 选取的部件编码(映射)方法不同。 这么多的“不同”,我们可以想象得到:照此下去,部件编码方案将无穷无尽。既然所有的“不同”都出在部件上,那么,只有从根本上解决部件的问题,才能争取编码方案的统一。我们认为: 首先,部件的命名和部件选取数的统一,它的前提是要解决好部件的定性和定量。有人认为任何人都可以给部件定义,这个认识的关键是否认部件的客观存在。编码设计是客观存在的,为编码设计而产生的部件定义也应该是客观存在的。因此只要我们认真研究,一定会找到一个统一的定义。部件的定义确定后,就可以根据定义分解汉字而得到部件清单。每个汉字就可以依据部件出现的先后,分解为线性形式。不要希望部件定义能百分百地分解每个汉字,因为,汉字已经经过了几千年的发展和多次的变革,有很多人为的社会的因素参与,个别汉字的分解,和个别部件的确定,还须继续讨论,根据不同的设想分析利弊,权衡轻重,作出决定,最后确定清单。 其次,部件的归并方法的统一,必须排除键符安排部件的做法,同时必须建立一套整体的部件分类系统。既然,汉字本身就是一个完整的系统,部件也是一个完整的系统,部件的分类更应该是一个完整的系统。部件是按统一的定义产生的,因此,它就可以构成一个相互联系的体系。 第三,键符安排的统一,必须做到每个类别的安排,都严格依据字形规律,具有不可置换性。这就要求使用要素的单一性,即使用音素或形素,不要再加用其他的要素,如:字型区别码、笔形区别码、声调区别码等等。因为,每个汉字只使用三四个代码,加用的要素越多,排列组合的方式越多,就会产生各种各样的不同编码。 第四,编码(映射)方法必须采用直接映射:用形或用音。 二、方案演变发展的相互关系 从五笔字型、郑码、见字识码、大众码、宏观码、许毕码到王码象形码等,字根编码已经把方案设计的要害剥露殆尽。五笔字型使用部件的第一、二笔作为字根分类和键符安排的依据,虽然并不十分符合汉字字形规律,但是它把笔形码的数字键,转换为英文字母键有利于实际使用,提高了工作效率,使专业打字成为可能。用笔画和数字作拐棍,虽然可以将一部分字根安排到键符上去,但由于对记忆负担没有好处,郑码便放弃了使用字根的第二笔,而仅使用字根的第一笔作分类的依据,可是,汉字字根的起笔分配并不均匀,多数是横笔开始。因此,以横为始笔的字根占的比例很大,只好安排在从A—H等八个键位上;以竖、撇、点为始笔的,每一类都安排了五个键位;始笔横折安排两个键位;始笔直折安排一个键位。尽管有理安排变成了无理安排,实用性能反而提高。用字根的始笔给字根分类并不科学,造成了字根分类分配的不均匀,导致无理安排。这种键符安排方法并不是我们所期望的。事实说明郑码“杂拼乱凑”的问题仍然没有解决。我们期望的是一种有理的直接的安排,而不是可任意置换的。 形音码作的是另一种尝试。读音可以使字根直接安排到键符上去。见字识码和许多形音码在这一方面进行了试探。用读音安排实际是舍弃了分类系统,按读音集合直接形成小类。每个类中的部件之间缺乏相互联系,不利于记忆。许多字根又没有读音,需要给它们造一个音。不同的方案有不同的音,而且,这个造起来的音又是很难记的。它们也会给记忆增加不必要的负担。 字音和笔画的编码对记忆的帮助并不很大,不如直接记住部件与键符的对应。大众码的发明人利用人们对汉字的认字习惯把部件集中起来,组成一个生造字直接与键符对应,以减少人们学习时的记忆量。这种方法无疑又是一次新的探索与进展。可惜的是这种方法的键符联系虽然是直接的,但安排仍然是无理的。 宏观码的进一步尝试是利用部件(字根)的字形结构特征进行集合。利用部件(字根)结构特征的方法给字根分类虽然比较科学,却又在键符的安排上陷入了无理状态。但是,宏观码利用字形结构特征的分类方法,使字根分类与键符安排各自“相对独立”了,字根特征类能够“自由”寻找合适的、唯一性最强的(即最佳的映射)“对象”。此外,宏观码的设计者钱伟长教授提出了一个初步的部件定义,给表形码的设计开拓了思路。 许毕码和王码象形码的贡献在于它们找到了最佳的映射方法——形象对应。它们使部件与键符的转换记忆量最小。从这些方案的实践过程中我们可以看到它们在逐步前进。这些探索和前进引来了表形码设计的突破。 字根码确在前进,但是字根码的设计思想反客为主的严重缺陷仍然存在:汉字编码的主体是汉字,而现在几乎所有的字根编码都立足于键盘本位,编码设计首先考虑字根的键符安排,而不是汉字本身规律,走了不少弯路。其次,以“优选”的方法给部件定量,在分类的时候,部件与部件无法产生彼此之间的联系,它们不能形成一个完整的系统。 表形码在总结这些编码实践经验的基础上,对部件结构进行了分析,因而得到了部件清单;利用笔画结构分类的方法,使部件类得到了准确的定义;同时运用形象对应取代码,使编码转换直接而有理,大大降低了记忆量。 从笔形码的“一分为二”,到字根码的“优选”,再到表形码部件清单的出现,“拆字编码”总算走到了尽头。这些不断的实践并没有使学术界某些权威理解:“拆字编码”是当前人们对汉字变革所作的最新尝试,应该系统地进行认真的探讨,而把它当作是一种输入电脑的技术,进行无休止的“发明鉴定”,实在是危险的无知。 三、从键盘本位到汉字本位 70年代,微机技术要求更好的汉字字形编码,以便更适合键盘应用。这就是后来的汉字字形编码方案的设计思想——键盘本位产生的原因。编码设计要求汉字编码能联系本身的汉字字形信息,不仅要便于学习,还要便于应用。李金铠先生的笔形码及时脱颖而出。汉字字形信息从四个外角转移到汉字自身笔形,这是由于计算机中文应用需要所引起汉字编码的一次阶段性转变。 随着微机软硬件技术的迅速提高,社会信息交换速度需要一大批专业打字员。笔形码不适合汉字专业输入,五笔字型恰得其时,便取而代之。笔形码把汉字的基本单元简约到笔画,带来汉字拆分的不便。五笔字型的突破是使用了字根(部件)。在键符安排上的突破则是把笔形码的八个数字键改为26个拉丁字母键。五笔字型承袭了笔形码的数字转换,把数字键改为区位键,这种继承关系可以说是很明显的。 五笔字型的键盘本位使汉字陷入了困境。这个困境产生的根本原因在于没有把部件的处理当作一个复杂的系统工程。 有人认为在计算机软硬件技术发展的条件下,汉字编码只是键盘输入的手段;当汉字输入由单字转向词组,就认为编码研究已经不是很重要了。其错误在于把汉字编码的研制当作汉字编码方案的研究。研制,是一个实践问题;研究,是进行归纳和分析的理论问题。 在计算机软件编制技术的起始阶段,中文信息界对汉字键盘输入不熟悉,对汉字编码的认识不成熟,专家们对编码方案的研制和鉴定,把重点放在输入软件的应用效果上,因此产生了键盘本位的指导思想,这完全可以理解。键盘本位是汉字编码指导思想发展的一个必然历程,键盘本位使汉字编码软件编制技术迅速提高,但却把我们对汉字编码的认识带进了误区。 键盘本位的设计思想的功绩在于及时配合了计算机进入中文应用市场,促进了计算机中文应用和软硬件设计水平的提高;它的负面作用是在专业应用市场饱和后,造成计算机内部空间的浪费,同时因为记忆的困难,影响计算机迅速向全民普及。《广州日报》曾为此提出:为什么2/3的计算机在睡大觉?尽管我国销售了几百万台,而真正得到使用的,为数并不很多。最重要的原因是汉字编码的学习太困难,记忆量太多。 键盘本位的设计方法,把困难暴露出来,为设计的突破提供了先决条件。这个先决条件要求设计者首先解决汉字自身的结构规律。否则,编码的设计研究就得不到提高。王仲文教授说:“把汉字在以西文为基础的计算机上处理得这样自如,是很了不起的事。然而现有技术毕竟不会一成不变,还会发展。这种以键盘安排为核心的编码设计都是有时间、空间的局限性,都不能作为全民可以使用的符号系统接受。”(18) 表形码的突破首先是设计思想的突破,其表现是突破键盘本位观念而改为汉字本位。它否定了认为编码的设计只是为了键盘打字之用,一切以键盘安排为中心的设计思想。否定单纯讲究软件的编制技术,讲究部件与键符匹配以及手指击键的合理性,而忽视汉字自身规律和编码设计规律。 汉字字形编码是融汉字检索、写字方法(即键盘打字)为一体的设计。汉字有五千年发展和应用的历史,蕴含着深厚的文化积累和客观的造字规律,所以,作为设计思想的核心,就应该是汉字本位,不应有外加条件。现在我们要使用西文键盘,把汉字拆分为“块”,采用西文的序性排列。这叫做“洋为中用”,不会影响设计的核心——汉字本位。 比较字根码与部件码,我们就可以知道从字根码的困境,到部件码的突破,是字形编码的必然归宿。现在,众多的方案形成了彼此不相让的混乱局面,已经投入资金研制输入软件的编码设计者,则陷入不能自拔的泥沼。既没有宣传组织的力量和经费,又没有提高软件适应性的能力,但又不愿意放手,也无心认真研究别人的方案。市场的惯性使得五笔字型不断扩大它的阵地,甚至侵入基础教育系统。文字教育学家直瞪眼、干着急。长此下去,汉字的规律和规范将荡然无存。时代呼唤我们必须立即对汉字编码的概念、内涵和外延,开展系统的研究;从根里做起,建立基础理论。 “沉舟侧畔千帆过,病树前头万木春。”有的人被字根码所暴露的困难吓慌了,看不到万木已春,想绕过困难另找他途,笔形码的回潮、形音码的增多,都是这些表现的结果;有的人则认为字根码没有出路了,拼音化太晚了。这种在困难面前看不到成绩,看不到光明,把对汉字编码研究的最终结果寄托于渺茫的拼音化,岂不令人寒心? 没有比较就不能研究,深入研究就必然有所“扬弃”。统一编码的原则是:尊重汉字规律、规范和它的现代应用。我们坚信有所扬弃,必然会有所收获。 参考文献: (1)钱玉趾:《形码的低劣性和音码的优越性》,载《中文信息》1993年第3期。 (2)周宪:《认知码不宜推广》,载《计算机世界报· 汉字输入方法版》1995.10.18。 (3)周宪:《关于重码统计的说明》,载《中文信息》1995年第6期。 (4)金坛等:《汉字编码的必要信息及信息含量》,载《计算机世界报·汉字输入方法版》,1995.10.18。 (5)子厚:《“全息码”风波的演变》,载《中文信息·十年文萃》,1995。 (6)王湘东:《“万码奔腾”可以休矣》,载《语文与信息》第4期,1995.8。 (7)张孝存:《电脑输入汉字该选用哪支“笔”?》,载《中文信息》1996年6期。 (8)张孝存:《电脑输入汉字该选用哪支“笔”?》,载《中文信息》1996年6期。 (9)陈明远:《汉字编码研究的进展及分析》,载《汉字编码方案汇编》第192页(科学技术文献出版社1980年版)。 (10)陈代于等:《汉字音形码编码原理探讨》,载1991年《中文信息通联世界论文集》108页。 (11)陈爱文:《如何设计一套全汉字、全用途的编码》,载《中文信息处理国际会议论文集》第1集,第167-171页,1987.8。 (12)徐火辉:《汉字形态编码的认知心理规律》,载《中文信息》1994年第6期。 (13)徐火辉:《汉字形态编码的认知心理规律》,载《中文信息》1994年第6期。 (14)陈代于等:《汉字形音编码原理探讨》,载1991年《中文信息·通联世界论文集》。 (15)钱伟长等:《汉字宏观字形编码(钱码)》,载《中文信息处理国际会议论文集》第1集,24-27页。中国中文信息学会,1987.8。 (16)陈爱文:《汉字编码的理论与实践》第10-11页,学林出版社,1986.8。 (17)张普:《汉字部件分析的方法和理论》,载《中文信息国际研讨会论文集》第3集,第147-148页。 (18)潘德孚:《汉字要走出编码时代》第177页,电子工业出版社,1994年11月。 |