§1.4 汉字编码设计学研究的方法与内容 一、对汉字编码设计客观规律的探求 汉字编码是应现代科学技术需求而产生和发展的,因此它必然是为现代科技应用服务。汉字编码的设计理论来自实践又回归实践。实践是检验一种概念、观点、理论是否正确的唯一标准。因此,方案的研制与实践必须有的放矢,就是要用客观规律之“矢”去射实践需求之“的”。没有客观要求,我们就不会设计编码方案;不总结实践经验,盲目设计而违反客观规律,就不可能得到正确完善的编码方案。 适合客观要求的就是遵循客观规律。例如编码的设计需要拆分汉字,得到部件,需要给部件分类,需要给部件编上代码。拆分汉字,部件分类、给部件编代码,就是编码设计的客观要求。符合这些客观要求了,我们就可以从中探求出它的客观规律。汉字编码设计,是为了实现汉字现代化;而汉字现代化要求提高识字速度、统一书写规范、直接排序检索和计算机输入。符合这四个要求的方案,才算是符合汉字现代化的客观规律。当然,客观规律不可能凭空被人们认识,它是在编码设计与实践的过程中逐步显现出来的。因此,在这一基础上认真研究汉字编码设计与实践的过程,总结、归纳它们在这一过程中反映出来的客观规律,制订的编码规则才有坚实的基础。 编码方案的设计是不是符合客观规律,要作理论的分析和实践的检验。例如笔形码规定一分为二来拆分汉字,在实践中行不通,原因就是它的拆分方法不符合客观规律,因为,有许多字用简单的一分为二的方法拆不出来;有许多方案想回避拆分的困难,用“优选”取代拆分,“优选”带有主观色彩,也是不符合拆分规律的。形音码只能以音定类,在应用实践中出现了许多无读音部件,必须主观定音,当然不符合客观规律。即事先拟定的分类方法,不能将分米贯彻到底,只能主观决定,说明它在实践中行不通,不符合客观规律。再讲编代码为什么要求映射要有直接性?这是因为部件与键符的交换,越直接,反应快,就越易学。例如有的字根编码,用笔形转换为数字,再用数字转换为键符,数字与字根没有直接的关系,这就是间接映射。间接映射反应慢,就难记难学。汉字编码要求精益求精高度的易学性。设计的方法不易学,说明不符合客观要求。从设计方法的角度,编码方案设计是一个系统结构,拆分、分类、编代码构成了一个整体,它们之间既是各自独立的,又是互相紧密联系的。只有独立,没有联系,或只有联系,不能独立,都不能符合方案设计的客观要求,也就是不符合设计的客观规律。钱码在字根码中,提出了轮廓特征的分类方法,使分类方法与编码方法各自独立了,编码设计才取得前进。 编码设计学就是要分析、把握汉字的音素和形素、拼合和拆分、文字与编码、汉字编码与键盘输入、编码因素与非编码因素等矛盾,以及它们在相互对立和相互转化的矛盾运动中展现的客观规律。研究规律、发现规律、运用规律是编码设计学研究的方法论基础。任何点滴的主观随意性都会将本学科的研究引向歧途。 二、对编码设计结构模式进行系统分析 我们的研究是把汉字编码当作汉字整体发展的一部分,也就是把所有的汉字编码看成为汉字发展的整体现象。汉字编码的产生和发展,不是孤立的,而是与社会变革、科学进步、文化教育改革和发展有着密切的关系。我们认为,每一个具体的编码方案,只不过是这个整体的编码现象中提供给我们研究分析的一个点,通过这些点与点的联系研究,得出它的经验教训和最终结果。而每一个具体方案都包含着拆分、分类和映射等三个主要工作步骤,它们之间存在着相互联系和制约的关系。构成了一个系统的结构模式。 (一)拆分 从笔形码到字根码,都存在着拆分问题。有许多人想方设法,寻求拆分规则,但总不能遂愿。因此,人们开始理解拆分不是孤立存在的。陈代于先生说:“汉字部件的定义规定的是汉字中什么地方不能拆开。实际上,部件定义和汉字拆分规则是同一个问题的正反面。定义了什么地方不拆,就等于定义了什么地方要拆。”⒁部件没有定义,不根据设计要求主观给部件定义,都无法达到正确拆分的目的。这说明拆分是与定义联系在一起的。不能就拆分论拆分,也不能就定义论定义。有位文字学家不理解拆分与定义的系统关系,说:“部件的切分包括两个问题,一个是如何确定末级部件,另一个是如何确定切分层次。解决这两个这两个问题依据的原则不完全相同。确定末级部件只能依据现代汉字的笔画组合关系。确定切分层次,首先要采用构字原则,再辅之以单纯字形原则。”⒂我们认为,末级部件不应该主观确定,而应该是用定义把它从汉字中划出来,也不需要再来一个“确定切分层次“!给部件定义,就是确定部件的边界,在哪里把部件划开,“确定切分层次”岂不是多余之举?拆分与定义的是一致的,定义定到哪里,也就定出了拆分的地方。不要舍不得“独体为文,合体为字”的构字理据,因为,绝大多数的字已经无理可据了,只能根据单纯的字形原则。不要再“犹抱琵琶半遮面”了。我国文字研究常常离开实际应用,进入超现实的构思,不是把汉字说得伟大得了不得,就是把它说得一无是处,非改头换面不行。“万码奔腾”、“编码污染”、“速度误区”等现象的产生,与文字学界的这种思想现状有直接的关系。我们并不绝对否构字理据,也不否定拼音的推广和研究,但现阶段的计算机应用现实,要求我们脚踏实地,不要过分地暝思玄想。 拆分得到的部件与主观确定的部件是不同的。用定义拆分出来的部件,可以用定义证明它的存在的合理性;既能说明它的可接受性,也可以说明它的可制约性。部件清单还可以归纳出最简约的拆分规则,而不会相互违背。主观确定的部件无法构成一张完整的清单,无法用定义证明它。用定义拆分汉字得到部件,最根本的一点是它可以涵盖任何一个已经或未经收集的汉字,因此,不会因字符集的扩大而受到影响。 拆分与拼合应该是可逆的: 拆分 汉字←----→部件 拼合 上图表明一个字符集的汉字,要拆出一张部件清单;清单中的部件,能拼出这个字符集的所有汉字。 (二)分类 人们以为拆分是汉字编码的难题,因拆分首当其冲。其实,分类更为困难。因为,分类要把拆分出来的部件清单,按逻辑分为若干类别。 分类当然也应该依据定义。如果说汉字集是一个系统,那么汉字集中提炼出来的部件清单,也是一个系统。这个系统来自定义,为这个系统分类的方法,自然也应该出自定义。只有这样,部件清单才能构成一个完整的客观的分类体系。这个体系,从分型开始,就与每个类建立了紧密的联系,因此,它可以帮助我们学习和记忆。 像五笔字型和郑码这种类型的方案,可以认为是介于笔形码与字根之间的两栖类型的类种。是从笔形码发展为字根码的一种过渡形式,不是纯字根码。因为,它们的编码的要素是字根,分类的依据却是笔形,两不相干,字根的定义无法与笔形搭上关系。 分类法与编码(映射)法,既是相互独立的,又是相互制约的。而以笔形作分类依据的编码类型,从设计一开始,就缠在一起,两者合一,难解难分而背离设计的规律。根据以往的设计经验,我们把分类的方法要求归纳于下: 分类的依据出自部件的定义: 部件类是一个完整的体系,从型至类相互紧密联系; 分类方法与编码(映射)方法既相对独立,又相互制约; 每个小类都必须有明确的定义,它又是每个大类(型)的一个组成部分。 (三)映射 汉字——编码要素——代码,中间的编码要素,五笔字型称为字根;五十字元称为字元;表形码称为部件;表音码称为部首;未来码有四个称谓:声母、韵母、声调、部首。 每一个汉字要给以几个代码,中间的环节是映射的对象。拼音码之所以易学,它的对象只有一种:音素。字形编码之所以困难,“挖”出来的对象(即所谓“信息含量”)太多,众说纷纭,人们不知道该如何选择。映射的对象多了,排列组合的方式就多了。这些方式,怎么排最佳,没有客观的准则。主观随意性越多,客观规律性越少,编码方案才不断增多。我们研究编码设计,不是为设计出更多的方案,而是研究它的设计原理和客观规律,通过讨论,进一步完善这些原理,以便用来统一全国编码,建成最佳的方案。 具体地说,映射的对象有如下要求: 其一、必须定性(即定义)、定量, 并只能是一种; 其二、它的线性排列必须只依据一种信息:笔须; 其三、它的分类必须是一个整体的系统; 其四、它与键符的映射方法必须是直接的,用音或用形。 经过众多研究者的理论实践探索,客观的设计要求已逐渐被我们认识和掌握,为统一汉字编码奠定了坚实的基础。上述这些要求归纳起来是:映射的对象要求单一性,拆分要求涵盖性,分类要求系统性,编码(映射)要求直接性。它们之间又要相互联系、相互制约。这些要求将在本书的后面部分展开,进行详尽的阐述。 拆分、分类、编码(映射)及它们的相互关联(如右图所示)是汉字编码设计学的最基本的研究方法。通过对它们的系统分析,可以解决编码理论和实践中的种种难题。 三、汉字编码设计学的研究内容 本书系统论述汉字编码设计学的研究对象、学科性质、研究任务和重大意义;用系统科学的观点和方法,论述汉字和编码发展的历史轨迹;由此归纳并分析汉字和编码设计必须遵循的基本原则;通过对几种有代表性的形码作比较研究,理顺编码设计的理论思路,提出编码设计的结构模型;研究并提出符合现代应用要求的汉字部件定义,从理论上分析和辩明有关部件定义的各种思想障碍,对有关的概念作出阐释,为汉字拼形字母系统奠定基础。 本书通过对编码方案设计的比较研究,否定了流行已久的各种评判方法,如速度、重码率、码长、兼容性等等。揭示了编码设计的发展轨迹,设计的结构模型。上溯汉字的造字原理,提出了拼形造字的新概念,一统“六书”造字原理;又通过对汉字的拆分分析,以有力的数据证明汉字是拼形文字这一新概念;从汉字字形检索发展的研究中揭示了部首检索向字形检索转化的历史规律;并在它们的基础上提出了汉字编码发展的最终目标:建立汉字拼形字母系统,并以此提高识字速度、统一书写规范、实现直接排序和计算机汉字输入,完满地完成汉字现代化的任务。最后形成的结果是一张汉字部件清单(即汉字拼形字母系统),以及这张清单中各个部件型和部件类的排序,从而廓清蒙在汉字身心上的“难学、难用、没有序性”的迷雾。 书中内容可以归纳为一句话:“本书是研究将方块汉字拆分后进行线性排列和设置有序代码的学问。”
参考文献 ⑴徐洲等:《汉字编码:春秋战国到几时?》载1994年3月30日《计算机世界报•综合消息版》。 ⑵金振蓉:《汉字编码正在走出误区》,载1993年12月11日《光明日报》2版。 ⑶载《中国语文现代化学会通讯》第2期,1995年。 ⑷柳则贤:《五笔字型与汉字规范相抵触》载《文改之声》第25期,1994年3月1日。 ⑸张在云:《汉字编码决不可教人写错字》,载《中文信息》1993年1期。 ⑹张在云:《关于五笔字型编码的讨论》,载《中文信息》1993年3期。 ⑺张在云:《五笔字型交叉识别码剖析》,载《中文信息》1993年4期。 ⑻汤华:《透过五笔字型的专利纷争的思索》,载1995年13期《了望》杂志。 ⑼葛遂云:《杜氏发明一百部首的故事》,载1993年1期《中文信息》。 ⑽黎和生等:《越陷越深的编码设计者》,载1995年8月11日《电脑报》1版。 ⑾韶华:《整顿码家军和现代化》载1995年5月19日《电脑报》1版。 ⑿王正荣:《计算机汉字输入的“瓶颈”问题并没有彻底解决》,载1995年10月18日《计算机世界报•汉字输入法版》。 ⒀钱伟长等:《汉字宏观字形编码(钱码)》,载1987年8月《中文信息处理国际会议论文集》24页。 ⒁陈代于等:《汉字音形码编码原理探讨》,载1991年《中文信息通联世界论文集》108页。 ⒂苏培成:《现代汉字的部件切分》,载1995年3期《语文信息应用》。 |