评《汉字部件规范》 序 许慎利用汉字的字形的部分信息以检索汉字,创造了部首检字法。中国人使用这种方法检索,已将有二千年的历史了。部首只是汉字的一部分块,无法返拼全部汉字。在这一段历史的长河中,有人试图拆分汉字,以得到它的基本单元,但始终不能遂愿。 汉字基本单元曾有好多名称,有的人称之为字素、字元、字根……等等。这个基本单元,必然要介在成字与笔画之间。上个世纪80年代,部件这个名称出现了,大家觉得比较合适,但讲不出所以然来。 清末,人们觉得民族的落后,是因为汉字难学,笔画繁多,不容易规范。有位文字学家王筠说:“人之不识字也,病于不可分。苟能分一字为数字,则点画必不可缺,易学而难忘矣!。”这就是说,要使汉字易学、规范,应该将汉字拆分为部件,得到数量较少的部件清单。 如何拆分汉字,以得到部件清单呢?各种编码方案的实践,不断地给我们以提示。笔形码启示利用汉字自身笔形和拆分汉字更有利于区别;五笔字型启示汉字基本单元必须有确定的数量;钱码的贡献在于提出了部件的定义;表形码的突破在于它不仅对部件定义作出了合理的解释,并对部件进行科学的分类,还采用了“部件(形)——键符字母(形)”直接对应(映射)法,因而大幅度地降低了学习中的记忆量。 不幸的是我们的学术界并没有想到汉字编码的使用就是汉字的使用,必然要求统一和必须实现统一。一些人把汉字编码当作“键盘输入技术”而授予专利权并进行炒作。这就必然导致“万码奔腾”。汉字就是“万码奔腾”的受害者。“码蹄”所到,“踩烂”了汉字规范。所以,人们说“万码奔腾”导致了“编码污染”。这可不是好事。 为了避免各种字形编码乱拆汉字,国家语委托付三位教授研制《汉字部件规范》。所谓“规范”,即是以权力来确定部件的形态和数量,拿出一张部件清单。历史上,我们都认为汉字是由一些独体字拼起来的。古人说“独体为文,合体为字”就是这个意思。现在突然要交出一张作为汉字与笔画之间的中间层次——部件清单,确实是一个大难题。一个关键性的问题就是主观选取呢还是客观拆分?教授们采用的是主观选取。主观选取当然比客观拆分来得容易。 部件因编码而来。从“万码奔腾”中看清编码的拆分规律也确实不太容易。然而早在1993年,笔者已经在《计算机教育与汉字形码方案研究》一文中说明汉字编码的发展过程,实质就是汉字拆分的客观规律被认识的过程。 《汉字部件规范》出台了,交出了一张部件清单。然而我们发现这张清单中的部件不是汉字中拆出来的,而是从汉字中选出来的。研制《规范》的教授对拆分汉字的研究,并不是从研究汉字字形编码的规律中来的,而是主观臆断的。我这个判断对不对,读者诸君看完这本《两种汉字部件研究的比较》后自会得出结论。 一、出台的背景 1997年12月19日,国家语委公布《汉字部件规范》,人们期望它能有助于当前“万码奔腾”局面的整肃。据《人民日报 ·汉字笔顺和汉字部件规范发布》载:“……由国家语委主持制定的……《信息处理用GB13000·字符部件规范》(以下简称《部件规范》),对汉字部件拆分既有原则要求,又有一定的自由度,给依据汉字字形编码设计留有充分的余地。专家们认为,该规范及其理论依据、技术手段(按:部件是从汉字中拆出来的,只要求符合客观规律,并无使用技术手段的必要),在语言文字规范标准研究领域属国内外领先水平。”当我们看了《汉字部件规范》研制组刊出的《关于制订〈汉字部件规范〉的若干问题》⑴(以下简称《规范》)和《信息处理用GB13000.1字符集汉字部件规范基础部件称说表》⑵(以下简称《部件表》)后,对这种自诩的“领先”,十分失望。 从汉字中分解出部件,以适应当前的信息应用的需要,是一件非常严谨的研究。汉字集有20902个字,只有560个部件,一个弄不好,就会影响一批汉字。部件是汉字的基本单元,必须十分郑重其事。而现在一个研制组,花很少的时间,就拿出20902个汉字的560个部件,作为全国的“规范”,此举实欠严谨。当然这不仅仅是时间花得多少的问题,主要的还是这项研究工作的结果是否合乎客观规律的问题。 部件为什么要“规范”?因为众多的形码对汉字的拆分把部件系统搞乱了。“规范”的方法当然是把部件的数量和形态固定下来,即给部件定量,拿出一张部件清单。此后,谁也不允许胡乱增加《规范》之外的部件。现在语委的研制组把《部件表》(即部件清单)拿出来了,照理说这是汉字史上的一件大事,值得庆贺。可是,其表现却并没有技高一筹。因为,研制者并没有从理论上认真研究部件产生的原因和性质,总结归纳以往的成绩和缺失,而仍然像瞎子摸象似地胡摸乱猜。我们真不敢相信这是由语文界的三位名教授带了一个班的研究生搞起来的。 可以这么说,任何一个编码方案的设计或相类似的活动,无不都是汉字现代应用的一次实践尝试。它的成功与否,不取决于研制者的权威,而取决于这项研究的理论是否成熟,并等待实践和理论的严格检验。理论上检查它的系统性和方法的完善程度;实践上考查它的应用给社会带来什么样的影响。 《规范》是从归纳汉字编码设计的实践行为而来的。它是编码实践归纳的结果;反过来要用它来检测实践。所以如果它在理论上通不过,形不成系统,自相矛盾,用它来指导实践,必然会到处碰壁,更添混乱。 汉字部件的确定,与汉字的确定具有同等的重要性。1957年颁布的汉字简化方案,由于缺乏系统理论研究,现在许多人提出了一些很有见地的意见,说明其中的一些错误,本来是可以避免的,但几十年用下去了,生米煮成了熟饭,我们只能忍受。文字应用受约定俗成规律的制约,不是你说它不好就可以马上纠正的。部件是汉字的基本单元,一个搞不好,会影响一批汉字,更要慎重行事。笔者在反复研究之后,不揣冒昧,就以下几个方面,与《规范》研制组商榷,以期进一步推进部件的规范化在更高水平上的统一。如有错误,敬请专家和同行们的指正。 (一)历史背景 1.集中专家攻关 1985年,由设计者组成的学术团体——汉字编码委员会,一些人曾异想天开地寄希望于“集中专家攻关”,编织出一个最好的方案。1985年,组成了《汉字编码优化研究》协调小组,12个高级研究所支持此项研究,以“易学、易记、易找、误码少、重码少”为目标,“攻”出了一个“45—3方案”,它却无法上市,实践证明这是一种不科学的幻想。 2.汉字编码委员会的“评测” 汉字编码委员会照理应该是一个为了提高设计水平交流经验心得的组织。现在却令人费解地异化为编码方案优劣的仲裁者。1986年,全国已经有四五百个编码方案,汉字编码专业委员会组织了一次全国性的评测,主要指标是输入速度和重码率,事后向社会推荐了11个编码方案。学术界觉得编码太多,想采用“评测”选优汰劣,但又不知道如何进行科学的“评测”,一下搞出了11种,实际还是太多;当然,即使只“评测”出一种,这种不是科学地产生出来的东西,也同样会遭到社会的否决。 3.国家科委下文推荐“五笔字型” 1987年11月国家科委成果局下文向社会推荐五笔字型,使这一违背汉字结构规律、难学易忘的编码一下占领全国的专业打字市场。利益的驱使和对五笔字型的不满,新方案如雨后春笋。一位年方十三四岁的孩子也拿出一个方案,而且刹那间扬名国内外,赚了《自然杂志》30万元。科委成果局只“推荐”了一种,那个时候,人们对行政当局仍然存在着一种迷信,设计者及时抓住这个时机成功地赚了大钱。在实践中人们却认为它不是“辅助”汉字的一种好“形式”。可见赚钱的原因不单是因为科委的“推荐”,根本在于设计者的经营能力。名利驱使更多的人投入设计编码的热潮。 4.国家教委组织“选码”工程 1993年国家教委基础教育司设“926选码工程”,准备从全国的编码方案中选出一个音码和一个形码,提供给中小学使用。任务落实到全国中小学计算机教育研究中心,可是,该中心在1994年却“选”出了自己编制的“认知码”。选码组的另一位专家也“选”出了自己编制的“规范音码”和“规范形码”。尽管这几个码都 打着国家教委推荐的牌子,也无法再与五笔字型唱对台戏。“选码”也是确定只选一种(一种音码,一种形码),但“选码”专家缺乏“选码”的依据,不知如何选,只好转移立足点;“选码”的立足点应该是站在众码之上,他们却使自己降格为一般的编码者,把好事办坏了。而且,另一些编码设计者生怕它们占领教育市场,对这几个码,批判毫不留情。“选码”就此夭折。学术上以权谋私的事例当然不少,但赤裸裸到这个程度却极为鲜见。 5.经验教训 “攻关”、“评测”、“推荐”、“选码”,都失败了,是因为学术界一些人把汉字编码讲成“汉字编码键盘输入的技术”,致使对许多编码方案进行鉴定时以能否在键盘上输入作标准——在键盘上使用代码打出汉字的速度,主要取决于输入员的熟练程度而不是编码方法的优劣。所以,近十多年来,所有学习汉字输入的人都要问:你的编码快不快?输入员的熟练和技巧,被认为是编码优劣的标准。这一脉相承的关键是“速度”迷信:“攻关”以“快速输入”为目标,“评测”以“速度”为标准,“推荐”当然是最快的;它们之所以以失败而告终,是由于主观愿望背离了客观现实。 (1)编码方案是一个系统结构,优点与缺陷并存,长处与短处共生,任何人不可能使用剪裁的方法拼凑出一个最佳的编码。 (2)汉字编码的设计研究,是汉字面对现代应用要求而进行变革实践的科学没有完善的、系统的基础理论研究作指导,就像瞎子摸象,都不可能取得预期的结果。 (3)“攻关”、“评测”、“推荐”、“选码”都说明,以上这些方法无非都是想减少编码方案的数量,提高它的质量。但是,问题在于汉字编码本身是一门新的学科,它发生、发展有它自己的规律,我们的工作是寻找规律,不能想走捷径。 (4)编码是文字应用的学术研究,其学术成果,需要行政力量的配合,才容易为社会所用。但是,不想以严谨、科学的系统理论为基础,将会给社会带来无穷的后患。“五笔”普及所造成的社会经济损失,其数额之巨大,是很难估计的。 陈爱文先生说:“汉字编码是汉字的辅助形式,是中国文字的第二种形式。”学界并没有认识中国文字只需要一种“辅助形式”。如果汉字像拼音文字那样,是有序的,我们就不需要编码了。由此可知,汉字编码的实质是为汉字设计一套有序的符号系统。如何设计这套符号系统,皆在汉字编码的实践之中。所以,认真总结、研究汉字编码的实践经验,从中找到打开汉字序性化之门的钥匙。汉字部件的定性、定量,就是这把钥匙。可是语文界不愿意从定性定量着手,而是把它想到“规范”上去了。 (二)学术背景——研制组没有人研究过汉字部件 据悉,该课题由北师大中文系王宁教授、北京语言文化大学中文系张普教授、北京信息工程学院陈一凡教授负责研制的。这三位教授曾发表过如下有关著作: 王宁:《汉字构形理据与现代汉字部件拆分》,发表于1997年第3期《语文建设》。 张普:《语言自动处理》1988年由武汉大学出版社出版。《汉语信息处理研究》,1992年由北京语言学院出版社出版。 陈一凡:《论汉字特征信息编码键盘输入》发表于1997年由上海教育出版社出版的《汉语语言文字信息处理》上。 以上就是笔者所知道的三位教授承担《汉字部件规范》这一研究课题的学术背景。笔者认为:王宁教授的文章取题就已经说明他对部件研究的外行。“汉字部件拆分”能解释为“把汉字拆分为部件”吗?这句话,只能使人理解为“把汉字的部件拆分掉”。张普教授研究的“语言自动处理”和陈一凡教授研究的“键盘输入”与“部件规范”毫无瓜葛,怎可给这项研究作铺垫?由此可知,有关汉字部件的研究,不仅仅是国家语委外行,整个语言学界也不内行。 本世纪始,文化界有人认为汉字是导致民族落后的原因,一直呼吁改革汉字。解放后更认为反对文字改革即反对革命。一些人从西方进口语言学全面取代汉字学的研究。拉丁化不仅成为文字学术界的主流,还实现了学术专政。汉字的研究被打进冷宫。汉字字形编码兴起并向全国普及,反而被语言学界认为是“妨碍汉字输入的枷锁”而受到冷遇。反过来说,科学受到冷遇,它的报复就是让你外行。 当然,还有一个更重要的原因是,从我国文字研究的历史上来看,只有字音(音韵学)、字义(训诂学)的研究,从来没有字形的系统研究,即离开字音、字义的,独立的字形学研究。因为,汉字拆分为部件的研究,是纯字形性质的,与字音字义一点也不搭界。什么叫纯字形研究呢?例如笔顺的研究,字型(如王码的上下型、左右型等)的研究。这些研究就与字音字义毫无关系。但是,这些研究都十分零散,形不成系统,无法作为参考的依据。而汉字拆分为部件,却有非常严谨的系统要求。 《汉字部件规范》研制组就是在这样的学术背景下研制出这样的“成果”的。 (三)社会背景——“五笔”独占与“权力学术” 1986年,“五笔”参加“评测”,因在输入速度测试中作弊被除名。1987年11月,正逢四通公司推出“2401”型电脑打字机。当此之时,国家科委成果局下文推荐“五笔”。刹那间占领了全国90%的专业打字市场。 1987年陈爱文、蒋文钦著《评王永民五笔字型编码》,认为“王码对识字教育具有一定程度的破坏性”。⑶这一论著没有及时得到语文界和教育界的支持,被王永民扼杀于襁褓之中,才有“五笔”的全面市场占领。可见,语文、教育界在当时并不知道汉字编码的应用即汉字的应用,(为什么不知道,不重视编码的性质研究之故)而误它为“信息技术”。编码学术界假不知以为知,从国内到国际,到处组织输入速度竞赛,鼓吹“用户选择”⑷。直至1992年,《文改之声》和《中文信息》才开始批评“五笔”,认为它“教人识错字”,“与汉字规范相抵触”。云南大学还发起召开批评“五笔”的学术研讨会,要求王永民亲自答辩,他却避而不理。但此时,“五笔”被作为市场“商品”,拥有上百万用户,学术界的纸上文章,已不能为难它了。上海几十万人参加计算机应用测试,国家人事局的干部计算机应用能力评测,邮电局的营业人员培训,都把“五笔”和“全拼”等同,列为唯一的输入码;全国各种各样的软件包,如“华光”、“北大方正”以及各种各样的财会软件、教育软件、网络软件等,“全拼”、“区位”与“五笔”并列。连给小学生用的小霸王学习机,都将“五笔”装机出售,“方便用户”。从国家部门到软件包研制单位,为了赚钱,一致支持“五笔”来损害汉字规范! 一个损害汉字规范的编码,为什么能够独霸全国市场达这么多年?一个并没有多少学术水平的编码,竟能玩国家科委、教委、语委等于股掌之上,奥妙何在?原来是一个“权力学术”的“幽灵”在学术界广泛散布
米辶幺药,制造“编码技术论”。它的主要支柱,就是“汉字编码键盘输入技术”这样一个混淆“汉字编码”与“键盘输入技术”的错误概念。 为此,编码学术界一直讲“编码”是“信息技术”,鼓吹“用户选择”;语文界则认为既然是技术,让它“自由竞争”、“自由选择”,采取了置之不理的态度;教育界则认为既然是技术,当然“不宜行政干预”。如此才一误再误,直至它成为“庞然大物”,学界也就无可奈何了。 计算机中文应用现在已经由专业向普及进展。“五笔”的难学难记已经不适合当前的用户,市场前景不美;加上与东南公司的“专利侵权”诉讼失败,王码公司等于失去对“五笔”的专利控制。《规范》又挟国家语委之名出台(“五笔”被批评的也是拆分不“规范”)。为了争夺新的普及市场,王永民主动宣布“五笔”的谢幕(原来的支持者、吹鼓手无法下台了!),再以“谢幕”为名,另推出所谓符合《规范》的“98王码”。一可借“五笔余威”开拓市场,二可借谢幕之名除去东南公司的“五笔”市场,是一举两得之计。 文字的学术研究成果,在使用中是约定的。就是说,这些成果中不科学的东西,也会因为普遍地在使用中被“约定”,贻害子孙后代。每一次输入,不仅是汉字的电脑应用,而且是对这个编码方案的记忆的加强。这说明,任何一个难学难记的方案,只要经常使用,就会被牢记不忘。最可怕的是一个不好的方案,一个损害汉字规律的方案,如被全面普及,将会导致可怕的后果。我国的文字学家,很少参与字形编码研究,对字形规律陌生。编码学术界把它讲成是“技术”,语文界不敢非议,才有“五笔”的坐大。 (四)《规范》需要的是质疑,不需要“合格证明” 如果研制组认为《规范》是学术成果,它需要的是质疑,而不是“合格证明”! 与《规范》在《计算机世界》上同期发表的有表形码、郑码、自然码、表音码和认知码自吹自擂的文章。这些文章都是异口同声地介绍自己对照《汉字部件规范》修改自己编码方案的报导,依我的看法,不过是借修改为名,给《汉字部件规范》作一次合格证明,同时,替自己的编码进行一次免费宣传而已。 研制组认为:“表形码、郑码、自然码、认知码以及表音码等因原部件拆分规范性较好,在《规范》公布后,它们的设计者很快将编码修改为与规范一致,而且保持了各编码原有的特征与风格。这充分说明该规范是可操作的。今后它将成为一切形码部件拆分规范性的检验标准。”这种“皇帝的新衣”式的“合格证明”实在有损学者尊严。因为,所列出的这些编码方案,不是在“规范公布后很快将编码修改的而是与《规范》一起公布在《计算机世界》上的,是早就精密策划好的;不是在认真考虑之后选择的。《规范》和《基础部件表》如果作为学术成果,首先应该公布,让学术界进行认真的讨论、质疑、答辩,完全没有问题了,才可以付之实践;然后再总结经验,改正不足之处。如此往复三番五次,觉得确实没有问题了,方能以政府行为,下文推广。现在他们不想通过这套程序,而是采取了尚未公布,先交付应用,以编码设计者的自己对编码的修改,就来证明该《规范》的“可操作性”。这是违背文字学术研究常规的行为。此一行为,已足够证明此《规范》的不严谨和不科学。 二、问题在哪里 逻辑错误、概念混淆和对汉字和部件基本认识的错误,必然导致《规范》中一些理论和方法的许多错误。 (一)研制的原理原则 1.“从形出发”还是从“理据”出发 《规范》订定的基本原则是“从形出发,尊重理据,立足现代,参考历史”,但研制者按这一原则指导拆分的实践时却背离了这个原则。他们说:“古代汉字是表意文字系统,每个汉字的构形都以来自词义的字意为依据,是可以解释的。”“大多数字形仍具有理据,少部分字形构字理据却不太明显”。“字形合乎理据的,进行有理据拆分。无法分析理据,形、源矛盾的,依形进行无理据拆分。”⑸既然如此,大多数字当然按理据而不是“从形出发”了。 “大多数字形仍具有理据,少部分构字理据虽不太明显,但形与理没有矛盾,完全可以参考历史分析出来。”这里作者的观点表述得再明白不过了,那虚的是“立足现代,参考历史”,实的却是“立足历史,参考现代”了。所谓理据,是“独体为文,合体为字”之据,是指由独体的象形字而拼合为指事字或会意字之据。形声则大多数为复合字,离原始的构字理据远得很了。汉字的字理,已经被淡化了五千年,现在《规范》的制订者还要编码设计者死守连自己都不知道的字理。退一步说,如果制定者知道每个汉字的字理,那么就请他们把所有汉字的构形字理摆出来,至少,也得把一级字库里的3755个字的构形字理摆出来。这样才能说明他们研制的“系统性”。因为,一级字库里的字,已占通常使用频度的99.5%,它基本上包含了所有汉字的规律了。只要从这些字里拿出数据,来证明他们说的“构形系统”,我们也就心服口服了。 《规范》还认为:“其中极少数部分汉字字形与意、源发生矛盾的,又可以放到构形系统中进行优化处理。”这个说法根本无视汉字发展的历史。现在汉字的总数已不下80000多个,许慎著《说文解字》只收集10000来个,在这两千年里增加了70000多个,谁也不能把这些字用古代的意、源讲清楚,又如何能“放到构形系统中进行优化处理”?什么是汉字的构形系统?如何在构形系统中优化?在这里,研制组创造了一个“构形系统”的新概念。创造新概念当然不要紧,要紧的是创造者自己能不能解释清楚这个新的概念。 “从形出发,尊重理据,立足现代,参考历史”的意思,照道理是:不管过去怎样构形的,只根据现代的字形结构实际情况进行拆分。个别字的处理在有利减少部件总数,有利分类归纳的条件下,不违背(即参考)历史构形规律作出特殊规定。对此,孙艺剑先生说得好:“汉字本身的发展史,就是一部逐渐淡化自己‘字理’的历史。这就是说,死守‘字理汉字就不能发展;死守老祖宗时的字理,汉字就不能适应当代语言和应用的现实。”⑹ 在《规范》发布的同期版面上,又发表了几个编码设计者按《规范》改进自己编码的文章(例如《规范化使自然码更加自然》等等)。这些文章是否足以证明《规范》的科学性?非也。例如《汉字在规范面前不能有“容错”》一文说:“‘元’字习惯拆分为‘二、儿’,这样拆出来的是两个常用字,但《汉字部件规范》按字理将其拆分为‘一、兀’,虽然‘兀’不是常用字,但我们还是按照《汉字部件规范》……”⑺使人想不通的是:将“元”拆分为“一、兀”,没有任何唯一性的依据,怎么可说拆分为“二、儿”就是“容错”?“元”拆为“二儿”,绝对符合认知心理的客观规律,如果拆为“一兀”,反而不易认知。因为,当我们拆分“元”字时,“二儿”是小学一年级学生都认识的,这样的拆分符合学习者的认知“图式”,也符合“从形出发”的基本原则。而拆为“一兀”,却不容易为人接受。试问在一般的学习者中,有几个人会用“理据”来拆分?“二”是由两个平行的笔画构成,平行的笔画在一起组成部件的时候,使人有一种聚合不能分开的感觉。好比把“示”拆成“二小”,人们感觉当然会比拆成“一丁八”好,这也是符合认知心理规律的。在拆分中用理据否定直观(直观就是“从形出发”),就是把易拆弄成难拆。即使照所谓的理据,有谁说“元”拆为“一兀”就是对的?根据《汉字学》⑻对“元”的解释:“依附人体而特大其头部,以表头。头后变成横,为区别又横上加横成‘元’字”。这就是说,“兀”下面是个人的身体,上面一横代表头,为区别又加了一横。没有规定说这一横的头是不好拆的。上一横是区别用的,和人头搭在一起拆没有什么不可以。《规范》研制者无法拿出证明:凡是古代所有以人为形体的字,人头是不能与其他笔画一起组合为部件的,或者人头是不允许拆分的。有几个学习者在拆分时,会知道“兀”在几千年前是作为一个“人”的形,而上面的一横是“特大其头部”的? 2.部件“功能”质疑 《规范》说:“汉字是由不同数量、不同功能的部件依照不同的结构方式组合而成的。部件的数量、功能和组合方式(位置、置向、交接法)是每个汉字区别于其他汉字最重要的属性。”这种讲法,是错误的。 汉字是组成书面汉语言的符号系统;部件是拼合汉字的基本单元。不同数量、不同功能和不同排列方式的汉字组成不同的书面汉语言;不同数量、不同拼合方式的部件,拼成不同的汉字。汉字的功能不同是因为每个汉字都有不同字义;部件的功能在拼合汉字。既然每个不同的部件都有同样的功能,例如“一”,当它作为成字使用时,它有字义,可以和其他汉字组成不同的词,表达各种各样不同的信息;但是,当它作为部件拼字,在“合、司、亏、同”等字中,它只是一个拼字的部件,没有任何字义;在笔画系统中,它又只能是构成部件的一个笔画,例如“日、十、丰”等部件中的横笔。由此可见,不作为成字,任何部件只有一种统一的功能——拼字。不同的汉字,有不同的功能;不同的部件,没有不同的功能。 3.“部件”别名何其多 《规范》给部件搞了许多“别名”,有:过渡部件、同形部件、主形部件、变体部件、形似部件等。这些“别名”对规范部件和拆分汉字并无任何实质性意义,反而混淆了汉字与部件的界限。《规范》说:“例如:‘蓓’、‘蕾’为多层次组合,各层次均为两部件。”将“蓓”拆为“艹、倍”,将“蕾”拆为“艹、雷”,这个层次,岂是两部件? 《规范》还弄出了一个“同形部件”,其解释谓“形体完全相同的部件,不论其意源是否相同,均称同形部件。”只要完全同形,设计者和使用者谁都不想给他们分意源的,这个“同形部件”有什么用呢? 《规范·四、汉字构形原理及相关的概念术语·3.部件归纳·(3)变体部件》谓:“放置方向不同而主形功能相同的变体部件。例如:‘丷’与‘’”。试想:“夹”中的“丷”,与“兵”下面的“”,就理据、笔形,有什么相同的功能? 《规范·七、〈汉字基础部件表〉的使用规则·2.基础部件可以组合的规则》谓:“例如:可用‘’、‘由’、‘’组合成‘黄’,作为部件使用;可用‘自’、‘田’、‘丌’组合成‘鼻’,作为部件使用”。上面讲到的“雷、倍”和这里的“黄、鼻”,研制组把它们都称为部件,“雷、倍”是过渡部件,“黄、鼻”是组合部件。反过来说,“磺、劓”假使按层次拆分,则“黄、鼻”也就成了过渡部件了,“雷、倍”当然也可以当组合部件。在研制组的理论里,汉字与部件不仅不好划清,汉字中有多少部件,部件中有多少汉字?其命名倒来倒去! 4.毫无用处的层次拆分 研制组认为:“对层次结构的汉字递次进行有理据拆分,称层次拆分;对平面的结构的汉字进行一次性的有理据拆分或无理据拆分,称平面拆分。” 我们认为,一次性拆分比层次拆分方便。将“蓓”直接拆为“艹、亻、立、口”多好,何必要一层一层地拆,不是自找麻烦?而且所有的汉字都可以按所含部件的第一个笔画出现的先后顺序拆出,并排列成线性形式。在实践中根本不需要层次拆分! 5、没着落的部件定义 《规范》已经拿出了部件清单(即部件定量),却不知道首先应该给部件下定义。部件没有定义,如何“规范”得起来?部件定义,就是给部件定性。定性是决定定量的前提。规范,即标准、法式。部件规范,即部件的标准、法式。《规范》没有部件的定义,就是说它没有为自己制订标准。它的科学性被自己否定了。 部件,是指汉字中的几个相对独立的部分。在“部件”这个概念出现之前,早有部首、字符、字素、字根、构件……等等许多名称,都能反映它们是汉字的一部分。为什么我们单单要确定叫“部件规范”,而不叫“字根规范”、“部首规范”、“字符规范”……?是因为它比其他的名称更能准确地反映它的属性,更有利于汉字的拆分。 80年代初,文改会(即现在国家语委的前身)已经出了一张部件清单,有了一个部件定义。它是许多专家、研究员搞出来的。尽管学术界不赞同这个定义,但也不愿意冒犯它。这个态度,把部件定义引入了死胡同,给汉字信息处理带来不少的麻烦。 汉字拆分的根本原理就是给部件定义(拙作《汉字编码设计学》⑼第五章121页有专门的论述)。陈代于先生说:“有了汉字部件定义,汉字拆分规则自然就是:从部件边界拆开。”⑽由此可知:部件定义,就是定下部件在汉字中与其他部件的“边界”。我们就可以在部件与部件的边界上拆出部件来。汉字是一种拼形文字,是由部件拼合而成的文字,因此,它们的拆分原则就是从拼起来的地方拆开。这个方法很简单,真正科学的东西总是简单的,只要部件有了定义(按本书所述的部件定义),汉字的拆分问题就迎刃而解。例如下面我们指出的“”、“”等,如果有人要问为什么要把它们作部件,就只要答复:它们在汉字中都具有“相对独立的”和“可分离的”两种静态、动态的属性。 (二)“拆分”理念 把汉字拆分为部件的最大难题是理论问题。汉字拆分的原理和原则不会凭空产生,它们是从汉字编码的实践行为中总结出来的。因此,不认真研究汉字编码和基础理论,就无法确立拆分的原理和原则。据笔者所知,《规范》课题组负责人王宁教授从来没有认真研究过汉字编码,没有发表过有关的研究文章。正因为这样,他才会写出如上面所说的那些外行话。我们从《规范》中指出的这些为拆分而引出的概念、原则、规则等等可以看出,研制者缺乏一个根本认识,就是:为什么要把汉字拆分为部件?道理虽很简单,分析起来却十分深奥。 1.为什么要把汉字拆分为部件 汉字以其字形表达信息。但是它有几万个,即使常用的,也有三四千个。而键盘上只有几十个有序的键符,我们不可能直接用键符来代表汉字进行输入——如果每个键符代表一个汉字,只能表达几十个字,就无法组成需要的书面语言;如果一个键符代表很多汉字,到输入的时候要从屏幕上一个一个地挑,计算机的运行速度对我们根本就没有一点用处了。这里产生了一个两难问题:既要使几十个键符能够代表所有的汉字,又要使它们能够分别地代表各个不同的汉字。这个方法就是把汉字拆分为部件,使整体的字形信息分为几块部分信息。一个代码只代表被分解出来的一部分的字形信息,这等于增加每个字的代码数量,也就是增加了区别性能。电报利用10个数目字,采用四位数排列组合的方式来代表汉字,一下子就把区别的问题解决了。现在我们采用26个英文字母和四位数排列组合,区别能力当然更大了,但要求也更高了。这个要求就是易学易记,还要适合教学应用。形码就是利用汉字的字形信息与键符建立联系的方法来解决这个问题。初期的形码,一个心眼只讲计算机输入,忽视字形拆分的教学影响,才有现在这个《规范》的研制。但是,研制组拿出的《基础部件表》,里面有许多部件本来还应该继续拆分的,但却没有拆分,这样不但使部件总数增加很多,同时也增加了部件认知的难度。其原因在于研制组不知道拆分是为增加码长,提高区别性能,以便于使汉字序性化,便于在计算机上使用。 2.如何把汉字拆分为部件(详见本书《汉字部件系统研究》) 3.拆分的可区别率和信息损耗率 一个汉字,或其中的某部分,在可拆和不可拆之间犹豫,可区别率可以作为拆或不拆的依据。一个字,拆为两个部件,可区别率是选用码元数的平方,即26个码元进行排列组合只能有676次;每个字拆为三个部件则可以有26的三次方,即可有17576次;每个字拆为四个部件,则为26的四次方,即456976次。所谓可区别率,实即重码发生率的反面。可区别率高,重码发生率低,但只能使用到四个码最好。超过了,我们输入只能取四个码,就要放弃一些字形,这就叫做字形信息损耗。有损耗,就不利于认知。当我们觉得某一个“块”,是可拆可不拆的,就应该把这一“块”与所有有关的字,统统抽出,作一次统计。如果拆分后,其所组合的字,没有超过四个部件,或者只有少数几个超过,大多数没有超过,实即少数字有信息损耗,大多数则增加了可区别率,拆就比不拆好。如果对某一个部件有看法,在拆与不拆之间犹豫,例如“巴”、拆不拆?不拆,“巴”就算一个部件。“巴”拼成的字有“把、耙、笆、爸、色、芭、艳、粑、疤、爬、靶、铯、钯”。拆为“”、“乚”两个部件,其中只有“铯、爬”超过四码,以信息可区别率来衡量,不拆比拆好。 一个字符集中的常用字,占使用频度的99.5%以上,全部拆分后,如果三四部件占大多数,统计的可区别率就高。(注:这样的计算,还只是一个方面;从字形的角度来看,“巴”当然不要拆。因为,“”与“乚”不容易拆开,但从区别的角度,又需要拆开。 我们讲拆分的可区别率,并不是说拆得越小越好,而应适可而止。“适可”到什么程度,编码中制约的因素就是信息损耗率。一个确定的部件表,拆分汉字,使部件信息转换为键符信息,超过四个部件的有些部件必须省略,这就叫信息损耗。一个字符集(一般最准确的按一级字库统计,因为,它已占光了使用频度)有多少字有损耗,可以统计出来,与总数相除,就是信息损耗率了。部件太小,损耗率当然提高(这就是笔形编码不适用的原因),影响学习和认知。我们只用了四个部件出字,五个部件出字会影响使用效率,是不合算的。例如笔形码之所以不好用,就是因为它的信息损耗太多。就是说,部件大,信息损耗少,但可区别率低,不好;部件小,虽然可区别率高,但信息损耗大,也不好。两个“率”相互制约,部件大小就不能乱定。《规范》光凭什么连自己也理不清的“理据”乱定部件,只能给编码帮倒忙。 在拆分中,提高可区别率,就是减少产生重码的可能性。重码率曾在1986年的评测里被当作一项重要指标,其实是错误的。关于这个问题,我们在《汉字编码设计学》中作过专门的论述。一定的重码数,称为重码的可容忍性,不会影响工作效率,不应该讲究。现在汉字输入中的联想功能,一个字联想出多个词,然后让人自己选择,实际就是重码的利用。许多不懂得这个道理的人,为降低重码,不惜损害设计原则和汉字自身规律,无疑是庸人自扰;有的人觉得字符集增大,字数多了,重码当然也多了起来,于是就拼命修改方案,结果影响学习和使用效率,并不能获得好处。因为,字符集中的汉字,不管它增加多少,常用字还是那么多,它的使用频度变化极微。所以尽管大字符集的字符增加很多,重码也相应增加很多,实际对工作效率几无一点影响,根本值不得为它再伤脑筋。在《规范》里提出了一个所谓“组合部件”,就是想给编码设计者减少重码率用的。其实,如果在编码设计中发现某些部件组合使用有利,只要让它们合使一个代码即可。这是取码方法的利用,与组合部件这个概念根本无关。“组合部件”这个概念,纯系多余。如果大家都可以自由“组合”部件,“规范”就没有用处了。 汉字拆分后的几个部分,按第一个笔画出现的先后进行横式排列,方块组合的汉字,就变成了线性排列的形式。置换成一串键符代码,汉字就成了线性的有序的文字了。这就是拆分的真正目的所在。这个道理虽然很简单,不懂的人却很多,包括《规范》研制组的专家。他们并不是直接反对拆分,而是不知道在编码这个过程中,拆分是“主动性”的。即能拆的都要争取拆开,才能减少部件总数,才能有最好的线性化(线性,也是一种序性,即部件在字中的序位。所幸我们的汉字笔画,在汉字中是有顺序的。根据部件在汉字中第一个笔画出现的先后为序,就可以确定汉字中部件的顺序);只有线性化,才能序性化。不能再拆分的汉字和那些结构块,就是部件。部件总数,要尽可能地少。减少部件总数,就能减省学习时的记忆量,就会使部件清单更科学。 4.拆分的可接受性 从这里我们觉得需要引进一个新的概念,叫做:“拆分的可接受性”。一个字拆为几个部分如果人们一眼看去觉得应该这样,心理上好接受,这就是“可接受性”;反过来,如果觉得别扭,就是乱拆分了。把“⺷”拆为“丷、王”当然可以接受;相反地把“⺷”作为一个部件,反而觉得不好接受。因为“丷”与“王”,有一条明显的分隔沟,很容易拆分,何况,“丷”,又是一个常用的、拼字频度较高的部件。部件与部件相拼成汉字,其相拼之处产生了“间隙”。这种间隙,是汉字拆分最好的分界线。利用间隙拆分汉字最方便不过了。“黑”字不拆,人们当然要怀疑:汉字拆分的分界线究竟在哪里?抹煞拆分的分界线,当然认为不能接受了。把汉字的结构规律破坏了。例如把“意”拆为“立、日、心”,是很容易接受的,如果拆为“音、心”,反而不容易接受,因为把拆分的间隙搞乱了。 从《规范》全篇来看,制订者不仅不知道拆分的信息损耗率和可区别率,也没有理解拆分的可接受性。主要是缺乏对汉字拆分认识上的哲学思想和教育心理学基础,因此才产生很多弊端。所以,尽管制订了部件规范的基本原则:“从形出发,尊重理据”(“理据”是否需要“尊重”仍待讨论)。我们却发现许多部件在违背这个原则。例如:“从形出发”,“黑”当然应该拆为“、灬”两个部件。何况“黑”下面的“灬”,已经是一个部件了,与它分隔的另一块,为什么不能算?那么是不是“尊重理据”呢?也不是。因为,“ (黑)”,按王凤阳的解释:“上象天窗,下面是两个重叠的火。古代室内有火塘,屋上开天窗,以出烟,字象由于烟火熏炙,天窗上挂满烟灰之形。因为它的颜色是黑的,所以用以表黑色。”照此“理据”,古代的“黑”字是由天窗、烟灰和火三个东西拼出来的,按形、按理据,都应该分开。现在作为一个不能分的部件,于形于理都不合。唯一的解释是:“”没有称说,组字能力差。这个理由也不能成立。一是拆分的原则里没有组字能力差,不能作部件的规定;二是拆分的原则里更没有讲无称说的不能为部件之说。例如表里的“”,只拼出了一个“临”,比“”更差;同样没有称说,也可以作部件。除相离一类的部件外,一个已确定的部件,在另一个部件里只是它的一部分,对认知心理来说,它会起破坏性的作用。违背认知心理规律,模糊部件概念,就是违背拆分的可接受性,增加记忆负担。 再如“为”,《规范》里把“爲”(繁体)、“为”,都当做部件,列为不拆之例。这两个字不拆,于“形”,它上面的“爫”,下面的“灬”,都已经是部件,只有当中这个“”,没有称说;于“理”,“ ”是由以手牵象的图形,起码上面的手“ ”与下面的象“ ”要拆开。现在我们用的“为”,理据一点都没有了,淡化得没影子了,有什么理由不拆?同期的一篇文章说把“为”拆为“丶、力、丶”是错误的,就是依据《规范》而发。为什么“为”不能拆?没有任何理由。研制者唯一的理由是看点笔作为部件不舒服。点笔作部件有的人为什么不喜欢?唯一能解释的是文改会曾经有过一个部件定义,不承认单个笔画算部件。此定义在理论上站不住,有人曾批评过,⑾有人则对它作了修正⑿,在实际应用中,这条规则又行不通。研制组则既不敢用它,也不敢否定它。因此,“部件规范”只好回避定义。“为、户、犬、求、下、卜、寸”等的点笔就都不敢拆,但又没有一个统一规定,因为还有“太、凡、尤、压”等等没有办法解决。 同样,拆分的可接受性也受到许多条件的制约,如“泣”,八个笔画相互分离,却只能拆为“氵”和“立”两块。其中主要的原因是基本结构。这种笔画相离的结构形式,是部件的基本结构,这些分离的笔画在一起组字,人们已经完全习惯,把它们分开反而觉得别扭,不能接受。 5.拆分与减少部件总数 《基础部件表》中许多该拆的都不拆,造成很多大部件包容小部件,无视拆分的可接受性。例如“羊、⺷、丫、米”等。包容的意思就是:确定的一些部件其中两部分是表中已经有了,如果不确定这些部件,不仅使部件总数减少,还会增加区别率。例如“米”,“丷”和“木”,都已经有了,不用“米”作部件,表中的总数也减少了一个;再如“⺷”,是由“丷”和“王”拼起来的。既然它们分开已经是部件了,又何必重合再增加一个部件?不好拆,没有称说都讲不通,唯一的理由是:它在部首表中算是“羊”的变体。(又来一个理据!) 确定部件,为什么“立足字形”?就是要让学习的人方便,一眼就能看出一个字中有几个部件。编码学习者中绝大多数人是不知道汉字的理据的。他们要求直观,才能便于拆分。如果研制者不管这些,而只管自己知道的东西,那《规范》的目的就被弄反了。定下来的部件,是让全国人民学习的;而不是给语文学者上文字学课用的。包容的实质就是重复。一来是无端增加部件总数,二来损害拆分的可接受性,不易学习和记忆。 每个汉字都有字音和字义。字音和字义都有整体性,不能拆开,一拆开就跟原来的不一样了。例如“字”,它的读音是“ZI”,拆为“宀、子”,两部分的读音和原来的都不一样;“字”,它的字义是“记录语言的符号”(按现代语言学家的解释),拆开来的两个部分,再也没有这个意思了。整体性这种思维定势使我们对拆分感到不舒服;而汉字拆分,是对汉字整体性的一次“革命”。知觉的整体性是一条普遍的心理规律,拆分的需要是外部后加的,因此,不理解此中道理的人,保守性使他们会借用种种名义制造拆分的障碍。《汉字部件规范》充分表现了这种虽不是故意但具有保守性的反应,开口闭口就是所谓“理据”。作为学术研究,这一点也不奇怪,保守和改革相互切磋、讨论,既取得进展,又可防止激进、过头。 (三)汉字体系 1.对部件的命名缺乏正确的认识 研制组要研制部件规范,应该说,正确认识“部件”是关键。“部件”是为取代和统一“独体、部首、字根、字符……”等称谓而出现和确立的,因为它确切地反映了它的中间层次的属性,有利汉字的拆分,适合作为编码的基本单元;而“部首、字根、字符”等,都无法做到这一点。汉字的基本单元“改名换姓”,正是为了适应拆分的需要。因此,凡以“部首、字根、字符、笔画组合”等命名,而作为编码方案的基本单元的,皆可说明该方案的不成熟性,皆可谓之为不规范,想使这些方案根据《规范》进行改进,是纯粹的空想。设计者改换其方案的基本单元,等于另外再设计一个。张国防称为“字符”,王永民称为“字根”,实际都是想摆脱“部首”、“独体”的羁绊。过错当然不是“部首”和“独体”,而是我们思维中的一种守成的惰性。如果从另一个角度来看,可以说“部首”开创的是字形排序检索的实践之始,“字符”、“字根”接着进一步地探索,于是“发现”了拆分的困难,“部件”这个概念才脱颖而出。随着不断的实践,人们对“部件”的认识才逐渐深化。 部首已经使用了两千年,而部件产生出来还没有几年呢!为什么不叫“部首规范”、“字根规范”,抑还是“字符规范”?如果制订者自己还没有理解部件之所以取代其他称谓,那么,如何科学地处理好“规范”呢?“规范”的结果是更多的编码设计者宣布自己的编码已按要求“规范”好了。王永民先生宣布已经在五笔字型的基础上按《规范》设计一个新码;郑珑先生也宣布按《规范》重新设计了一个,……,既然大家都可重新设计,这“万码”不但不会减少,反而会成倍增长。不久的将来,会有更多的打着符合《规范》的旗帜、“奔腾”得更欢的“码群”出现在我们的面前! 2.错误的标尺——“独体”和“部首” “隶变”后,汉字字体的简约或区别就不再以“独体”的增减为主要方法了,例如古代的“血”和“皿”两个字,在篆书里,都像画起来的器皿,为了区别,前人在“皿”左上角加一撇,“血”就可以与“皿”区分了。“ (自)”是个象形的鼻子。我们讲自己,拿手指自己的鼻子,“自”字就被转换为“自己”的意思。而“鼻”字怎么办?前人就加上“田”和“丌”,使它重新建立自己的字形。现代汉字的增多,有的用增减笔画或改变笔形的方法,有的用增减部件或改变拼字位置的方法,因此,再使用“独体”、“部首”这样的老概念,对部件这个概念科学地落实,有害而无利。例如:《规范·五、4(3)》:“传统独体字和部首,以及构字能力较强或拆分后均为非字部件的,虽有相离或相接部分,不再拆分。例如:‘石’不拆分为‘丆’、‘口’;‘禾’不拆分为‘丿’、‘木’。” 此说不仅不能成立,语句也似有不通。这里摆出了四个根本不能并列的概念,但研制组竟然把它们并列起来,造成了上下文无法衔接。如下摆出: (1)“传统独体字”虽有相离或相接部分,不再拆分。这一句,可以讲得通,但范围不明确。 (2)“部首”虽有相离或相接部分,不再拆分。这一句,也讲得通,也是范围不明确,同时,独体与部首也是分不清的。例如:“人、日”等,说它是什么? (3)“构字能力较强的”与4.“拆分后均为非字部件的”虽有相离或相接部分,不再拆分。都不是实质性的东西,所以就讲不通了。如果说它是指独体字或部首,就不应该用“以及”两字使它们并列。现假设都讲对了,不管它指的是什么,单讲“拆分后均为非字部件的,不能拆分,”这一句,也是错的。例如:“风”、“隹”本都是传统部首,拆分了两个都是非字部件。为什么“石、禾”不可拆,而“风、隹”可拆?彼此都是传统独体字和部首,而且,“石、禾”拆分后尚有一半是成字部件,而“风、隹”拆分后却全是非字部件。这规则自相矛盾,无法自圆其说。 3.遮遮掩掩的单笔部件 研制组知道回避不了单笔部件,但又不能科学地接纳,因此,在一些规定中对它的参与,免不了作一些人为的限制,表现出那种“犹抱琵琶半遮面”的勉强。例如:《规范·五、4 (5)》:“拆出的有一个是单笔画,一般应为有理据拆分。”研制组忘记了“主”如果拆为“丶、王”,“朱”拆为“丿、未”,“师”拆为“、一、巾”,“定”拆为“宀、一、”,“贵”拆为“中、一、贝”都无法讲出理据。但是,不这么拆,就再没有别的拆法了。因为,《基础部件表》里没有“主、朱、帀、”诸部件。说穿了,研制组既不敢断然否定单笔可以作部件,只能遮遮掩掩地以“理据”来“抵挡”单笔进入部件行列。主要的原因是在“独体→合体”这个体系里,没有单笔部件的位置。 汉字体系因笔画系统的参与已经发生根本的变化,并没有被研制组专家们所注意。汉字的部件,是隶变后产生的新的基本单元。两千年来历代的文字学家之所以没有把它们的定性定量搞清楚,是因为文字学是应用科学,没有应用的需求,新学科不会凭空诞生。应用,就是实践。众多的字形编码的实践,证明部件是一切编码的核心;部件定量(即规范)是解决“万码奔腾”的关键;而部件定义的科学性,则是决定部件规范的前提。所有这一切,都取决于对汉字体系历史发展规律的认识。 4.汉字新旧体系的不同 许慎著《说文解字》,设立部首检字法。为使它来自有据,就提出“六书”造字和“独体为文,合体为字”的造字理据。“六书”说明了汉字的造字方法;“为文”“为字”说明形成的结果。由“独体”拼出来的“合体”,开始只是一些会意、指事字,后来以这些字(独体或合体)作为声旁或形旁,拼出越来越多的形声字。所以,独体应该是所有汉字的原始符号,不是现代汉字的基本单元。 古代的独体字身兼“两职”,既是一种负载信息的形象字,又是造字的基本单元。由它拼出来的“合体”,所含的信息量很高。当时人们造了少数的独体,并以它们相拼来构成“合体”,用以表达信息。随着文明的发展,社会信息交换量逐步增加,汉字字数的积累也越来越多。总结汉字增多的原因:一是为书写方便,字体不断简化,老字体废置不用,但需要留着;二是新的信息需要新的文字记载,人们就创造新字来补充;三是人们在使用过程中发现某些字由于字形相似,不易区别,必须增加区别标志,于是又创造了新的字形。这三者使汉字增多,到东汉时已近万余个。此时篆书与隶书正处在交替之期,但许慎的研究还是以前的老字体。 自隶变之后,笔画系统成了汉字体系的最小的基本单元。古代独体字发生了分化:有的成了笔画结构块,例如“口、人、日、二、小”等;有的裂成了多个笔画结构块,例如“虎、鱼、象、帚、鹿、燕”等。古代的合体字也发生了分化:有的原来由两个以上独体拼成的,合并在一起分不开了,例如“史、尹、吏、丰、申、韦、及”等;有的原来只有几个少数的独体拼合的,却“裂变”为更多的笔画结构块,例如“戴、得、量、御、命、疑”等。因此,现代的汉字体系不再是只有“独体→合体”两个层次构成的体系,而成为由“笔画→部件→成字”三个层次构成的体系了。 笔画系统的加入,标志着汉字体系演变进入了一个新的阶段。部件是构成现代汉字的中间层次,是汉字编码的准备用作汉字序性化的基本单元,以便于现代汉字的排序检索和计算机应用;而独体是古代汉字的基本单元;部首,则是许学体系的检索汉字的符号系统。部件与部首或独体,是分属不同概念体系中的东西,相互并无隶属或相交的逻辑关系。在我们给定性定量的时候,不应该引进独体和部首之类的称谓,并以它们来作标准,应是不言自明的。 归结《规范》研制组和我们的观点,可以发现两者存在的根本分歧在于对汉字基本单元的理解,在于对汉字体系的理解。我们的原则和规则,与《规范》的分歧,根本在汉字的体系。《规范》的依据是“独体→合体”;我们的依据是“笔画→部件→成字”。部件是从汉字中拆出来的。前者体系中没有部件的位置,所以,想以前者的体系拆出部件,岂不是缘木而求鱼? 部件,这个命名的出现,改变了我们对汉字体系的认识。如下图所示: 文字应用的惯性和惰性,使流行两千年的许学体系,仍被某些专家奉为经典;同时也为应信息应用而来的新的汉字体系取得共识增加了阻力。现在的语文界、编码界仍然把独体或部首当作部件的标准。《规范》研制组使用的是老体系——“独体→合体”,“生产”的却是新体系的基本单元——部件。因此才矛盾重重,错误百出。 为了弥补他们的缺陷,他们认为“原有部件完全交融,形体完全成为笔画的直接组合,如‘甫’、‘史’、‘吏’等,既看不出拆分的可能性,又没有客观拆分的客观依据,应视为新的独体字。”这里提出一个“新独体字”的概念,也是别出心裁。如依此说,那些“鹿、虎、鱼、兔”等,都应称之为“新合体字”了。汉字的历史,难道都是这样走回头路的? 看来,研制组之所以没有研制好《规范》,是因为他们老是在叨念“独体”。“部首”和“独体”都因为它们的局限性而被“部件”所取代,他们仍恋恋不舍。他们对部件的相对独立的属性,还没有完全理解,头脑里还没有建立起牢固的“部件”观念。他们忘记了自己在研制的汉字的基本单元是“部件”,而不是“独体”。他们不知道摆脱老概念,以防相互冲突。至于传统习惯,或者某些部首使用频度高,在拆分时会自然而然地得到适当处理,而不是要列出几条原则来约束。 像“独体”这样的概念,在中国的历史上,还没有一个古文字学家把它弄清楚,使它有确切的数量。我们就不应该武断说某某字是独体,某某是新独体。穿新鞋,走老路,实在很别扭。再说“部首”,是许慎用来检索汉字用的东西,他确定了540个,现《新华字典》只用189个,其中还有笔画凑数。这说明“部首”本身就是主观确立的,不存在着必然的科学体系,拿它来给部件做标尺,更不应该。一个无法定性定量的基本单元的概念,已经被实践证实需要淘汰,就不应该再纠缠不休。 以上分析表明,我们与《规范》研制组的分歧决非一字一理的不同意见,而是带有根本性和全局性的对立。这种分歧也只有《规范》脱离“独体”、“部首”的束缚,从“独体→合体”体系转移到“笔画→部件→成字”的这一现代汉字体系上来,才能找到我们共同的语言。 三、历史的呼唤——统一编码 “攻关”、“评测”、“推荐”、“选码”和“规范”都是在理论的歧途中跋涉,但我们必须承认,它们起过了一定的历史性的作用,为解决“万码奔腾”从反面给我们带来实践的经验。汉字编码的问题,不是“攻、评、推、选、规”的问题,而是“统一”的问题。它们的失误,关键是起跑点方向的问题。失之毫厘,差之千里。 文字研究成果需要权力的支持,才能得到推广应用;不科学的成果在社会上流行,也需要权力的及时干预,才不会造成过多的损失,贻害后代。“五笔”的十年市场占领,造成了重大的损失,作家韶华将它比作“高速公路上的手推车”,十分恰当。它固然与编码学术界的“汉字编码输入技术论”、“用户决定论”有关;而语文界没有及时地对其错误概念进行推敲和分析,教育界也没有及时地、积极地以权力干预,也有一定的责任。这就是说,对文字研究成果,权力不应轻易支持尚未交付通过严格质疑而获得共识的学术成果。从另一个角度来看,大量编码产生出来了,各家都自有一套拆分汉字的方法,文字使用遭受“编码污染”(即肆意肢解)的威胁。这时也只有运用以科学为背景的权力干预,方能“拔乱反正”,否则,“污染”将更加泛滥。再者“规范”二字不可轻易使用。因为,“规范”有动用权力之意。文字应用是全民族都参与的,若“规范”错了,反而会将编码引人歧途。实践证明“规范”的前提是必须对编码的基础理论作深入和系统的研究。 (一)认真接受“规范”的教训 每一个编码方案,都是汉字现代应用的一次实践。“攻关”、 “评测”、“推荐”、“选码”,是这些实践的权力运用。它们都没有获得成功,因为它们也同样是实践,比任何一次编码实践没有高出多少。“规范”则是再一次的权力学术实践,蹈前车之覆辙。 中国人要信息化,要实现全国联网,要让计算机进入中小学,首先必须统一全国编码。而《规范》却与该规划相抵触,设想的是“规范”编码的部件。统一全国的编码,关键在 “统一”而不在“规范”。要统一汉字编码,关键在统一汉字的部件而不在“规范”部件。要统一汉字的部件关键在实现汉字拆分的唯一性,而不能允许拆分具有“一定自由度”。 说到底,《规范》制订者的根本缺陷在于过分把希望寄托在权力的具体操作上,而忽视基础理论的研究;在汉字编码的性质、目的、目标、设计原理、设计原则等等都还没有弄清楚之前,就迫不及待地给它定方向,因此才失去了指导和执法的权威性。而我国的语言学家,几十年来深受泛政治化之害,习惯于权力“规范”,而失去了科学研究艰苦跋涉的耐心和毅力。小有新创,就急求所用,而不愿意千锤百炼,勇于征求质疑。 由于忽视基础理论的研究,《规范》才会产生许多概念错误。例如认为“将汉字拆分为部件称为部件拆分”。尽管我们通常在叙述中常用“部件拆分”来表述“将汉字拆分为部件”的意思,但落实为书面上的概念时,就不能这么草率。将汉字拆分为部件,只能称为汉字拆分;同样,将汽车拆分为部件,只能叫汽车拆分,不能叫部件拆分。 (二)中小学的统一编码方法的教育急如星火 信息社会的竞争,是人均信息量的竞争。 根据当前信息技术发展的速度,如果我们不能在近年里建成全国统一联网,我们与先进国家的差距就将越拉越大,就会永远落后。因为,一个民族的繁荣进步,首先取决于它们的人均信息量。要提高人均信息量,就必须实现全国联网;而实现全国联网的前提是让计算机进入中小学。在全国中小学里当然不能进行汉字编码教育的“自由选择”,这就要求一个统一的编码。由是可知,中小学的统一编码教育急如星火。 “计算机从娃娃抓起”,是社会教育发展的必然趋势。实现这一决策的前提,是全国汉字编码的统一。每一个人都必须接受计算机操作的教育,首先遇到的问题就是汉字编码的教育问题。因此,不可能设想,在一个高度统一使用汉字的国家里,全国中小学会使用多种不同的汉字输入教材。孩子们从小就掌握每个字的代码,才能学会快速反应,以便动用计算机输入汉字和它的排序检索。因此可以知道:汉字编码的使用就是汉字的使用。在中小学里教学生如何把汉字编为代码,总是先要把汉字写端正,这个过程也就是写字教育的过程,容不得半点含糊。孩子们从识字开始如能先学部件,以后只要用部件来拼汉字,就能加速记忆汉字的字形,缩短识字过程;学会部件清单的学生,再也不会写错别字。 (三)从汉字、教育、信息三个角度看编码统一 汉字编码统一具有重要的时代迫切性。这可以从汉字、教育、信息三个方面来分析。从汉字的角度看,受教育,首先是识字。学习汉字,一是认识汉字字形的读音;二是理解每一个字形所包含的意义;三是知道它们组成书面语言的方法。但是这一切,都是以字形为载体。对教育来说,字形是根本。汉字字形是一种方块的笔画组合,这种平面的组合形式,与线性的拼音文字相比,能承载较多的信息。长期的文化历史,字形不断地演变,它与拼音文字相比,较难规范;即将来临的信息化社会,是人机共享文字的社会,对汉字字形的规范要求更严酷,一点都不允许含糊,如何进行字形规范,就将成为汉字改革的大难题。 其次,从教育的角度看,汉字字形编码的统一是普及计算机教育的前提。随着计算机的普及,许多学校都添置了计算机教学设备,增加了计算机教学内容;现在的大多数计算机教师都已经学熟五笔字型(他们都不是语文教师,更不是教育研究者),向学生传授汉字输入,既不考虑学生学习的难易,也丝毫不顾及汉字字形教学与应用的规范。尽管王码公司已经宣布五笔字型退出历史舞台,但计算机教师并不愿意放弃这已经熟悉的东西;计算机的软硬件也不会因王码公司的宣布而“主动”退出。权力学术既已使它上台,现在就应该考虑采用一定的措施,清除遗留的后患。如果再过几年,汉字规范就会成为一些糊涂蛋的牺牲品了。 第三从信息传递的角度看,只有实现汉字编码的统一,才能实现文字的统一排序,有利检索系统实现统一。信息是为交换而存在的,作为信息的载体,其前提是必须经交换者互相约定。因此,不可能允许在一个统一的国家里,使用多种不统一的书面符号检索系统。“键盘换笔”,用笔书汉字,与用键盘“输”汉字,本质是一样的。两千年前,中华民族要“书同文”,现阶段的中华民族也要“输同码”。 (四)基础理论研究接近成熟 我们认为,要统一全国编码,首先应该对汉字编码的设计理论进行系统的研究,其重点是对汉字编码方案的基本单元——部件,进行系统的研究。令人深感欣慰的是这样的研究由于多年的积累,已经接近成熟。 1983年,张普发表了《汉字部件分析的理论和方法》⒀,重点阐明了汉字编码之所以繁多的分歧所在。但该文中的错误却一直引导着编码界在误区中跋涉);同时率先指出汉字的拆分不能背离汉字的造字历史和造字方法。1986年陈爱文出版了《汉字编码的理论与实践》,提出了汉字编码的本质是“汉字的辅助形式”;指明汉字编码的关键是“部件的处理”,并提出一个客观的分类系统。1987年由光明出版社出版了《汉字字形学与表形符号编码》和北大出版社出版的《评王永民五笔字型编码》,确立了汉字拆分规则,为汉字拆分的唯一性奠定了基础。也同时使编码的具体设计得到新的突破。 1993年,潘德孚发表《计算机教育与汉字形码方案研究》⒁,阐明了汉字编码的发展轨迹、突破和结构,提示了编码方案的发展和结构规律。1994年潘德孚发表《汉字编码不应授予专利权》,又出版《汉字要走出编码时代》专著,指出“汉字编码是汉字的一次变革,不是单纯为了输入”;同时阐明汉字编码是“汉字现代化的合龙工程”。“合龙”的意思是指汉字现代化提出的四项要求:提高识字速度、统一书写规范、统一排序检索和汉字输入都能一起实现。 1995年潘德孚、詹振权著《汉字部件简论》⒂对汉字的拆分以及部件的命名、定义、分类、映射、证明(用部件的属性来证明每个部件确立的合法性)、排序等作了系统的研究,使部件系统进一步完善。根据以上的研究,潘德孚、詹振权又合著《汉字编码设计学》,在研究与完善形码设计的基础上,归纳出一个新的汉字体系:“拼形造字——拼形文字——拼形字母系统”。 回顾两千年前,汉字已经积累了上万个,但不能检索,使中华文化的发展受阻。许慎著《说文解字》,提出了“六书”造字法,“独体为文”的构字理据和部首检字法,解决了汉字文化继续发展的问题。历史又持续前进了两千年,部首检字历经改进而仍然不适应现代应用要求,时代需要一个新的汉字体系。《汉字编码设计学》总结了汉字编码设计和汉字现代化的实践经验,至此,汉字编码的基础理论系统基本成立,为统一奠定了理论和实践的基础。 结束语 也许有人认为笔者在这篇文章里,把语委的《汉字部件规范》说得这也不是,那也不对,觉得这位潘先生太狂妄自大了。难道这么三位教授又加上一个班的研究生搞了这么多年,搞出来的就是一个废物?里面就没有一些好的东西?讲句老实话,学术研究可不是开杂货铺。在一个杂货铺里,虽有许多不合意的货色,也许可以找到我们到处找不到的好东西。但是搞学术,概念弄错了,统统都是错。从来不会有既是科学的,又是不科学的。还有一点,如果说这个“部件规范”,是部件研究历程中的一段,说它曾经起过了承先启后的作用,那也可以说有一定的价值。问题是连这个作用也没有。笔者在1995年,就已经完成了汉字部件的系统研究,写成《汉字部件简论》。而且,我在听了国家语委的尹斌庸副研究员说王宁教授在研究部件的消息后,马上把上述文章和我的另一些著作寄给他做参考。因为部件是汉字的基本单元,是很重要的研究,我不敢说自己的东西已经很完善了,现在有这么一些有名望的教授搞,不是很好吗?只要他们能搞得好,对我们子子孙孙有利,都是一样的。我不在乎这样的“技术”,也不在乎无代价扩散。在我的思想里,只是希望他们能够在我的基础上做得更好,不知道四年以后他搞出来竟然是这个样子的。 究其实,“部件规范”这个课题本就是画蛇添足之举,立题的题意就是错误的。部件为什么要规范?无非是说各种汉字编码把汉字拆分得乱七八糟:“东”被拆为“七、小”,“民”被拆为“已、七”。于是有人想:把部件确定下来,就不会这样乱拆了。这才有了“部件规范”。既然是“部件规范”,自然要出一张部件清单。立课题的教授没有想到的是,既然已经有了清单,汉字中的部件已经全部被包含在其中,人人只要对照《规范》中的部件清单,取出其中的部件,就是很规范的拆分了。每个人都是一样的拆分,那还要“规范”什么?举个例:假设《规范》的字符集不是含有20902个汉字的,而只含有“口、吕、品、丁、可、呵、叩、阿、啊、扣、打、叮”十二个字的字符集。我们把每个字都分为部件,就得到:“口、口口、口口口、丁、丁口、口丁口、丁口丁口、口卩、卩丁口、口卩丁口、扌口、扌丁、口丁”。再把相同的合并,就得到“口、丁、扌、卩”四个部件的部件清单。有了这个清单,我们还要给它制订几条规则:1.形成包围不拆(如果要拆,“口、卩”就不能成为部件了);2.交叉不拆(如果要拆,“扌”就不能当部件了);3.中间一个竖笔,上头有单个横笔挡住的不拆(如果要拆,“丁”就不能当部件了)。附则:汉字中部件排列顺序,必须按每个部件的第一个笔画的先后排列。有以上的清单和规则,每个汉字对照清单中的部件,就能够知道如何拆分。每个人都是一样的拆分,而没有任何的不规范。《规范》不就是毫无意义了吗? 别看这小小的十二个字的字符集,它已经包含了汉字拆分的一些基本原理:一、得到部件清单不是靠什么“技术手段”,而是靠艰苦的卡片工作(现在利用计算机就比较方便);二、它的拆分不依靠什么“理据”,而是靠部件与部件之间的间隙(“间隙”的解释请阅笔者的《汉字编码设计学》123页);三、拆分规则是从部件清单中来的,不是凭空想像出来的,它针对的是清单中的部件,不针对汉字本身,与古汉字的“理据”,没一点关系;四、有了清单和拆分规则,汉字拆分为部件就实现了唯一性,即只有一种拆法,没有第二种。它还告诉我们另一个道理:部件清单中的部件,是以笔画结构形式而存在的,与字义已经脱钩。 注 释 ⑴《计算机世界》专题报导D1版,1998年4月27日。 ⑵《计算机世界》专题报道D5版,1998年4月27的。 ⑶1987年北大出版社出版该书后,王永民通过种种方法威胁该出版社,致使该出版社宣布收回该书号,已印好的一万本不再发行。王还向作者发出书面照会(警告)。弄得作者也惶惶不可终日。现在看看该书的内容,完全是学术问题,为什么在当时,连一个出版社都如此害怕?因为,在那个时候的那个环境,学术界对权势恐惧的余悸仍在。要不然,五笔字型就不可能拿着科委成果局的推荐书就可以在全国、全军中迅速推开。 ⑷张碧涌:《汉字编码能否走出“战国时代”》,载《光明日报》1993年9月27日2版。此文是记载作者对汉字编码委员会委员陈一凡教授的采访。 ⑸王宁、陈一凡:《谈从理与从形拆分原则》,载《计算机世界》专题报道D4版,1998年4月27日。 ⑹孙剑艺:《论祖国书同文的基础》,载《语文建设通讯》,1994年6月第44期。 ⑺载《计算机世界》专题报道D14版。 ⑻王凤阳:《汉字学》911页,吉林文史出版社,1989年12月。 ⑼《汉字编码设计学》,中国城市出版社,1997年11月。 ⑽《汉字音形编码原理探讨》,载《中文信息通联世界论文集》第108页。 ⑾钱玉趾:《也谈汉字部件与汉字字根》载《语文与信息》1995年第5期。 ⑿苏培成:《现代汉字的部件切分》载《语言文字应用》1995年3期。 ⒀载《中文信息国际研讨会论文集》第3集。 ⒁载《教育研究》1993年第8-9两期。 ⒂《汉字部件简论》共15节,分别发表在《中文信息》、《语文与信息》、《温州师范学院学报》等处。 |