§5.2 关于部件定义的争论 一、引发争论的原因 有人认为,部件是可以随设计的需要随意确定的。例如王永民先生说:“什么叫构件(即字根,或部件),什么不算,构件选多大合适,都因人而异,这里的根据是设计的需要。”又说:“字根并不像汉字那样有公认的标准和一定的数量。哪些结构自字根,哪些结构不算字根,历来没有严格的界限。不同的研究者,不同的应用目的,其筛选的标准和选定的数量差异很大。”(3)这个讲法,反映了一个客观的情况:汉字的部件没有一个公认的标准。 汉字有三个层次,即笔画、部件、成字。笔画有公认的标准,成字有公认的标准,唯独部件没有公认的标准。但是,部件存在的客观性又是众所公认的。它的标准没有得到公认,并不能就此证明可以“因人而异”,不要部件的标准了,而是说明当前存在的标准不符合客观规律。标准制订是客观的,汉字集中的汉字才能“完全分解”;标准制订得不客观,分解时就会有困难。因此,能不能拿出覆盖指定字符集全部汉字的部件清单,可以作为测定该定义的正确与否的标准。 有的人既不同意别人提出的定义,自己又拿不出来;有的人虽然能拿出定义,但用他的定义却不能分解汉字,得不到部件清单;有的人拿出清单,但这张清单是不能作为编码设计用的。因此,我们认为这些主张,应该暂时“留档”,不要现在就拿出来干扰正常的研究。许多人千方百计寻找汉字的拆分规则,始终没有结果。因为,他们不理解拆分规则是不会凭空冒出来的,而只能是从部件清单里归纳出来的。然而,现在部件的定义都还没有,如何能拿出部件清单?没有清单,当然就无法归纳拆分规则了。 计算机即将进入中小学教育系统,因此,汉字编码必须尽快统一。汉字编码的统一,不是用某一个编码,去统一其他的编码,而应该从部件定义的统一做起。现在有40多种定义或解释,说明部件定义是个难题。 二、对几种部件定义的评论 对现在流行的几种有较大影响的部件定义,我们试作以下分析: (一)“大于、小于、等于”(4)不能作为划分部件的标准 有人认为:“所谓部件,是指大于笔画(‘一’‘乙’除外,因为它们既是笔画,同时又是单体字)而小于或等于单体字或偏旁成字单位。”这个观点,在文字学界比较流行。钱玉趾先生率先对此表示了不同的意见。他说:“部件大于笔画,小不成字,这好理解;说部件等于笔画、等于成字,这不好理解。相当于教研室大于教员,小于学校,这好理解;说教研室等于教员、等于学校,这不好理解。” “矿山用重型机器的一个零件,会比制造钟表的机器大许多(包括外型、尺寸及重量)。如果‘机器部件’也引进大于、等于之类的概念,……可以说,所有的机械工人都不会接受这样的解释的。” 在词义上使用“大于、小于”的解释,是可以的。但是把它作为汉字部件的定义,想以此从汉字中划分出部件,显然就没有办法了。实践证明这个定义通不过。我们给部件定义的目的是为了在汉字中划分出部件来,而不是对它作毫无目的的字面上的解释。 用“大于”、“等于”诸词,有可以解释的一面。但是,“大于、等于”不能表明部件的本质属性,用它们作为划分部件的标准,当然是不妥当的。一般来说,汉字由部件构成;部件由笔画构成。但如果认为部件就是部件,不等于汉字;笔画就是笔画,不等于部件,那就错了。“一”和“乙”确实是单个笔画,但它们有字义,也可以和其他汉字一起组词,也具备汉字的功能,故可以等于成字。 “大小”论把“一、乙”作特殊处理,其错误在于“一、乙”之参与拼字,不是一个小数目,而且又都是常用字,它们出现的频度很高。根据现在的部件清单统计:在国标二级汉字库中,含有相对独立的单个笔画的汉字有857个,大部分是常用字。其中含横笔的字,有325个,如“同、合、司、亍、亏……”等,不是少数几个字的问题,不可能用简单的一句“特殊处理”就可以解决的。 “大小”论在文字学界有相当的权威性,使得汉字编码的设计者到此止步,因而产生了许许多多的部件“优选”论者。我们认为,假设这个论点真的“权威”,也只“权威”在文字学界,在编码界它是不应该“权威”的。因为,它再“权威”下去,我们就没有办法把部件清单拿出来了。 (二)笔画的多于、少于不能作为划分部件的标准 有人说:“‘部件’的关键是‘由若干零件装配而成’,而不是由‘单个制件’(零件)构成。汉字的‘零件’应该说是笔画,由若干‘零件’即若干笔画才能构成汉字部件;单个笔画一般来说是不能构成汉字部件的。” “部件是由若干笔画构成的这个概念应该说是十分明确的。”“把单个笔画算作部件后,一些部件研究者认为汉字是由部件构成的,这就误入了第二个迷宫。”(5)这些话肯定了部件是由“若干个”笔画构成的,即是说,一个笔画不能算部件。“若干个”笔画与单个笔画只是数量上的差异。 机器由部件构成;机器的部件,由零件构成,有人依据这个逻辑来解释部件。汉字相当于机器,但不等于机器。因此,汉字的部件也不等于机器的部件;笔画也不等于机器的零件。机器的部件不会成为机器,因它不具备机器的功能;汉字的部分部件有字义,也可以与其他汉字一起组词,具备汉字同样的功能,它们可以等于汉字。有的笔画也有汉字同样的功能,可以与其他汉字一起组词;也可以与其他部件一样拼合汉字。例如“尸”与“户”、“大”与“犬”,多了一个点笔,所组成的汉字意义完全不同了。说明这个点笔,它是另一个部件,不再是笔画了。 古代的造汉字的“文”,尽管不是现代的笔画,但也没有数量上的规定,一定要有“若干”个,才可以允许参加造字。最早的象形造字法造出的字,实质就是依形描画出来的图象。后来利用图象拼合,产生会意字,例如“”,两个长短不同的线条,代表大地和地上的某个东西。说明这个“(上)”字是两个物象,实际却只有两条不规则的线条;如果下面的长线条两端往前翘,就成为“(口)”字,代表一个物象。“ (口)”是古代的“文”(即部件),“ (上)”是古代的“字”(即成字),都只用了两根一长一短的线条。由此可知,把造字的基本单元,规定为“若干个”笔画,是错误的。 “汉字并不是先有笔画,再有部件,再造汉字的。汉字是先有了一些象形的‘文’,这些‘文’又作为部件繁衍了众多的合体字。”可见,汉字造字法的原理是用部件造字的,那时的笔画还没有诞生,我们的祖先就不可能用笔画的数量来确定部件标准的。因此,以“若干个”来确定部件的地位是违背汉字造字历史和造字法原理的。 (三)拼字量无法作为确定部件的标准 用拼字量来确定部件的方法与五笔字型确定基本字根的方法并没有两样。方法简单,想法也简单,说的容易做的难。五笔字型的基本字根选定,有两个依据:组字频度和使用频度。如上所述,这两个频度经常自相矛盾。现在若说只要一种组字频度,自相矛盾虽然没有了,其可靠性也差了。有的字,组字频度很低,但使用频度很高,例如:“、”等,要,还是不要,就很难决定了。思想太简单了,困难就会大。由是可知,使用频度的高低,如作为划分部件的依据,比之上述的“大于、小于、多于、少于”并没有什么不同。 值得庆幸的是,建议用拼字量来确定部件只是个别专家的设想,并没有具体方案,影响并不很大。 (四)“成字、部件、笔画”“互不交叉、互不侵润”是根本不可能的 有人说:“我们主张狭义的部件,使笔画、部件与成字真正成为三个层次,互不交叉,互不侵润,笔画就是笔画,部件就是部件,成字就是成字。”(6)如果这个想法能够成立,当然很好,可惜很难,因为这个主张脱离实际。汉字不是机器,有自己的特殊性,如“人、口、王、土、木、目……”等一百多个,既是成字,又是部件,不可能截然分开了。“一、乙”则身兼三“职”,是笔画,又是部件,又是成字。有的人又认为,只有这么两个,可以作特殊处理。试想,“一、乙”两个也是最常用的重要笔画,组字频度很高,算起来有不少字。一般来说,特殊处理只能是很少数的,决不应该让组字频度很高的笔画作特殊处理。我们认真推敲,笔画、部件、成字三者,“互不交叉,互不侵润”的主张,只是一种幼稚的幻想,离现实还很远。当前汉字的实际存在模式如图8所示: 图8 汉字、部件、笔画的现实存在模式图 图8说明成之中有部件和笔画,有不属于部件和笔画的;部件中有汉字和笔画,还有不属于笔画和汉字的这一部分;笔画中有汉字和部件,也有不属于汉字和部件的。这个图是婶婶存在的现实,是无法否定的。 以上的这些主张实质是想将单个笔画排斥出部件的队伍,实际是一种倒退。部首检字的进步,在于将单个笔画列入了部首的队伍,才使得检字能力得到加强。再看许多字形编码,如五笔字型、大众码等,也都把单笔画当作字根,可见得缺它是不行的。实践证实了排斥单笔部件的不可行性,而有的人偏要走进这条死胡同,造成了现在的困境,有一篇文章说:“假如把‘光’字下半部看作‘儿’,那么上半部分就成为特殊部件。我们应本着‘通用优先’的原则,把下半部分看作‘兀’,这样上下两个部件都成为通用部件。”“儿”是一个通用部件,也是一个常用字;而加上一个横笔的“兀”,是一个使用频度极低的罕用字,不能称之为“通用部件”。(7)这时,我们如能把这个“一”也当作部件,上下岂不都通用了?这样处理还有一个好处:就是使“光”这个字的码位也拉长了,有利于应用。作者不敢把“一”这个单笔拆出来作为部件,就是碍于以上的这些“权威”定义。至于“一”为什么要从“兀”字中拆出来,我们将在下面的“隐性间隙”中提及。 上面这些关于部件定义的主张,我们认为,它们有一个共同的毛病,就是没有反映部件的本质属性。不过,这些讲法并非一无是处,部件的“大小”,笔画数的“多少”和拼字量的“高低”,都有一定的认知心理依据,在逐个认定部件时,可以作为一些汉字分解中疑难案例的考虑条件,但都不应该把它们看作定义。 三、科学部件定义的检验标尺 检验部件定义的科学与否,看它能否交出一张有效的、具有可使用价值的部件清单。 字形编码需要分解汉字,部件定义应有利于按规律分解汉字,不是一个一个的交代;字形编码需要得到部件清单总数,它能覆盖全部汉字;字型编码需要部件清单里的全体部件,能构成一个整体的分类系统,只有这样一个系统,才具有可扩展性,才能覆盖一切未曾收集的汉字。这三个要求,可以用来检测部件定义的正确与否。 提供一个汉字字符集的汉字部件清单,记住这张清单中的几百个部件和每个部件类的代码,就会知道任何一个汉字的代码,就可以避免逐个拆分时的二义性,和逐个记忆的不便。有人认为记住几百个部件不易,不如主观挑选一些使用频度高的,作为设计编码方案的基本单元,以降低识记材料的数量。我们认为不能以牺牲部件定义的科学性来解决这个问题,而应该从科学的分类上展开思路。几百个部件如果是逐个记忆,当然很困难。但如能将它们构建为互相关联的分类系统,利用系统记忆,引起联想,一类带出一类,一个带出一个,记忆量就会大幅度下降。 我们认为,如果各家对部件定义争持不下,唯一的方法就是拿出部件清单来比较,这样就有一个具体的、可以比较优劣的东西了。 给部件定义的目的,不仅仅是为了拆分,还要通过拆分得到部件清单。这张清单还能进行比较合理的、符合编码(映射)需要的分类。所谓“符合编码需要”,一是要总数简约,清单中的部件,可以构成字符集中所有的汉字;二是集合方便,有利映射。由是可知,给部件定义,不是单纯地为了拆分,而是有一个系统的目的。即拆分、分类、映射,都应该在定义中反映出来。 |