湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

汉字部件系统研究

 

引   言

 

计算机的中文应用,掀起了壮阔的汉字编码波涛,上万专家投入了汉字编码研制。这一热潮的必然和重要产物,是汉字形码方案这一带有“特异功能”婴儿的哇哇坠地。这个特异功能,就是排除了拼音输入中重码的不可容忍性,能够盲打。

新生的形码,一开始就排除了重码对输入的干扰。人们可能并未觉察,时至今日,仍有人以为提高形码的关键在于提高输入速度和减少重码率。这个错误认识,引导人们在编码误区中走了二十年,而且现在还在兜圈子。关于汉字编码的输入速度问题,纯系打字员的技能和熟练程度;本文于第十三节,专写重码分析,提出了六个有关重码的新概念,以分析其中的疑惑。

随着计算机中文应用的展开,汉字编码方案不断增多,形码方案的研究并未得到语言学界足够的重视,有的人甚至认为这个“拆字编码”是汉字的一场灾难,是中文信息界的错误理论导向。有人则认为,由于形码有拆分的困难,因此它成了“汉字输入的枷锁”。可是,它并不因某些人的不满和诋毁而消失,反而日益成熟。“拆字编码”显示出汉字正面临一场前所未有的伟大变革:在它五千年应用的历程中正在出现一次大转折——汉字从拼合应用,变为拆分应用。它预示一百多年来中国人为之奋斗的各种汉字现代化工作的努力正在实现合龙。

“拆字编码”的根本问题在“拆”。有的人因此认为只要找到或制订一定的拆分规则,就可以一揽子解决编码的困难,事实上并不容易。挡在我们面前的是一堵很难穿透的墙。不进行系统的研究,谁都不容易解决这个难题。“拆字编码”所要解决的不仅仅是拆分,还有部件的定量和分类。

笔者以三年的艰苦研究,在发现“汉字编码发展轨迹“的基础上,又发现了“拆字编码”是一个以定量决定分类,以分类制约拆分,以拆分决定定量的循环结构,其核心是部件的定义(因此发表了《汉字字形编码方案的突破和结构》)。不求定义,单讲拆分,就永远不能解开这个结。学术界又素有“各家都有部件的定义”之说。此说却是部件定义不可知的翻版。本文第三节提出部件定义的设计,把定义建立在根据编码设计要求的客观基础上。以部件的定义整理出部件清单,在清单中归纳出拆分规则,从而拨开了拆分的迷雾。

本文第十一节,根据部件定义所述的属性,对清单中的每个部件合法性、合理性作出证明,个别部件留待讨论。因为个人的智力总是有限的。确定部件清单是极其重要而又严谨的研究,必须集思广益,把它做好,不能贻害子孙。这张清单,使部件的产生摆脱主观选取。清单中只有352个部件,比文改会的648个部件少了40%强。如果建立本清单的方法得到共识,虽然它还只是国标二级汉字库的,但它所体现的汉字字形结构规律,都已经囊括无遗。因此,不管今后字符集中的字符还要如何增多,未知的部件还要作些增添,它们的分解、分类以及代码,都没有必要再另行设计了。可以这么说,汉字的字形元素(即字形字母)找到了。一套成熟的汉字字母系统,可以用来统一各种编码,走出编码混战的时代。教育部门不再为计算机进入中小学的基础教育发愁;国家不用再为建立统一的管理网络发愁。国家管理机关也不再为没有统一的资料排序方法而发愁。

编码方法就像魔术,看起来很复杂,说穿了其实很简单。我们上面所说的“编码”,是动词的“编码”,专指把汉字“编为代码”的意思。“编码方法”有宏观微观两个方面:宏观的是指整个方案的设计方法;微观的则是指映射的方法。本文第十二节,特写微观的编码方法分析,列举几个编码方法,说明编码不是技术,不是“发明”的道理。如果我们能够统一部件清单,统一分类系统,若是不统一部件类代码,各人还可以搞出许多不同的方案,何况现在的部件数量、分类方法,都还没有统一。就像现在的音码,仅只双拼一种,由于韵母安排的不同,就可有多种方案。

1986年,全国进行汉字编码评测,评测的主要指标是输入速度。此后的几年内,国际和国内连继不断地进行各种汉字编码输入速度比赛。这些活动无疑促进了计算机应用的普及;但它也强化了“输入速度决定编码方案优劣”的错误观点。为了追求输入速度,许多人日以继夜地修改重码,为降低重码率,不惜损害汉字规范;有的人研制大容量词库,越大越好。这一人力物力大投入的结果却事与愿违。事实说明这次活动混淆了汉字编码与输入方法两个不同的概念。

混淆两个概念所造成的严重后果,一直未被有关部门和专家充分认识。因而使汉字编码的方法被作为一种“技术”授予了专利权;不规范的文字应用被当作“专利技术”,不允许别人批评和改进,而称之为“侵权”;专利纠纷不断出现,执法机关因无法可依而进退维谷;不规范的文字制品打着“专利技术”的旗号入侵中小学教育系统,危害文化教育事业;并引来了无数新码的“发明”而导致“编码污染”。令人担忧的现实是:某些不科学的编码方法(如五笔字型)并不因对汉字拆分的不规范受到批判而“日暮西山”;却是因跟着输入法,依靠宣传与组织的力量,配合有效的市场占领,正在进入基础教育的课堂,损害汉字的规律和规范。上述事实表明中文信息界的形势并不太好。

不正视经验教训,就会产生不该继续产生的“果实”。十几年来全国“发明”了上千个编码方案,如再“发明”下去,汉字的规律和规范就要被“发明”得荡然无存了。事实上汉字编码方案的设计,不是发明,不是技术,而是一门非常严谨的、严肃的设计科学。我们的工作不是继续鼓吹“百花齐放”,计划“取长补短”,集中专家攻关,再搞出一个集各家所长的新方案;而是应该认真地、系统地研究编码设计的原则、原理和方法,建立它的系统的基础理论体系。历史总是不停地在纠正错误中前进。

部件是编制编码方案的唯一的基本材料。认真地、系统地研究部件,给部件定性定量,是解决形码统一的关键。它的核心是定义。本文对部件定义、部件清单、编码方法,及部件类和部件的排序,提出了初步的意见;对部件系统的研究,向各家提供了一个研究的模式,希望以此作为进一步讨论的基础。随着计算机应用的深入,科学已经跨上了千里马。中国人要想驾驭这匹骏马,必须首先实现计算机中文应用的普及,而它的基础是汉字编码的设计。汉字编码是应用科学,经验告诉我们:不能也不应误过进入应用的关键时刻(尤其不应误过现在这个由专业应用正在向普及应用转换的时刻),否则,所有的研究,只不过是纸上谈兵,一点用处也没有。

部件清单的出现与完善,预示着汉字进入了一次汉字使用方法的大变革:一笔一画的整字使用变革为一键一部件类的使用。“拆字编码”使汉字使用发生了“裂变”,这次“裂变”将使它发出更高的“能量”。汉字的“裂变”,是键盘应用的需要造成的。键盘上只有这么几个键,我们却需要成千上万个汉字,不拆分,不使用部件,谁都没有办法。

汉字应用的变革,有纵向原因和横向原因。纵向是历史向前发展,文化知识普及和信息交换速度的要求;横向是信息应用工具的变革造成的可能。要求和可能的交叉点,就是文字变革的时间。可见,汉字变革的时机已经到来,我们切切不可彷徨犹豫,坐失良机。

 

一、部件研究的意义及回顾

 

清末,西方科学和文化潮水般涌入我国,出现了一批教育救国论者,他们认为,西方之所以强大是因为工业发达,工业之所以发达是因为科学发展,科学之所以发展是因为教育普及,教育之所以普及是因为他们用的是拼音文字。再三推理的结果,得出了中国之所以落后是因为汉字是一种落后的文字的结论。于是就把所有的怨气都发泄在汉字身上。这种认识上的偏差使我们在近一百多年来犯了一个大错误,即是企图以拼音化去改造汉字。如果拼音化真的成功了,一个直接的后果是:不会拼音的老一代都成了文盲,所有的文化记载就都成了“天书”,这就叫做文化断层。

现在,有的人则一反常态,认为汉字伟大得了不得,宣称“二十一世纪将是汉字的世纪”。汉字一字都不能动,拆分汉字就犯了“导向错误”;部首检索是天经地义。有人还认为部首,当然就是部件。那就不需要研究部件了!

大家都已经知道,即使终生使用拼音文字的西方人,也觉得他们的文字并不十全十美:拉丁字母是外来的,不是西方人自己的语素,这种文字无法完全反映他们的语言实际。所以,西方也有一些语言学家在呼吁改革。但问题在于语言文字的应用首在约定俗成,没有约定的东西叫得再响也没人理睬。

尽管拼音文字有众多的优点,但拼形汉字也同样有自己的优点。文字是用来表达意义的(即传递信息),不经常使用的词语,虽然能够读出来,人们却不懂它的意义。拼音文字五百年前的著作,非专家就读而不懂。而我们中国人,一二千年前的诗文,如“床前明月光,疑是地上霜”,连小孩子都能理解。当然,我们也不必过分夸大汉字的优点。汉字的多符性、无序性确实使汉字的信息应用成为难题。与拼音文字一样,有缺点,并不就是落后。如果我们能够使汉字带有一套直接、有序的符号系统,不仅解决了当前信息应用的要求,也解决了历史上遗留的直接排序问题;更有意思的是一百多年来,中国人迫切追求提高识字速度的梦想,能以此得到实现;同时能在基础教育中统一书写规范,消灭错别字、异体字,可以很方便地在计算机上使用。汉字拼音化的热心人并未发觉,拼音文字在计算机上使用方便并不因为它是拼音的,而有三个原因:其一,它的字形是“拼”出来的;其二,它是有序的;其三,它的“部件”是按线性排列的。因此,汉字只要有序性,按线性排列,能“拼”,也就能很方便地在计算机上使用。

计算机的应用,使信息交换的速度得到几倍以至几万倍地提高。中华民族正面临一个全新的信息化时代。这个即将到来的时代使汉字处于信息革命的中心,汉字实现一次自我完善的自我革命已成为历史的必然。

汉字自我革命、自我完善的目标是拥有一套直接的、有序的符号系统,使汉字实现直接排序检索。编码方案设计的发展,使我们看到了解决这个问题的曙光:把汉字拆分为部件,把部件分为几十个类别,每一个类别借用一个有序的键盘符号作为代码。汉字中的部件,虽然没有象拼音文字那样,字母排列有明显的线性,但汉字的书写笔画也可以认为是隐藏着线性的。利用部件笔画出现的先后就可以使它们排成线性形式。部件是随着字形编码的设计而出现的新概念,我们要使用它,就必须对它进行认真的探索和研究。

1983年,张普先生发表了《汉字部件分析的方法和理论》,总结了几十种编码方案,归纳出它们命名、部件数、部件归并方法、使用部件数量、编码方法等多种不同。张普先生的分析,说明编码方案的不统一,根子在部件。现在我们的教育部门要想统一编码,不应该寄希望于“选码”、寄希望于“规范”。实践证明:没有以科学为基础的“选码”和“规范”,都不会获得良好的效果。我们应该发动与开展汉字编码基础理论的研究与争鸣,以及它的方向、方法和部件的系统研究。

陈爱文先生在其《汉字编码的理论与实践》一书中一针见血地指出:“汉字编码的困难在哪里?——在部件的处理。”一语道破天机。所以,他设计出的表形码,才能突破字形编码的障碍,使设计走向成熟。汉字编码是一门刚形成并不断成熟的设计科学;作为这门设计科学的基础,它的唯一的基本材料——汉字部件的内涵及其外延,正在被逐步认识;解剖部件,分析编码方案的结构,才能真正揭露部件的应用规律。实践表明,只有在对部件规律形成共识的基础上,才能使编码学术界免除彷徨和疑惑。

 

二、部件的命名

 

陈爱文、陈朱鹤先生修改了表形码,拿出了一个新版本《表形码和电脑操作》,把编码的基本单元改称字根,据说是为了适合市场要求。是不是市场要求买“字根”而不愿意购“部件”?非也!市场要的是一种易学易记编码及其输入方法,而不管它称为“字根”或“部件”。五笔字型以其适天时和经营手段取得市场,而不是以“字根”的命名取得市场的。

汉字部件的命名始于字形编码。曾有许多专家探讨过,有人称部件为字根、字符、部首等,但许多人觉得称“部件”比较合适,不过没有统一,因为拿不出有说服力的理由。

命名的确切性是很重要的。汉字合形、音、义为一体。字音可以分解为元素——拼音字母,它们能够拼出所有汉字的读音。利用拼音输入,我们已经有了好多的方案。但拼音输入不能拼出汉字的字形,大量的同音字和同音词以及数万个罕用字无法使用,影响字音编码普及的广度和深度。随着计算机中文应用的逐步铺开,一个全社会、全范围统一使用汉字编码的前景已经明朗。字形编码的实践,证明了它的可行性。字形编码需要拆分汉字,需要得到形码方案的基本材料。这个基本材料,必须有比较准确的命名。名正才能言顺。于是,“部件”这一新概念的语词载体应运而生。

我们认为,“部件”这个命名之所以确切,是因为:

(一)   它指的是中间层次;

(二)   它指明是可拆卸的;

(三)   它表明是相对独立的;

(四)   它示意拆——拼应该是可逆的;

(五)   它摆脱了字义、字音整体性的干扰。

这五种属性,正是我们设计字形编码所需要的。王凤阳先生曾断言汉字不能适应机械化、信息化的要求,有趣的是我们却从机械学中把“部件”这个名称移植过来,使汉字适应了机械化、信息化的应用要求。

 

三、部件定义的设计

 

汉字形码方案的根本是部件的定义。不给部件下定义,汉字的拆分就会成为难题。如果我们认为任何人不能也无权随意拆分汉字,就应该首先统一部件的定义。

张普先生很明确地指出:“汉字部件的拆--拼过程,就是分解--合成的过程,汉字部件的拆字法就是汉字造字法的逆顺序。”问题在于汉字该如何拆,如何拼。陈代于先生说:“汉字部件的定义规定的是汉字中什么地方不能拆开。实际上,部件定义和汉字拆分规则是同一个问题的正反面。定义了什么地方不拆,就等于定义了什么地方要拆。”这些话的共同含义是:汉字拆分的前提是部件的定义。

汉字字形编码方案的设计是一门新出现的设计科学,对它的基础理论,学术界未作深入和有权威的探讨。有的专家认为每个形码方案的设计人,都有自己的部件定义。即认为大家都可以按自己的思想给部件下定义,或者认为现在给部件下定义是多余之举。这种思想,实质是否认部件的客观性(它导致部件产生可以“因人而异”的设计思想)。有的专家认为单个笔画不能算部件。在新华字典里,单个笔画如横、竖、撇、折、点,都可算部首;在汉字集中,单个笔画如一、乙也可以作汉字。所以,认为单个笔画不能作部件,不符合汉字结构的实际。诚然,由两个以上笔画构成的部件占部件总量的绝大部分,但我们也不应忽视一个笔画构成的这小部分。有的专家认为拼字量多的才能算部件。拼几个才算多?没有标准!“民”,可以分为两个部件“”,拼字量很低,使用频度很高,算不算部件?“拜”的右半部“”,是一个很明显该分离出来的部分,构字频度、使用频度都很低,算不算部件?如果不算,怎么办?部件,是汉字的一部分。汉字中拆出的各个部分,都可以称为部件。一个汉字集中的汉字,要拆出一张部件清单;这张清单中的所有部件,可以拼合这个汉字集的所有汉字。

部件是设计形码方案的基本材料,如果不能定性定量,设计就无据可依。部件的定义,就是定性;部件清单,就是定量。给部件定义是迈出科学地设计编码方案的第一步。

提供一个汉字字符集的汉字部件清单,记住这张清单中的几百个部件和每个部件类的代码,我们就会知道任何一个汉字的代码,就可以避免逐个拆分时的二义性,和逐个记忆的不便。有人认为记住几百个部件不易,不如主观挑选一些使用频度高的,作为设计编码方案的基本单元,以降低识记材料的数量。我们认为不能以牺牲部件定义的科学性来解决这个问题,而应该从科学的分类上展开思路。几百个部件如果是逐个记忆,当然很困难。但如能将它们构建为互相关联的分类系统,利用系统记忆,引起联想,一类带出一类,一个带出一个,记忆量就会大幅度下降。

并不是每个方案的设计者都可随意给部件下定义的,拆分汉字、部件定量、部件分类,都制约部件定义的产生。因此,这个定义,不是文字学的,而是汉字字形编码设计学的。设计示意图如右:

右图表明给部件定义的要求:要导引出拆分的原则,定位(定量的依据)的界限和分类的方法。这三者必须制约部件定义的制订。该图还表明:拆分、定量、分类,三者构成了一个以拆分决定定量,以定量完善分类,以分类制约拆分的系统结构。

说明白一点:没有拆分,有多少部件就不能确定(即定量);没有定量,就不能进行分类;没有分类,就不能制约拆分。这是一个相互资助,相互制约的循环图。拆分、定量、分类,这三者既生于定义,又制约定义的产生。

通过这个设计图,我们就可以“按图索骥”,根据上图给部件下定义。

 

四、部件定义

 

根据上节分析,我们把部件定义为:拼构汉字的基本单元;汉字中、相对独立的、可分离的笔画结构块或基本笔画称为部件。上述定义可见部件的本质属性有二:一是相对独立性;二是可分离性。相对独立性又受制于笔画结构。现在,我们根据设计要求,对照定义进行验收。图示如右:

右图说明,部件定义所包含的拆分、定量、分类都已经产生,并形成了一个相互制约的系统。该定义已经实现设计要求。

(一)可分离性。可分离性是部件的动态属性:部件与部件之间因拼合汉字而产生间隙,这种间隙就是拆分的依据。

间隙可以分为显性间隙和隐性间隙。

显性间隙是指:部件与部件之间,有明显的可以一目了然地看出来的间隔。

隐性间隙所指有六:

1)两个不同的成字部件之间,如“古”的“十、口”之间;

2)两个笔画走向不同的笔画结构块之间,如“示”的“二、小”之间;

3)两个不同的笔画结构块之间,如“早”的“曰(包围)、十(交叉)”之间;

4)一个成字部件与另一个笔画结构块之间,如“占”的“、口”之间;

5)一个撇笔与一个笔画结构块之间,如“自、千”的“丿”(撇笔)与“目、十”之间;

6)与“戈”字类的横笔相接或相交,如“戢、我”。这里事实是分开的两个部件,但它们的笔画走势和位置在同一条线上,为了书写(或刻字)方便,连在一起了,现在我们需要拆分它们,必须恢复它们原来的面貌。

这里成字部件是指含有字义的部件,如“大、木、口、日”等。笔画走向是指笔画书写的方向,就是自上向下、自左向右。

(二)相对独立性。相对独立性是部件的静态属性:它既维护了基本笔画结构块不再被继续拆分为单个笔画;又保证了符合条件的单个笔画作为部件的“合法地位”。

笔画结构块是指笔画之间构成最基本的结构关系,它可以分为三种基本类型和两种特殊类型:

(1)       笔画与笔画相离,称相离型;

(2)       笔画与笔画相交,称相交型;

(3)       笔画与笔画相接,称相接型;

(4)       笔画与笔画相接后形成包围,称包围型;

(5)       两种基本笔画结构混合构成的,以某种基本特征为架子的结构关系,称字架型。

字架的条件是每一个小类都以一个共同的特征为架子,然后增加笔画或改变笔形,形成的类别。

“块”是指由两个或两个以上笔画为基本结构构成的部件。在汉字中,它是可分离的;对汉字中的其他部件来说,它是相对独立的。

笔画与笔画因构造部件产生的间隔称为结构关系。结构关系具有内聚性,是制约拆分的依据。为了防止将部件(基本笔画结构块)拆到笔画一级,必须确认:基本笔画结构不能拆分的原则,因为,它们是相对独立的。

 

五、部件定义的补充解释

 

如果部件只有可分离性,拆分必定要拆到笔画,正因为如此,有的人才会认为汉字的基本单元是笔画,只有笔画,才不能再拆下去了。这是它的动态属性所决定的。可是,汉字检索和计算机的应用的实践告诉我们,在汉字与笔画之间,还应该有一个中间层次——部件。缺了这个层次,不宜应用。这个中间层次,必须是相对独立的。只有相对独立,才能制约它的可分离性。因此,相对独立是它的静态属性。

然而,相对独立的概念,还是模糊的。这是指它的笔画结构块和基本笔画。陈爱文先生说:“部件是一个‘笔画结构块’那么它应该有两个以上笔画,而且应该形成块状”。“一、相交叉的笔画是一个结构块。二、相粘连的笔画,一般属于一个结构块。三、布局匀称的相分离的笔画是一个结构块。四、封闭框内部的笔画如果跟外框是粘连的,则合起来算一个结构块。框内的点笔一般附属于外框。五、单独的点笔一般附属于它附近的结构块。”这里的解释已基本清楚。

例如“艾”,这是两个相交叉的笔画结构块;“从”,这是两个相粘连的笔画结构块;“泣”,这是两个相分离的笔画结构块;“昌”,这是两个包围状的笔画结构块。两个块既可很方便地分离开来,又是相对独立的。所谓相对独立,有一个意思就是它保持自己的完整,让我们一眼看出来。例如“泣”,左边是“氵”,右边是“立”,两边都可以独立组字。又如“旦”,“曰”和一个横笔。“曰”是独立的“块”,“一”这个横笔怎么办?明明一眼看出是相对独立的,不称它为部件,就无法解决。

有明显间隙的部件,可以一目了然地看出来。对那些没有明显间隙的、连在一起构字的部件,我们提出隐性间隙的概念。隐性间隙也符合认知心理。我们在认字的过程中,先都是接触一些笔画结构简单的字。这些字,有的自己就是一个“结构块”,例如“十”(交叉结构)、“口”(包围结构)。它们拼起来是个“古”字,虽然粘在一起,但拆分它在心理上是能够接受的;再如“二”与“小”,拼成“示”,这是两种不同的笔画走势,拆分开来,也可以接受。如果拆为“一、丁、”,心理上反而是不容易接受的。正因为这样,张普先生才认为“相离应该优于相接”。

“相离优于相接”的拆分原则,用于“辛”,很容易接受,而用于“亍、亏、产”,却有困难,影响直观原则,心理上有障碍。这是什么道理?北京计算机学院的徐劳力副教授有一个很好的量化计算方法:成字部件=3;笔块部件=2;单笔部件=1。“辛”,拆为“立、十”,两个都是成字部件,合起来计数为6;拆为“、干”,只能是5。“亍、亏、产”,如拆为“一、丁”,“一、”,“、厂”,比拆为“二、亅”,“二、”,“立、丿”,计数大,故心理上容易接受。因为,在我们的认知心理中,对汉字拆分为部件的接受,成字部件>多笔部件>单笔部件。在汉字中,“一”是特殊的。它身兼“三职”,既是汉字,又是部件,又是笔画。运用以上计数方法的时候,“一”必须在单独处于分离状态的时候才能作为成字部件。

运用定义拆分汉字,不要受定义的束缚,例如有的人认为“”应该算一个“块”,因为,这是从“止”演变过来的,它代表人的脚。如果这么讲,“虎”变成了“七、几”也不能拆分为三个“块”了;“邑”只能作为“阝”,也不能拆开了。我们离开字义对拆分的干扰,必须把它们看成为在现在的情况下,都是一些笔画结构符号。把汉字拆分为部件,要符合当前的认知心理,这是最重要的。为什么要说“当前的”?例如“足”,上面的“口”和下面的“(人的变体)”都应算成字部件,那么,把当中的“”拆出来,也就容易接受。

运用定义分解汉字,个别地方会有一些困难,例如“习”还可以再拆为“、冫”,“”还可以拆为“”,这些东西,拆,还是不拆?有的人借此强调汉字的拆分没有规律,就可以任意,这不是道理。因为,这些是汉字中极个别的,而且,可以根据利弊关系进行评估,再确定拆还是不拆。

 

六、部件清单

 

清代文字学家王筠先生说:“人之不识字也,病于不可分。苟能分一字为数字,则点画必不可缺,易学而难忘矣!”这是一个文字学家追求汉字规范和易学的梦想。计算机中中文应用的客观要求,汉字编码设计的发展,许多编码专家的日夜努力,已经可以使这个梦想变成现实。

在这里我们还必须再次强调部件定义的重要性和必要性,没有它,就没有拆分的界限和分类的整体体系。表形码之所以能够得到突破,就是它有一个科学的部件定义,并以此为据整理出一张部件清单和以笔画结构为基础的整体分类系统。陈代于先生说:“掌握了定义的用户即使从未见过部件总清单,也能鉴别其中的大多数部件,避免了对部件的死记硬背。这种特点叫作‘部件的可预知性。’”笔者和蒋文钦副教授对表形码的386个部件清单进行了一次清理,把部件总数压缩为368个(现再合并为352个),并为教学方便,将五个笔画结构类型试分为七个。下附汉字部件清单

在以上清单中,还有几个有争议的部件,如“”,要不要拆为“、乂”?“立”,要不要拆为“一”?拆掉之后的好处是部件总数减少了;坏处是“块感”消失了。在这里组字频度、使用频度也可以起一些作用。再如“纟”,这个部件,下面有一个分离的提笔,拆,还是不拆?笔者认为,这份清单只提供一个基础,个别部件的处理,可认全国专家公开讨论、定夺。

这张部件清单,只有352个,比“文改会”所制定的648个,不仅压缩了十分之四强,还提供了一个整体的分类系统,使类与类、部件与部件,都能构成密切的联系。本清单中的部件,除个别部件需要讨论外,都按部件定义的属性进行证明,说明将它列在清单中的合格性(具体说明在第十一节)。清单分为七个型,每个型有68个类,都依据一定的排序方法排序;每个类中的部件,也依笔形变化进行排序(具体说明在第十四节)。每个类中的代码,都依据其总体特征,采用以形为主、以音为辅的映射(对应)方法。

通过这张清单,我们能更加理解:汉字编码根本不是技术,而是规则和方法。清单中的部件、分类系统、代码方法和具体代码,都有可讨论的地方。不同的分类和代码,又会引出新的编码方案。国家语委和教委要想统一汉字编码,必须从根里做起,即首先统一部件的定义,然后统一部件清单,在这个基础上就可以具体讨论分类和代码。至于输入法,让软件高手评一个出来,或让各个研制汉字系统的公司自己装上就是。因为,每个汉字工作系统,都已留有一定的空间,输入法的程序编制,并不是很困难的事。

 

七、部件的分类

 

我们认真思考一下编码方案的设计,就可以发现所有形码方案的部件分类和编码方法纠缠在一起几乎无法分清。王永民、郑易里先生用笔画给部件分类的同时,已经在给部件(字根)编代码了;所有的形音码在用音给部件(部首、独体字)编代码时,也就在给部件分类了。只有钱伟长先生论述了人们对汉字的轮廓认知心理,编制出他的宏观码后,我们就可发现部件的分类和编代码(即映射)能够分为两个相对独立的部分。这是汉字字形编码的一次关键性的转折。部件用形象特征分类后,设计者可以比较自由地选择适当的代码。因此,今后我们也就可以自由地讨论选择那一种映射方法最科学。

可以这么认为,在分类方法上,陈爱文先生树起了部件分类的第二个里程碑。他认真地分析“笔画结构块”,提出了五个基本笔画结构型和一张天然部件清单。笔画结构块=部件,这个公式,取代了主观选择,部件总数从648,一下子降到380多个,无疑是一次飞跃。

分类和集合是一个问题的两个方面。对部件清单来说,几百个部件,用什么方法分为几十个有序的类别;集合是用什么方法使一个键符聚集一定数量的部件。

几百个部件,不容易直接分配到键符上去,只能分为两个层次。五笔字型先分区(即第一层次),后分位(即第二层次)。郑码(郑易里)则单用“区”,不再用“位”。分类是为了离散部件,也可以说是使部件按照一定的客观规则集合。用始笔笔形离散(集合)部件纯属主观愿望。因为,汉字的书写都是从左至右、从上至下的。部件的始笔以横居多,以竖为次,折笔甚少。分类不均匀,就无法再分下去。例如五笔字型,头两笔为“横、竖”,“竖、折”,“撇、折”的特别多。头两笔为“横、捺”,“捺、竖”,“捺、撇”的没有。这些“位”,就成了空位。郑码知道这个“位”,并不好利用,就只用始笔。用笔形将字根(即部件)分为六类,分别集合后,再分为小类。郑码的26个码中,始横笔类就占八个码元。不用第二个笔画定位,实际就成了无理安排。也就是说,主观因素起主要作用。

朱邦复先生将部件分为哲理类、笔画类、人身类、字形类,也是自己主观设定,没有任何依据。因此,这些分类方法,无法使汉字部件形成一个整体的、相互关联的体系。汉字字符集是整体系统。汉字的部件系统,也应该是整体系统。部件分类体系的整体性,也当然是客观存在的,它存在于部件的定义之中。

生之道,本于阴阳。“生”,就是“存在”。“阴阳”,就是对立面的相互依存。“拆分”之生,生于“分类”。“拆分”之制,制于“分类”。如果部件的定义,只有拆分界限,没有分类的方法,这个定义就不能存在。

利用笔画结构对部件进行分型、分类,不仅使部件能构成一个整体体系,而且能囊括所有未曾收集起来的汉字部件。国标二级汉字只有6763个,在这个汉字库外还有十倍于此的字没有收集起来,不建立一个客观的、整体的分类体系,我们就没有办法实现全部汉字信息化。从以上的部件清单中,我们可以了解这个分类系统,虽然还未收入的汉字部件,但不管它们是什么样子的,只要是从汉字中拆分出来的,它们都逃不出这七个笔画结构构成的类型,不会出现容纳不了的特征类,今后只要对号入座就可以了。

 

八、汉字拆分规则

 

根据部件定义,我们列出部件清单,并对部件作出系统分类;上述分类清单归纳出汉字拆分的三条原则:

(一)间隙拆分:汉字中的部件与部件因具有相对独立的属性,故相互间存在间隙,可依据这些间隙,将汉字拆分为部件。

(二)基本笔画结构不拆:基本笔画结构指由两个以上笔画,按基本笔画结构构成的部件不能拆分。例如相离型、相交型、包围型、字架型的这些部件不能拆分。

(三)部件不拆:指已经列入部件清单中的部件不能拆分。

六条规则:

(一)相离不拆,成字优先,多笔优先;

(二)相交不拆,“内、两、臾、鹤”例外,长点相交例外(啄、斥);

(三)附在部件上的撇笔一律拆开,包括(“必、者、龙”),由撇笔组成的部件不拆;

(四)“戈”字类部件,其横笔向左伸长,上下有其他笔画相接或相交者,该横笔一律左右两用;

(五)形成包围不拆。包围框内的粘连笔画不拆。粘连于包围框外的笔画结构块或基本笔画要拆掉;包围框内的单独点笔不拆,“叉”字例外;

(六)形成字架不拆;中间一坚,两头有单个横笔挡住的一律不拆,“丕、蚩”例外。

以上六条拆分规则,只有点笔,仍存欠缺。因点笔组字和撇笔一样,比其他笔画活跃,如在相离型中,点笔可以单独组成部件;“宀”和“冖”都名称宝盖;而“尸、户”“大、犬、太”不拆分就会增加麻烦。不过,这点欠缺对汉字的拆分来说,已无碍大局了。

 

九、汉字拆分分析

     

汉字的拆分牵涉到汉字的结构体系,本身是很严谨的工作。可是,有编码设计者竟然认为,为了使键盘打出汉字,可以不顾汉字的规范,只要编码需要,就可“削足适履”。他们把“不”拆为“一、小”,“东”拆为“七、小”,“民”拆为“巳、七”……,这种做法,引起许多文字教育工作者的不满,从而使人误解“拆字编码”,以为只要拆字,就会损害汉字规范,因此反对一切“拆字编码”。我们认为,拆字是为了得到部件。那么部件是什么,有多大,做什么用,在汉字中如何划分,必须事先有个交代,否则,谁也无法实现正确的拆分。这就要求部件必须有定义,设计者必须根据部件的定义确定汉字的拆分,得到部件清单。本文第四节已经交代了部件的定义,又在第六节交代了部件清单,根据清单归纳出拆分规则,以便对拆分活动进行一次全面的分析。这种分析可以使我们认识上述的定义、清单、规则等工作做得准确与否。

第一步是对每个汉字的部件数的统计。根据上面的清单,国标一级字库3755个汉字,有:

单部件字111           2956%

二部件字629           16751%

三部件字1249          33262%

四部件字1068          28442%

五部件字489           13023%

六部件字160           4261%

七部件字49            1039%

八部件字8             0213%

九部件字2             0053%

一级字库3755个字,除掉111个单部件字,有3644个多部件字。但二、三、四、五部件字,就有3435个字,占9148%。即是说,拼形字母系统以四键出字,基本可以反映出全部字形信息。六、七、八、九部件字以四键取码,要略掉一部件分部件,但所占比例已很有限了。

这个统计说明把相对独立的笔画结构块作为汉字的基本单元(部件)是最合适的。因为,根据各个方案出字键数的统计,绝大多数方案选择四键出字。(从电报码开始,我们就确定四键出字。因为,尽管汉字总数有五六万个,但流通使用字种只有四五千个,不会超过四位数,)这说明四键出字是汉字输入最佳的选择;部件的大小,也当然有个最合适的选择,它的选择标准是能否最准确地反映最多的字形信息。因为,汉字以其字形反映信息。在部件出现之前,许多笔形编码已经出来了。笔形编码按笔顺分解汉字,可使汉字代码很方便地构成线性排列。但是,笔形编码却无法反映字形的结构信息,在使用中信息损耗过多,才有了部件编码的研制。

有的人也许认为汉字集扩大了,为了避免重码,减少信息损耗,要五键出字才对。其实不然。因为,汉字集扩大,用五键出字,可以减少重码,但不能提高工作效率。常用字还是那个使用频度,不会因汉字集的扩大而降低。汉字集增大,字数增加,只能增加重码率,与输入速度无关。(具体说明请看本文十三节重码分析)

部件数在握,以拆分分析作为反证,能够使我们更加理解汉字是“拼形文字”这个新概念,同时也可以加深理解部件的定义及它的重要意义。汉字编码的统一,首先在部件定义的统一。

用部件清单对照每个字,就可知道它该如何拆分。例如“冂、人”,拼起来是“贝”,见到“页”,虽然“”和“贝”相接在一起但我们也知道它该拆为“、冂、人”。

一级字库的二部件字有629个,二部件以上的字,大都是这些字的叠加,因此,分析二部件字,如解剖麻雀,即见一斑。

第二步分析只含有两个部件的字(即二部件字)。大多数的二部件字,两个部件之间,有明显的分隔沟,在我们部件的定义中,把这个分隔沟称为显性间隙,已见前述。用显性间隙拆分汉字是最符合认知心理。629个二部件字中,含显性间隙的有546个,占86.8%。显性间隙所占的比例这么多,说明间隙拆分的原则没有错。说明从字形的角度研究汉字,提出“拼形汉字”这一概念的合理性和客观性。(有的字不是用拼形的方法造出来的,例如“鹿”,古代的  ,到隶书,“鹿”才成为现在这个样子,有了四个块。这是“裂变”。“裂变”给汉字带来了一些没有字义的部件,也可以认为是没有字义的造字材料。

有少数两个部件相接在一起,没有明显的间隙,但从认知心理上说,可以拆分。含隐性间隙的二部件字有82个,占13.04%,其中:

根据“单独撇笔要拆开”的原则,亦即撇笔与笔画结构块相接处含有隐性间隙的有25个,占3.97%

乡、血、牙、禹、垂、重、毛、牛、丘、千、壬、升、失、手、禾、白、币、必、秉、才、自、朱、舟、生、矢

相离型部件,因笔画走势不同与其他笔画相接的有19个,占3.02%

亡、文、亦、玄、市、方、示、辛、云、当、赤、兄、勿、步、匹、业、韭、允、元

包围框外的笔画结构或笔画相接的有13个,占2.07%

占、县、卢、吊、虽、男、民、面、白、皮、久、尺、直

两个不同的笔画结构块相接的有12个,占1.91%

歪、用、甩、击、出、午、乍、斤、氏、去、年、农

与点笔相接的有2个,占0.32%

太、专

“戈”字横笔左右相连有1个,占0.16%

属于可移动性的2个,占0.32%

已、己

单个横笔与笔画结构块相接的有7个,占1.11%

天、开、万、无、卫、更、歹

只有一个“巴”无法拆分。占0.16%。“巴”要不要拆分为“”,大家可以讨论,在表形码和汉字拼形字母的部件表中,已经拆开。由“巴”组成的字,有:把、色、笆、耙、杷、爸、艳、粑、疤、爬、靶。认为不拆为佳的理由是:它是一个包围结构,根据“形成包围不拆”的规定,就不应拆开;它在汉字中一直是相对独立的,没有办法从别的汉字上证明“”与“乚”曾经分开过。认为拆开为佳的理由是:(一)把“巴”拆为“、乚”形象与英文字母相似,有利记忆代码;(二)所组的字都不超过5个部件,拆分开来有利拉长码元,减少重码;(三)它与“己、巳、已”相似,这三字可拆,“巴”字亦可依此处理。

通过以上分析,我们就可以知道87%的字可以一目了然地拆开的,其余的字需要通过几条简单的规则进行拆分,只有个别的字是需要讨论的。例如“丐”,作为一个部件呢,还是拆分为“”?这样的字极少,只要来个统一规定就行了。我们在这里只分析了含两部件字,只要这一部分解决好,三部件以上的字,都不过是它们的叠加,拆分就不会再有困难。

有的人说汉字是形意字,有的人说汉字是形声字,现在又提一个拼形文字的新概念,觉得接受不了。汉字是含形、音、义为一体的文字,讲它是形声字,侧重于音;讲它是形意字,侧重在意;讲它是拼形文字,侧重在形。它们从三种不同角度描述了汉字的本质和特有规律,并不相互排斥。过去之所以没有拼形文字的概念,是由于过去我们没有字形编码的需要。现在我们有了这个新需要,出现新的命名和新的概念当然顺理成章。

从上面的分析中可以看出陈爱文先生对汉字拆分的贡献,他率先提出“单独的撇笔的一律拆开”规则和“戈”字架的处理,无疑解决了汉字拆分中的重大难题。撇笔在构字中是很活跃的笔画。有许多基本结构,如“十、(交叉结构)、曰、目(包围结构)、、夫(字架结构)”,加上撇笔,就成为“千、牛、白、自、生、失”等,影响归类,拆掉撇笔,它们归类就方便了。一个规则,能减少许多部件,从而大大降低学习时的记忆量,说明这正是我们要寻找的字形规律。

“戈”作为形旁,拼字时都在右侧,有明显分隔沟的合体字不多,如“戏、式、戒、甙、线、忒、武”,但如“载、栽、成、臧、戍、感……”等,其横笔常左右连在一起,造成拆分的困难。陈爱文先生提出:“凡‘戈’字架类,其横笔向左伸长,上下有其他笔画,一律从中断开”。这个规定,虽不十分完善,但无疑已经为难题的解决打开了突破口。说它不完善是因为还有一些字也向左伸长,但上下无其他笔画,如“式、戒、忒”等,拆分后就要无缘无故地增加一个笔画,不合情理,会有一些别扭。因此,笔者将它改为“凡‘戈’字架类,其横笔向左伸长,上下有其他笔画相接或相交的,一律一笔两用。”此类字本只有两个部件,就不会变成三个部件了。

单个横笔如是在某个结构块顶上或底下的,因笔画走势关系,最容易相接在一起,只能将它按笔画走势拆开。

汉字字形编码的部件清单,之所以能够从“优选”的主观窠臼里摆脱出来,实现客观的拆分,主要是钱伟长、陈爱文两位先生的贡献。(二部件字拆分规律分析见本书79页《汉字易拆易证》)

 

十、拆分与取码

 

拆分和取码是两个不同的概念,可是许多编码的设计者把它们混淆了。我们可以分析支秉彝先生的见字识码里的拆分规则:

1.一个汉字尽可能依其拓扑结构拆成四个字符组成的字符串。例如‘惆’——忄、冂、土、口。如果只能拆成三个字符,则将其最后一笔作为第四个字符。例如‘待’——彳、土、寸、丶。如果只能拆成两个字符,则除最后一笔作为第三字符外,再将其字本身作为第四字符。

2.一个汉字的某一字符,若是四笔或少于四笔不再拆开。如‘大’作为字符不能拆分,但作为单字仍须拆分。

3.前一字符与后一笔画若能连续以形成另一字符,则必须连下去,直至四笔或自然断开为止。如‘示’必须拆为‘亍、八’不能拆为‘二、小’。

4.多于四个字符的字,用‘前并后拆’的方法,检取四个字符。例如,‘禀’——亠、回、亍、八。其中‘回’便是两口相并的。”

这些规定的实质是取码规则而不是拆分规则。

关于汉字的拆分,陈爱文先生的贡献是无与伦比的。他提出的:单独撇笔拆开,“戈”字结构和对称笔块部件类的处理等,都可以说是经得起推敲的拆分规则。但是,他提出的“天然部件”和“人工部件”两个概念,想以此说明拆分与取码的不同,却也存在概念上的混淆:“天然部件反映汉字字形结构的客观规律。人工部件体现一种编码的主观安排。天然部件是人工部件的基础。”在表形码中的“组合部件”,就是陈爱文先生所说的人工部件。笔者认为,部件就应该是客观存在的,不要再来一个人工部件,把主观因素强加进去。

有的部件,虽然总是和别的部件粘在一起,例如“己、已、巳”,把它们拆开,分为“”和“乚”,为什么心理上也会接受?因为,“”和“乚”之间,利用移动分为三个不同的字,这叫做可移动性。

张普先生认为“分析汉字的部件,首先要制定严格的汉字切分原则,从理论上说这原则应能使任何人对任何汉字的切法都是唯一的,但事实上做不到。由于汉字字种太多,结构复杂,无论怎样确定切分原则,都有一些字会产生例外。”张先生没有想到的是:部件没有定义,拆分原则只是一种梦想。汉字的拆分原则,是从部件的定义中引伸出来的。而且,在我们根据部件的定义,得到汉字的部件清单之后,必须先进行分类,才能制定拆分规则。陈爱文先生在拆取“天然部件”后的第一项工作是建立部件的分类系统,尚没有整理出拆分规则。后来才慢慢地从部件清单中整理出拆分规则来。因为,拆分规则无法凭空想出来的。然后再用拆分规则清理全部部件,使之条理化以便于应用。

取码,就好像拿东西,可以任意,要多少,拿多少;拆分,就不可任意,要使所有的汉字都能拆掉。某些汉字看起来很好拆分,但要拆掉一个字符集的所有汉字,却并不容易。有人认为相离应该优于相接;有人认为相接应该优于相离。但是,在具体执行中,都有一些问题。拆分,有一个重要的原则是:要符合人们的认知心理。即要考虑学习者心理上的可接受性。

有的人不理解汉字的拆分来自定义,朝思暮想寻找拆分规则,不知道有了定义就可实现拆分。他们更想到:拆分必须制约。如果拆分没有制约,“部件”就会变成了“零件”(笔画)。

有的部件,例如“亠”,在“享、高、亭”等字中,可以一目了然地看出来,我们可以称它为部件。据此把“文、亡”等字中拆为“亠、乂”和“亠、”,就容易被人们接受了。

有的字,像“象”,上面的“⺈”,拆出来没有问题。但下面的“块”也是连在一起的,组字频率很低,没有办法从别的字里得到证明,要不要拆?我们可以认为,中间的“”,一个撇笔由里至外,交叉在包围框上,是一个包围结构。包围结构有很强的稳固性,不能拆分。下面的“”是粘连结构,两个不同的基本结构,不能算一个部件,因此必须拆开。

单独的撇笔为什么要拆开?撇笔往往以其笔尖或笔中,粘连于基本笔画结构的顶端或左上角,或以其上端粘连于左下边。拆掉撇笔,有利基本笔画结构的完整性,也有利降低部件的总数量。

很多语言学家不理解拆分的目的,他们希望尽可能地保留原字形,那么拆分岂不成了多余之举?这就是字义的整体性在阻挠拆分。汉字拆分的目的是有利于采用代码的排列组合使众多的汉字得到区别。如果汉字都保留原字形,那还要什么拆分?既然说是把汉字拆分为部件,那就不是原字形,而是有别于原字形的两个以上的部件。所以,能拆分的就必须尽量拆分。有人觉得拆掉撇笔的“”作为部件实在碍眼,甚至连“禾、朱”拆为“丿、木”和“丿、未”都有意见。他们就是没有想到,如果都不拆,那么如何使用代码使它们得到区别?这实际是一种保守思想在作怪。

多数以“戈”字类为偏旁的字,一个横笔把左右两个结构连在一起,弄得许多字“左右为难”,如“我、戢、成、臧”等,只有左右两用,才能解决,不必一个个说明。

笔者初步整理过表形码的部件清单,认为组合部件是人为的,取消了全部组合部件,增加了“”和“”两个部件。根据表形码的编码方法,“殷”的左边,要拆为“丿、彐、”,它符合“多笔优先”的规则。但它与“形成包围不拆”的规则抵触。如果把上面的撇笔先拆开,虽然增加一个部件,“彐”与第二个撇笔,有三点相接,形成了一个全封闭的左笔下垂形的包围框“”,也应该说是很稳固的,既符合“单独的撇笔一律拆开”原则,也符合“形成包围不拆”的规定。表形码把“”,拆为“、二”,我们无法从任何地方证明“”下面的两个短横,有相对的独立性。就应用的角度来讲,“”只有在诸如“假、遐、暇”等几个字中用到。它们永远粘在一起,我们把这些字很容易分为四个部件,把它们分为五个部件是违反认知心理的。

不过,汉字并不像我们所说的那么简单,根据定义拆分汉字,只能得到百分之九十五以上的部件,还有一些,要根据应用的需要,个别研究,才能确定下来。例如“内、两、臾、鹤、在、丑、丐、沔”等。我们说应用的需要,有三个原则:一不能破坏汉字部件的结构规律;二要尽可能地降低记忆量。三、要适合现代应用。

 

十一、部件清单中每个部件的证明

 

我们曾经论述过汉字的拆分是汉字造字法的逆顺序。汉字的拆分使国际二级汉字库6763个汉字获得了一张含有368个部件的清单。但是,这张部件清单中的每个部件产生和存在的合理性必须得到证明,据此清单才能确立。

按部件的两种属性,一个一个地证明部件的合理性,可以更好地完善部件清单,不使部件的产生和存在有个人主观成分,有利于学习和记忆。那么如何证明部件产生和存在的合理性呢?

笔者认为部件在拼构汉字时,确实存在着显性间隙,同时,它又可以划归某种基本笔画结构类型。这是一种直接证明的方法。下面我们将对上一节提出的清单予以证明。

在表形码中,有一个“”的部件,它是从“既”的右边的“”拆出顶上的一横而成的。我们审查过所有汉字,例如“既、暨、簪、谮、僭……”等,都没有发现“”可以“相对独立”存在。即它与顶上的一横,都是连在一起,从来没有分开过。这样,学习者心理上就不容易接受。何况,除了这个“既”字可以因拆开而增加区别率以外,其他的字,却因拆开而受到信息损耗,即每个字都超过四个部件而需要在取码时去掉一些部件。即是说,这么样拆分,不仅影响认知,而且还增加信息损耗,毫无好处。因此,这个部件,就应该恢复顶上原来的横笔。有的人认为,这类字架,像“无”也可以把顶上的横笔拆出来,为什么“”不能拆?我认为,因为“无”字下面的“尢”,在“尤、优……”等字中随时可以见到,心理上较易接受。

笔者查阅了很多形码方案,凡是使用“块”(字根、部件等)作为编码方案基本单元的,都是采用显性间隙拆分的。显性间隙可以一目了然地看出来,最容易证明部件产生的合理性,它符合人们的认知心理。有许多部件拼构汉字,有时有显性间隙,有时却与别的部件粘连在一起。隐性间隙的存在并不奇怪。这是汉字结构利用空间的需要。例如“口”和“十”,当它们左右相拼的时候,成为“叶”,间隙是明显的;当它们上下相拼的时候,成为“古”,间隙就不见了。“口”和“十”都是有字义的;都是不同的笔画结构块;有不同的笔画走势。汉字拆分的麻烦,主要来自其相接的隐性间隙。只要我们先“过滤”一批有显性间隙的部件,用它们的显性间隙来证明它们的隐性间隙。余下一批带有隐性间隙的部件,用它们的显性间隙来证明它们的隐性间隙。余下一批带有隐性间隙的部件,工作就省力多了。

根据上述思想,我们这个证明工作分为三步:

第一步,把成字部件和新华字典中的部首(指两个笔画以上的“块”)先行“过滤”。根据笔者研究,这些成字部件和部首,都是有显性间隙的,在拆分时最符合认知心理。这些部件只要一张清单就可以。

成字部件(125个)

一、乙、二、八、三、川、小、火、心、六、立、北、兆、非、主、十、力、九、廿、甘、世、卅、册、中、丰、韦、申、事、串、聿、西、酉、井、曲、弗、匕、七、乜、也、屯、电、车、弋、戈、戋、曳、子、孑、孓、口、凹、凸、日、曰、目、耳、且、四、皿、田、毋、母、尸、尹、又、及、女、瓦、臼、门、刀、乃、山、巾、习、夕、巨、臣、月、丹、冉、人、入、了、幺、弓、片、丬、豕、厂、广、大、夫、夷、央、丈、史、吏、木、末、未、本、耒、束、果、柬、儿、几、虫、禺、丁、不、干、于、甲、上、止、士、土、由、工、正、王、五、里

部首(44个):

丷、冫、刂、彡、氵、巛、⺌、灬、⺗、爫、讠、亠、礻、衤、艹、廾、肀、扌、覀、罒、囗、卩、阝、夂、攵、凵、匚、冂、冖、宀、⺈、、勹、彐、、犭、疒、廴、辶、尢、几、忄、亻、纟

 

第二步,有许多非字部件,由于拼字量不高,或因它们构字时位于汉字的中间,没有被选为部首,但它们也带有明显的间隙,可以一目了然地看出来,在拆分时也很容易认知。这些部件需要举出一些字例来证明,有的部件,如“”,它在“假”字中,有明显间隙,得到了证明,我们把“已”字拆为“、乚”,在心理上就容易接受。假设没有办法证明“”在汉字中是相对独立的、有明显间隙的,如果我们把己、已、巳”加以拆分,心理上就不容易接受。

有明显间隙的部件(149个):

 

最后一步是余下的一批带有隐性间隙的部件50个。证明这一批部件的方法可以用下面的表格。存在间隙的理由分为:(1)单独撇笔拆开;(2)不同的笔画走势;(3)与成字部件或他们的变体相接;(4)两个不同的笔画结构;(5)“戈”字类部件的横笔左右两用。

    根据以上分析,368个部件(现归并为352个),只有“”五个部件无法得到证明,其中三个是单笔部件。“”仅拼出“丐、钙”两个字。用反证法证明“”是存在着间隙的(这里要说明只有多笔块部件可以作反证,单笔部件不能作反证。)因为“”已是部件,“”与之拼构“丐”,故可依此拆出。只有“”是一个死结,来自“舞、羌、丑、巴”,以及由他们所拼出的字,如“扭、钮、爸、笆、把……”等,怎么办?要作人为规定。我个人的意见是“”下面的一横应拆掉,因有利于分入相交型。同时,这样也有利于拆分;“丑”可作为一个部件,或者拆为“”两个部件;“巴”可以拆为“、乚”两个部件,因有利区别。

现在,我们已经把本部件清单中的368个部件(现归并为352个)证明完毕。这张清单可以拼出二级国标字库6763个汉字。如果汉字集扩大,我们还可以利用上面所述的部件定义,增加少量的部件。因为任何一个新部件,都离不开陈爱文先生提出的五种基本笔画结构类型和本部件表中的48种特征。因此,本部件表可以覆盖已知和未知的所有汉字。我们拆分了含有20902个汉字的GB13000.1字符集,只要增加68个新部件,就可以拼出其中所有的汉字。

爱挑刺的人也许还会说:“352个部件还是太多,五笔字型只用了125个(实际使用了199个)”。他们不知道这125个,比之352个使用的记忆量高得多。为什么?道理在分类里。五笔字型的一区一位叫“王旁青头戋五一”,即中含“王、、戋、五、一”。在汉字中,碰到这五个字根,就打一区一位这个键。在“汉字拼形字母系统”中,“二个分离的笔画”含14个部件,即“二、、刂”,碰到这14个部件就可以打B键。在数学中称这样的分类为“集合”。我们从这里可以对比,谁“集合”得好?“王旁青头戋五一”没有把“王、、戋、五、一”五个字根作为一个类的道理讲清楚,它是靠“一区一位”来帮助才能稍觉清楚。即指第一个笔画是横笔,第二个笔画还是横笔,才是一区一位。这里又来了一个问题:为什么字根的头两个横笔称一区一位?又必须解释五区五位的原因。然而,认真查对这“王、、戋、五、一”五个字根,还是不对劲,其中的“五”,第二个笔画不是横笔;其中的“一”,没有经二个笔画。于是我们只能死记硬背。而“二、、刂”,这14个部件,“二个分离的笔画”,一句话就讲得明明白白了,没有任何疑义,当然比五个字根好记。至于它为什么安排在B键?那是因为分离的笔画类还有“三个”、“四个”、“五个”的,加上单个横笔,等于五个类。用 ABCDE”的序与“一二三四五”的序对应,就便于记忆。而一区一位,用笔画转为数字,再转为键盘符号,记忆就困难得多。所以,单从352个数字比125个,就说难说多,是不能说明问题的。

 

未完接下一页

 

下册

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有