湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

第六章  汉字部件清单和拆分

 

§6.1  部件清单

 

上一章我们已经系统地论证了部件定义在决定拆分界限和分数体系、归纳拆分规则等方面的重要意义。说明设计编码方案时必须紧紧抓住它的核心和步骤,系统地考虑和筹划每一步,不能有所闪失。就好象一个迷宫或一盘棋,每走一步都得周密思考。

表形码之所以能够得到突破,其关键就是它有一个切中部件本质属性的定义,并以此为据,通过分析,整理出一张部件清单和以笔画结构为基础的整体分类系统。陈代于先生说:“掌握了定义的用户即使从未见过部件总清单,也能鉴别其中的大多数部件,避免了对部件的死记硬背。这种特点叫作‘部件的可预知性’”⑴

一、一份科学的清单具备的基本条件

表形码搞出了第一张部件清单使我们明白:汉字现代化变革的方向——汉字拼形化正走向成熟。我们的这张清单也是以表形码的清单为基础,运用部件的属性逐个进行证明,能修正的加以修正;不能修正的,提出讨论。除此外,我们还对每个型中的类和每个类中的部件进行了排序(详情阅第七章)。也许,有人会认为拿清单是很容易的,只要有单个笔画作为补充谁都可以拿出一份清单来的。我们要求的部件清单,它的产生条件必须是以定义为基础;定义必须根据部件的本质属性产生出来。一份科学、合理、具有可使用性的部件清单还需要符合下列条件:

(一)   方便识字教育;

(二)   方便排序检索;

(三)   方便键盘输入;

(四)   方便学习记忆;

(五)   方便字形规范;

(六)   方便汉字集扩大后新增部件的分类和编码。

二、部件清单中个别部件处理多原则和方法

(一)确立部件的前提

拆分汉字为部件不仅是要获得一张部件清单,还有一个目的是使“块状”的汉字成为“线状”的汉字,而字音和字义却阻挠“块”成为“线”,因此,音义与形是不能两全的。

“相对独立”是部件的主要属性,也是“要不要拆”的主要决定条件。根据“独体为文”的构字理据,“鱼、虎、鹿、鼠、马、鸟……”等都不能拆,因为它们都是独体。我们在第四章里已经指出所谓“独体”构字理据的不可靠性。我们只能根据“相对独立”将它们进行拆分。确立部件有很多系统因素制约,不过,部件属性当然是最最重要的。

有人认为“鱼、马、鸟”等都是部首,在二级字库中拼出很多字,有称说,不应该再加以拆分 ,实际没有认真分析拆分的作用。拆分的目的之一是为了减少汉字构字基本单元的总数;其二是为为了使方块汉字作线性排列。因此,“要不要拆”这个问题,“拆”是主,“不拆”(称说、组字频度等)是宾,不能“喧宾夺主”。

(二)部件的“块感”

这张部件清单,只有369个,比“文改会”所制定的648个,不仅压缩了4/10强,还提供了一个整体的分类系统,使类与类、部件与部件,都能构成密切的联系。而文改会的648个部件,根本没有办法形成一个整体的分类系统,部件与部件之间缺乏规律性的联系。其原因在于他们所依据的部件定义不科学。

应该承认,这张清单的部件、分类系统、代码方法和具体代码,都有可讨论的地方,都可以逐个地加以研究。国家语委和教委要想统一汉字编码,不认识论设想采用“选码”的方法。“926工程”必须记取的教训:“选码”没有基础理论,必然导致主观决定。把一个今后将世世代代为全民族使用的汉字副体,交由几个专家来主观选择,未免太不慎重。

在以上清单中,某些类是否可以取消或合并,要考虑部件的“块感”。除单笔部件外,所有的部件都是笔画结构块。这些笔画以基本结构形式合在一起,而且经常出现,就会使人们获得一种它们不能随意拆分的印象。这种印象,叫做“块感”。

部件是否还可以拆得更小?例如:“攵”,要不要拆为“、乂”?“立”,可不可拆为“、一”?有人认为拆掉之后的好处是部件总数能够减少;但坏处是“块感”消失了。这里有几个问题应加以严谨思考:一是“攵、立”自身“块感”(即相对独立性)。这种“块感”,除了来自部件自身的结构外,还有一个决定的因素就是它的组字频度和使用频度。我们的意见是象“攵、立”等由于使用频度和组字频度都较高,“块感”强,使人们感觉具有相对独立的属性,就不宜再拆;二是它们与所组合的字,拆分后的码元数如“繁、微、徽、徵、韶、韵、鄣、障、瘴……等”都已是四个码元以上,人们不喜欢再拉长码位,因为,码位越长,信息损耗越多。汉字的字形信息,转换为键符(即英文字母),在使用时,只允许取四码,因此,超过四码的就要省略,这就是信息损耗。信息损耗会影响认知。所以,汉字部件数必须恰当,并不是越少越好,或越多越好。它要受到由它所组成所有的字的部件数的制约。

“疒”,也是一个难题。它是由“广”和“冫”合成的,要不要一分为二?我们认为,组字频度和使用频度在我们学习汉字和使用汉字的过程中,不断地加强我们对部件的认知。例如“纟”,这个部件,下面有一个分离的提笔,拆,还是不拆?它是一个常用部首,能够组很多的字,将它一分为二的话,谁都很难接受;“疒”也一样,是经常用到的。笔者认为,部件处理是一个难题,拆分点笔更难,例如“广”与“厂”;“冖”与“宀”,都是常用部首,只是多一点少一点的问题。这个时候,只能模糊一些,不能强求过分的精密。

在郑码里,“”拆为“”,有一定的道理。以“”组成的字有“箫、萧、潇”,拉长码位,有利区别。“渊”的拆分,原来的拆法是“氵、丿、丷、木、丨”,也可改为“氵、、丷、木,有利减少信息损耗。如上述,“兆”是否也可拆为“、儿”,也应加以讨论。

四十多个类是否还可以再合并?例如“相离型五笔相离类”只有一个部件“立”,合并后少了一个类。但其他类中多了一个“附带部件”。这份清单只提供一个讨论的基础,个别部件的处理,可让全国专家公开讨论、定夺。

(三)部件的可区别率和信息损耗率

一个汉字拆分后的最佳状态是四个部件,但这个部件数是以这个部件所参与拼出的所有字综合计算出来的。因为,一个汉字的部件数如果低于四个,在系统里,它的可区别率差了,重码会明显增多;如果高于四个,我们使用时只取四码,字形信息的损耗率高,不利于识字教育中的认知心理。在下面两段里举两个具体的例子。

上面所列出的部件清单是否还应该再压缩?应该如何压缩?例如上面的清单中“主、”两个部件,是否可以把“主”拆为“丶、王”,“”拆为“丶、”?在两级汉字库里,由“主”拼出来的字,只有“注、炷、驻、蛀、拄、往、住”七个字,其中只有“驻、往”是三部件字,其余的都是两部件字。拆分之后,不仅是减少了一个部件“主”,而且使“注、炷、驻、蛀、拄、往、住”等七个之,每个字都增加了一个部件。三部件字成为四部件字,二部件字成为三部件字,它们的可区别率也提高了。可区别率的提高,就是重码率的减少。按原设计,其中“炷”与“外”重码,“住”与“个、隹”重码。而拆分后,只有“注”与“润”重码,其他的重码都消除了。

根据上述,与“主”同类型的“”,拆为“丶、”后,也会减少一个部件。但据统计,“”拼出的字有“准、灌、濉、滩、耀、淮、雀、潍、骓、雒、难、瞿、矍、睢、雎、瞧、氍、曜、雇、暹、翟、戳、惟、崔、帷、摊、攫、擢、摧、颧、推、携、璀、臃、雏、蕹、鹳、萑、劐、蘸、藿、蔺、嚯、谁、谯、雍、壅、鹱、瘫、癯、稚、雁、赝、憔、椎、鹤、雕、噍、唯、躏、罹、獾、霍、雅、礁、傩、隽、劁、鹪、焦、催、雠、集、售、隼、雉、僬、罐、镬、镌、锥、维、雌、雄、碓、”共90个字。其中只有16个是三部件字,其余的都是四部件以上的字。由于超过四部件的字,在取码时,要损耗一部分字形信息,这是不利的一方面。因此,对这个部件是否拆开,就需要认真讨论。

把汉字字形转换为代码输入计算机,就像是另一种形式的“能量转换”,在这个过程中,“能量”的“损耗”越少,编码的状态越佳。越有利于排序检索和识字教育。

(四)“全息”与“信息损耗”

我们在上面提出了“信息损耗”这个概念,问题在于汉字拆出了部件清单之后,在编码时,却不能把全部部件代码输入,只能采用四个代码,于是,有一部分字因超过四个部件不能重新返回拼合为原来被拆开的字,就是说,有一部分的字形信息在这个“部件——键符”交换的过程中损耗了,在使用时一部分字形被省略了。这是使用性能决定的。我们就把它称之为“信息损耗”。信息损耗率过高时会影响识别和记忆效率,不利于认知心理的接受。笔形码之所以被字根码取代,这也是一个原因。

信息交换的精确度取决于信息识别效率。于是,社会上就产生了“全息”这个概念。全息码就是偷换这个概念而产生的。它认为自己的代码中,有字音,有部首,有笔画,就可以称之为“全息”了。后来有人就提出了“必要信息含量”来比较编码优劣的论述,也是对全息的误解。

什么是全息?我们认为,全拼输入才是“全息”,因为,它已经把全部字音信息输入计算机。北京图书馆的全笔画编码,也是“全息”,它有每个字的全部笔画信息。“全息”输入有最高度的区别效果。如果我们能够把每个汉字的全部部件输入输入计算机,也可以称做“全息”,这是字形结构的“全息”输入,可惜不能这样做,这样做影响工作效率。每个汉字只能以四个代码输入,虽然有信息损耗,但以这种少量的损耗换取最佳的工作效率是合算的。认为在编码方法中一个字的四个码位,采用了字音、部首、笔画、笔顺,称之为“全息”,是错误的。

三、一份供进一步讨论参考的部件清单

如果把灿烂的中国文化比作物质世界,组成这种文化的汉字,就好比一个千变万化的组成物质世界所有物质的化学元素。而部件清单所拥有的部件,却似原子核中的各种粒子,它是原子的核心,决定原子的质量。即使是相同数量的部件,不同的排列,也会组合出不同的汉字,例如“立、日”为“音”,“日、立”,则就成为“昱”;“口、木”为“呆”,“木、口”就是“杏”了。

古代文字研究者提出了字原、字素等名称,把它们当作拼构汉字的基本单元,也一定很想把它们的总数搞清楚。但由于时代的局限,以及如方面的原因,只能不了比之。现代的编码设计者和理论家,既没有理解部件清单的意义,又受制于文改会的部件定义和648个部件清单的“权威”。叫觉得这张清单不好用,却不敢对它作进一步的探索,想出了从中“优选”的折中方法。以为这样就可以绕过给部件定义和确立部件清单等工作,殊不知该做的事还是要做的,科学容不得半点含糊。因为,要统一汉字编码,就得拿出一张具有可使用性的部件清单,汉字输入必须配备全部部件,而不是“优选”一部分。

部件既然是汉字编码设计的基本材料,定性和定量就是保证它科学设计的依据。有了部件清单,才能核对部件定义的确切与否。没有部件清单,部件切分(即拆分)的原则和规则就都是空话。因为,规则是从清单中归纳出来的清单却不是因规则而产生的。自80年代到现在,中文信息界和语文界崇尚泛泛空谈,自己拆不出部件清单,却要求别人要遵循他们的构字理据。已知的甲骨文有四五千个,全国的古文字学专家也只能解出1/3,还有2/3都没有解出来,说明这最古老的文字之来源都还无“理”可“据”。由的可知,文字学只有突破“六书”的局限,探索才能进一步深入。没有清单,就别奢谈拆分!

上一章里已经提出了部件的定义,现在我们就据此提出下面的这张部件清单,以供进一步讨论参考:

有了部件清单,从汉字编码设计的角度看,其好处是:按清单就可以及出每个汉字所含的部件数,陈代于先生认为这叫做“部件的可预知性”。一个字符集里的汉字,按部件数进行分类,可以得到多种统计资料,提供各种分析数据。下面的几种分析数据,就是从这些统计中得到的。从文化的角度看,每个汉字都能拆分为部件,它就成了汉字史上 的最大的一次变革。因为,这是汉字史上的第一次“裂变”(拆分)。这次“裂变”的结束是中国人实现了一百多年来一直为为努力的梦想:利用部件教学,改善识字教育方式,提高识字速度,统一书写规范;实现汉字直接排序,改善汉字的社会使用效能;统一汉字的计算机输入,促进联网迅速建立。它实现了古今文字学研究者的所有梦想。

拼形字母部件总表

 

《汉字编码设计学》目录

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有