湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

§6.3  汉字拆分规则及分析

 

初期的编码方案设计者,还不知道区分一些近似的新概念。支秉彝先生的“见字识码”,实际应该叫做“见字取码”。他的方案没有固定的部件数,只是交代学习的人看到输入的汉字,要使用一套取码元串的方法,如何使一个字产生四个码元串。五笔字型比“支码”的进步在于采用了固定的“基本字根”,因为这样就可以用基本字根表套拆每一个输入的汉字,不必要再摸索每个汉字的码元串。

一、拆分、套拆、取码和文字学的“构字原则”

每一次科学研究,如果概念不清,失败就在所难免。在汉字形码拆分汉字的过程中产生了三个概念:拆分、套拆和取码,我们必须认真分清:

拆分,是指按部件定义划分的部件界限,从汉字集中整理出部件清单的方法;套拆,是指用清单中的部件分解每一个汉字;取码,是指一个汉字或词组,取出规定的部件的方法。

没有部件定义或虽有定义而不够准确的编码方案,就不可能有正确的拆分方法,因而就不能产生有效的部件清单;采用“优选”方法产生出来的清单,就不可能完全套拆一个指定汉字集中的汉字。这些不能完全分解的汉字如何分解,就只能依靠主观决定,因而就不能避免分解中的二义性。所以,输入时,汉字库里所有汉字的部件,必须定量,即有多少个部件一定要知道。当我们输入汉字的时候,任何一个汉字中的部件,都已经存在于清单之中了。也就是说,我们能够用清单中的部件,完全套拆每个汉字。一张可以完全套拆一个指定字符集所有汉字的部件清单,才能使拆分实现规范化。上面一节中,一级字库里的3755个字的线性排列,可以作为我们讨论分解的模式。

依靠“拼”而不断增多的汉字,并不是按照固定的部件数“拼”出来的,而是越拼越大,所用的部件越来越多。输入时就不可能把某些字中所有的部件统统打入键盘,超过规定码长(一般都为四个码位)的必须省略。词组输入时,按字叠加部件数的话,字数越多,省略也越多。根据规定的码长,从汉字中或词组中取出相应的部件后,将这些部件转换为代码,就是取码。

从许慎的《说文解字》到安子介的《劈文解字》,文字学家们探索汉字的由来,总是要拿出会意、指事、形声等方法,用这些方法解释和证明“独体为文,合体为字”这个古典文字定义的合理性。他们也发现有许多字已经与这个定义格格不入了,又苦于拿不出新的定义来。

文字学家们给汉字的拆分划了一道到独体字为止的杠杠,而自己又无法解释每个汉字是如何由独体字拼成的。“拆分”是现代应用的要求,而“独体为文”是古代的构字观念,新旧矛盾使拆分成为字型编码的“瓶颈”。要实现汉字的现代拆分,就必须解开旧观念的束缚!自古至今,历史上还没有哪一个把汉字研究得最透澈的文字学家,能确定汉字集中“独体”的总数。可知“独体字”这个概念是有局限的、不明确的,用它作为拆分的界限和必须遵循的原则,不是很“硬码”的。例如“鱼”,算独体字,或是算三个块(部件)?显然,算三个块比算作一个独体字要好。有人认为这是古代的独体字演变为合体字。这个解释是不对的。正确的讲法应该是:独体字因“裂变”而分成几个笔画结构块。因为,所谓“合体”是指几个独体拼合为一个字,而不是指一个独体字分裂为几个块。“正”,在古代是“一、止”拼起来的,现在算一个“块”,也不能说这是合体字变成了独体字。

“内”是不是一个“独体”?当然不是。甲骨文写作“”,人在房子里面,才称为“内”,这是会意字。可是许多文字学家不主张拆分,因为它看起来是连在一起的。要解决汉字的拆分的矛盾,应该树立纯字形的拆分原则,而辅之以构字原则。我们在上面提出“拼形(造字)”和拼形文字的新概念,并对部件的命名作了解释,都是为了解决字义(独体)的纠缠,使纯字形的拆分更具有独立性。

有位文字学家认为“部件的切分(即拆分)包括两个问题,一个是如何确定末级部件,另一个是如何确定切分层次。解决这两个问题依据的原则不完全相同。确定末级部件只能依据现代汉字的笔画组合关系。确定切分层次,首先要采用构字原则,再辅之以单纯字形原则。”“构字原则就是切分时不但要考虑字形,还要考虑字音和字义。”“构字原则实际是尽可能采用字源原则,也就是尽可能采用传统的六书分析方法。”他就给自己的“部件切分”摆下了不能逾越的障碍——字音和字义的整体性。因此,就堵塞了具体的切分规则和部件清单的来路。我们认为确定末级部件就是确定部件从汉字中拆出的界限,有界限就按界限拆分,根本不需要再确定切分层次。部件已经确定下来,切分层次也就不需要再确定了。“确定切分层次首先要采用构字原则”(2),更是无稽之谈。按构字理据把“树”先拆为“木、对”,再把“对”拆为“又、寸”。为什么要这样拆?按构字理据这是形声字。左边的“木”是形旁,右边的“对”是原繁体字声旁。但现在它已经不是繁体字了,再说“对”不再是“树”的声旁了。即使还是原声旁,也并非一定要按这样的层次拆分,直接用间隙(即分隔沟)拆分,把“树”拆为“木、又、、丶”,是多么方便?一目了然有什么不好?所谓先分“拆分层次”,实质是不走直路走弯路,设置人为障碍。因此,要人“首先采用构字原则”,舍简而求繁,多此一举。笔者发现字源原则主张常常会自相矛盾,例如认为“隹”不应该拆,因为,“隹”是鸟的象形符号转化过来的;但他们同样认为“内”也不应该拆,因为,“内”看起来确实没有可以拆分的地方。这样,他们就背离了字源原则的本意。根据字源原则,“内”在古文字中是“”字,人在房子里面称为“内”,不是“独体”,可不好拆,就违背字源原则了。自相矛盾的原因是他们太熟悉字源,又面对现代汉字的字形拆分,处于两难,无法摆脱。

二、拆分的标准和规则

在“间隙拆分,基本结构不拆”的原则下,根据部件定义,我们列出部件清单,对部件进行系统分类;并从上述分类清单中,归纳出汉字拆分的八条规则:

1)相离不拆,多笔优先。

相离的笔画结构不能拆分,但是,笔画数多的相离型部件,往往易被误为两个部件。例如“六”被误拆为“亠、”,“立”被误拆为“亠、丷、一”。我们加上“多笔优先”一句,就可以防止这种误拆。

2)相交不拆,“内、臾、  、 ”例外,长点相交例外。

相交在一起的笔画结构块,一般应该看作是一个整体,决不应该拆分。但是,“内、臾、  ”和长点却应该例外,理由是:

①古代的“(内)”字,意思是人在房子里面称为内,后来为了美观,成为现在这个样子,“人”与“冂”交在一起了。拼在一起,组字频度不高,拆开来,少了一个部件,多了一个规则。但拆出来的这两个部件,组字频度都很高,因此,相对来说是利大于弊。“ ”与“内”类似,勿须赘述。

②古时的“臾”,“臼”字分作“”,与中间的“人”字相离。后来为书写方便,下面的横笔连在一起成为“臼”字,现把“臾”拆为“臼、人”并不背离汉字的造字方法。从利弊的角度评估,“臾”的组字频度也不高,拆分后同样减少了一个部件,归类可方便了。

③“”是简化字“鹤”的左旁,原是宝盖(宀)头,下面为“隹”,简化时点笔省略了,连着“亻”的撇笔一起下来,“亻”与“冖”交叉在一起,拆开来有利于归类。

④一般来说,点笔与任何其他笔画都是相离的,但为了美观和便于区别,某些点笔拉长与竖笔或撇笔形成相交,如“斥、匆、啄”等,作为特例把点笔拆出,有利拉长码元。

3)附在部件上的撇笔一律拆开(包括“必、者、龙”),由撇笔组成的部件不拆。

撇笔在汉字结构中是一个比较活跃的笔画,大多数附着一个基本结构字(即单部件字)而使之成为另一个个。例如“曰”和“目”,是单纯的包围型结构,加上一个撇笔,就成为“白”和“自”,多了一个粘连的笔画,不再是纯粹的基本结构了。又如“十”和“”,是纯粹的交叉结构,加上了一个撇笔,就成为“千”和“才”了。这些字,如作为部件,不仅会使部件总数增加,也不好分类。“必、者、龙”中的“心、土、尢”都是常用部件,交叉上一个撇笔,相反地成了一个组字频度很低的块,既然规定了把单独撇笔拆开、只要加上一句话,不仅减少了三个部件,也有利于拉长码元。

4)“戈”字类部件,其横笔向左伸长,上下有其他笔画相接或相交者,该横笔一律左右两用。

“戈”作为形旁,拼字时都在右侧,有明显分隔沟的合体字不多,如“戏、式、戒、甙、线、忒、武”,但如“载、栽、成、臧、戌、感……”等,其横笔常左右连在一起,造成拆分的困难。陈爱文先生提出:“凡‘戈’字架类,其横笔向左伸长,上下有其他笔画,一律从中断开”。这个规定,虽不十分完善,但无疑已经为难题的解决打开了突破口。说它不完善是因为还有一些字也向左伸长,但上下无其他笔画,如“式、戒、忒”等,拆分后就要无缘无故地增加一个笔画,不合情理,会有一些别扭。因此,我们将它改为“凡‘戈’字架类,其横笔向左伸长,上下有其他笔画相接或相交的,一律一笔两用。”此类字本只有两个部件,就不会变成三个部件了。

这个规则,虽然增加了一个较陌生的部件“”,比之郑码把“臧、成”等外壳作为“包杂根”(此乃郑易里先生提出的)要好得多了。

5)形成包围不拆。包围框内的粘连笔画不拆。粘连于包围框外的笔画结构块或基本笔画要拆掉。

包围框应该是一个纯净的结构,里面粘连笔画不拆,作部件处理;外面粘连着笔画或其他结构,拆开作两个部件计算。例如“占、面、卢、卤、尚”等,纯化部件结构,利于分型分类。

6)形成字架不拆。与字架类部件相接的部件或单个笔画要拆掉。

字架型的部件是一种混合型,包含着两种以上结构。在拆分时,应首先照顾它的完整性。与字架型部件相接的单个笔画如“天、夭”的“一、丿”都要拆出;与字架型相接的其他结构,如“”与“大”相接的“矢”,“⺁”与“丁”的“斤”,也要拆出。但“主”不能拆为“丶、王”,多笔优先的原则仍然不变。

7)中间一竖,两头有单个横笔挡住的一律不拆,“丕、蚩”例外。

“中间一竖,两头有单个横笔挡住”的结构,是汉字中独特的一种特征。它形成特殊的几个类,因此不能拆开。“丕”字中的“不”,是一个常用部件,而构成“丕”字后,组字频度极低,拆开利大于弊。“蚩”当中的一横,粘上粘下都会无故增加一个无组字能力又不便于称说的新部件,拆开当然比不拆好。

8)包围框内的单独点笔不拆,“叉”字例外。

包围框内含有单独点笔的有“母、、瓦、丹、”等,即每个框内只含有一个点笔,不能拆分,但“叉”字拆开,利大于弊。

以上八条拆分规则,只有点笔,仍存欠缺。因点笔组字和撇笔一样,比其他笔画活跃,如在相离型中,点笔可以单独组成部件;“冖”和“宀”都可以称为宝盖(有人称“冖”为秃宝盖);而“尸、户”“大、太、犬”不拆分就会增加麻烦。不过,这点欠缺对汉字的拆分来说,已无碍大局了。

上述八条规则已解决了绝大多数汉字的拆分问题,但仍有一些疑难个案尚待作进一步的讨论研究。例如“沔”的右旁。根据拆分规则:“中间一竖,两头有单个横笔挡住的一律不拆。”中间的“丁”就不能拆。只能把“、”拆出来。如果遵照先左后加的书写顺序,排成“丁、、”是对的;但遵照先上后下的书写顺序,上面的排法就错了。拆与排都有一些困难。好在这些字使用频率极低,不会有多大影响;不过也因为使用频度低,易被忽视,容易弄错。

相离型中的对称笔块相离类,两个笔块之间有其他部件,由于书写笔顺易误而引起误码,例如“舆”是由左至右的,部件拆分后的排列为:“、车、一、”;“兜、燕”都是由中央至两边的,其排列分别为:“丿、日、、儿”和“廿、口、北、灬”。尽管这些难拆字会出现误码,但它的好处是通过教学,也同时纠正了书写笔顺的错误。

三、拆分规则讨论的原则和方法

拆分规则是从部件清单中整理出来的,不是事先拟定的。有人认为,部件有了定义,拆分的界限就确定了,就不需要制订拆分规则了。这是理解出了偏差,把汉字的拆分与部件的标准混淆了。确定部件清单需要的是部件定义,而确定每个汉字的拆分却需要拆分规则,定义、清单和拆分规则相互作用,才能实现汉字拆分的唯一性。图11可表示它们的相互关系。

11说明部件的定义产生了部件清单;部件清单产生了拆分规则;拆分规则又制约部件定义的产生:它们之间的相互作用,实现了汉字拆分的唯一性。

“力”作为成字,它的书写笔顺是先折后撇,即排成如下顺序:“、丿”。而在“为”字中,则应写成先撇后折。因此,有人著文认为表形码将“为”拆为“丶、力、丶”不对。其实,这不是表形码的错,而是我国的语言文字界没有想到把这两个形象一致的部件笔顺交代清楚,以致引来了误解。

从信息使用的角度来看,每个汉字的最佳部件数是四个。因为,这个数既可反映最高的信息含量,又是键盘出字的最佳状态。

由于结构的不同,有的汉字只含有一个部件,有的汉字却含有十来个部件。对于超过四个部件的字,又要设法压缩,否则以四键出字,就会使许多字形信息被丢弃。所以,部件的大小,也需要控制。但是,这种控制是通过系统实现的,不能一个一个地计较(在系统完成后,又必须一个一个地研究)。我们在上面的统计,3755个常用汉字中,含有五个以上部件的汉字,只有698个,低于总字数的20%。说明采用基本笔画结构块作为拆分的依据是合理的。汉字的结构复杂,要求部件大,才能反映较多的字形信息;结构简单的,要求部件小,才能使码位加长,以减少部件总数。见字识码规定一个汉字取四个码元串就有这个含意;五笔字型利用末笔识别码,就是为了拉长码位,适当的码长,有利于区别和应用。短灭要拉长,长的要缩短,主要决定于部件大小的确定。能拆为两部件的字不拆,就要被确定为部件,就会增加部件总数。所以,在考虑拆分的时候,拆分是前提,制约是条件。不能先讲制约,后讲拆分,反客为主,这就叫做“钦定”部件,不仅违背拆分的客观性,还不利于分类和映射;部件过小,总数虽然减少,但过多地丢弃字形结构信息,也不利于认知。有许多字甲曰可拆,乙曰不可拆。例如“犬、太、弋、戈”中的点笔。拆或不拆,要权衡利害。矛盾有主次,字形结构简单的字,拉长码位是主要的;字形结构复杂的字,压缩码位是主要的。但可不能就字论字,这个时候,组字频度和所被组的字的使用频度就起作用了。文字学家对组字频度和使用频度虽熟,但只有参与编码研制实践,才会知道其中的相互关系。

不从编码设计的实践谈部件定义和拆分,就是为定义而定义,为拆分而拆分。谈定义谈拆分的目的是为了结出部件清单之果,否则等于空话。我们在提出部件的定义之后,就应该根据这个定义拆分汉字集中的所有汉字,整理出它们的所有部件,同时整理出拆分规则。再用这些规则理顺每个汉字的线性排列。对某些汉字的点笔,如“今、犬、义”等,拆或不拆,好处和坏处均应进行严谨的评估。例如我们将“叉”的点笔拆出,是考虑了“包围框内的单独点笔一律不拆”这一规定之后,拆出会少一个部件的记忆,但要将上述规则补充一条“叉字例外”,也多了一个记忆单元,虽然两者相抵折平,赢得了“权杈”和“汉汊”的不重码,即可将“蚤、杈、汊”从两个码,拉长为三个码位;将“搔、钗”从三个码位拉长为四个码位,但“骚”会拉长为五码位。这一决定,对“杈、汊、蚤、搔、钗、骚”的整体而言,是合算的。

从上面的分析中看出陈爱文先生对汉字拆分的贡献,他率先提出“单独的撇笔的一律拆开”规则和“戈”字架的处理,无疑解决了汉字拆分中的重大难题。撇笔在构字中是很活跃的笔画,影响归类,拆掉撇笔,它们归类就方便了。但也有人说这是“表形码中两条糟糕透顶的规则。它不分青红皂白地抹杀了汉字部件的完整性,扰乱了人们书写汉字的思维习惯。”(3)我们认为,拆分规则的制定是一种决策,而决策都有两面性,即优点和缺点。我们只有权衡利弊,选择比较满意的一面;追求理想的决策乃是一种幼稚的幻想。在上面二部件字的拆分分析里可以看出,与撇笔相接的笔画结构块在83个二部件字中占了25个,接近30%。如果像“自、白、千……”等的撇笔都不拆的话,不仅损害基本笔画结构的纯正性(例如“自”,拆掉撇笔的“目”,是一个纯包围结构;“千”,拆掉撇笔的“十”,是纯交叉结构。……),还会增加无数的部件,而减少部件总数是我们的目标。一个规则,符合不符合汉字结构规律,看它的结果,而不是看表面现象。死为“构字理据”的先生们,总觉得他们的“独体字”也给拆掉了,就是损害“完整性”了。难道“白、千”作为部件就是完整了?拆掉了撇笔,就不完整了?书写汉字的思维惯性主要是笔画顺序,而此规则并没有打乱书写顺序,怎么可冠之以“扰乱书写汉字的思维惯性”呢?表形码的“戈”字架类的处理规则解决了汉字拆分中的最大难题,可以认为这是陈爱文的独特贡献。反对,当然很容易,建设却是很困难的。如果对一些新创见,只有反对而没有建设的意见,实际只是抱残守缺者的牢骚话。

什么才算建设性的意见呢?温师院中文系蒋文钦副教授认为“戈”字架类应“从横笔左端相接外拆开,例如‘成’,可以拆为‘、戈’;‘臧’可以拆为‘爿、臣、戈’。‘栽、载……’一类,可拆为‘十、戈、木’,‘十、车、戈’等,‘我、戢’则另作规定。”这样的讨论意见,具体而又明确,优劣就可以比较,不像抽象的“完整性”、“思维惯性”、“糟糕”之类的语言,无法比较讨论。

四、拆分规则产生的依据

拆分规则主要来自部件的定义:“相对独立”。相对独立的表现在于部件与部件相互分隔,中间有分隔沟,即间隙。间隙就成为拆分的依据。问题在于相离型是一个大结构类型,笔画与笔画、笔画与与笔块、笔块与笔块之间,也有清晰可见的间隙,不能予以拆分,因为,它们的组合,使人有一种虽离实聚的感觉。另一些结构中,两个部件连在一起,其中存在着间隙,只是我们不能一目了然地看出来。这就是隐性间隙。“间隙拆分,基本结构不拆”是总的拆分原则。上述规则,都是在这个总原则下产生的。

(一)认知心理依据——间隙拆分

部件使部件相拼造字,就会产生间隙。这种间隙,使部件产生了可分离性。部件以笔画之间的相互关系形成结构,这种结构,使部件得以相对独立地存在,它才能够互相拼造字。显性间隙最容易证明部件的可分离性。例如“又”,它在“汉、仅、奴、友”等字中,与“氵、亻、女、”等部件都有明显的间隙,把它们拆开是没有问题的。“又”在“支、皮”中,与其他部件尽管相接在一起,这是因为“又”的顶端是横折,而“十、”都是竖笔笔画走势使之粘连在一起。说明两者之间也是有间隙的,不过不能明显地看出来而已。苏培成先生认为这是部件与部件的“替换”,含意也不错。“替换”也是可分离的意思。因为,既然可以替换,例如“友”上的“”,用“”替换了,就成为“皮”字。那么“”与“又”之间,自然是有间隙的。也就是说,它们之间是可以拆分的。凡是部件,必然从属于某种基本笔画结构类型。按某种笔画结构分析出来的“块”,可以证明部件的相对独立性。

(二)拆分的可接受性

由于某些形码设计者没有认真研究拆分的可接受性,主观任意,才招致许多拼音化理想主义者攻击。或说“拆字编码”是导向错误,或说“拆字编码”是走不出的迷宫。因此,设计形码必须认真研究每一个汉字拆分部件后的可接受性问题。

拆分的可接受性是一个认知心理问题。符合认知心理的拆分方法,唯一性强,易学而难忘。不符合认知心理,就会产生二义性,容易拆错。例如五笔字型把“聿”,拆为“彐、丨、二”。一个许多笔画相交在一起的块,主观地强行拆分,可有很多种拆法,学习的人只好强记一种,说明这种拆分可接受性差。间隙拆分就是利用拼形造字因“拼”产生的自然分隔沟(即间隙)拆开部件,当然具有最佳的可接受性。

古代少量简单的象形字,后来根据象形会意逐步拼合增多,至形声造字法,汉字拼形造字的方法和能力日臻完善。但自始至终,离不开一个“拼”字。因“拼”而产生间隙;因间隙而使部件能相对独立;因部件的相对独立而建立起间隙拆分的原则。分析任何一个编码方案的基本单元,如五笔字型的199个字根、郑码的176个字根、钱码的176个部件、新华字典的189个部首(这是许多编码采用的依据)等等,它们在汉字中,无不与其他部件具有明显的间隙。说明间隙拆分是最易被认知与接受的。

从认知心理来说,把“从”拆为两个“人”是很容易接受的,而把它拆为两个撇笔和两个捺笔,就不容易接受了。说明从笔形码的一笔一画的拆分,发展为字根、部件的一块一块地拆分是人们认知心理的要求所致。在拆分中最容易使人接受的是两个部件之间有明显的间隙,例如“多、昌、音”等。其次是按照一定的规则加以拆分的。这些规则体现汉字的结构规律,而不是主观设定的。因此,每一条规则都包含一定数量的字,又不与其他规则相矛盾。我们在上面整理出来的八条拆分规则,已集其大成,下面的研究分析,可再提供实证。

五、二三部件字的拆分分析

列举二部件字作为分析拆分的基础,是因为拼形造字首先从单个部件造出二部件字,那么间隙就始于两部件字,后造的字部件多起来了,有的部件之间,间隙就不明显了。这是因为利用空间的原因。笔画走势不同的部件,最容易粘连在一块。现在我们先将只含有两个部件的字,分开专门分析,就可以理解所有汉字按上述方法拆分后的可接受性了。

二部件字的拆分如果能够被我们所接受,三部件字因部件数的增加,其可接受性可会因之增加,这就可以说我们的方法对头了。反之,则错了。因此,本节将对二部件字、三部件字连续进行分析。

(一)二部件字的拆分分析

根据下面的线性排列清单(152-156页),其中有两部件字629个。两个部件之间,有明显分隔沟(即显性间隙)的,拆分时看去一目了然的水545个,占两部件字总数的86.6%。(见附表具有明显间隙的545个二部件字)

艾安盎扒叭半办邦蚌杯悲辈背贝备苯比边卜布采灿仓曹叉产昌巢扯尘忱呈承池弛耻冲抽仇初床春纯此刺从寸达打呆代单耽旦灯邓迪狄地典佃甸刁盯叮鼎订冬东斗毒独杜肚队吨囤多朵厄尔洱伐凡反犯菲啡飞匪诽肺沸分奋风奉凤佛否肤扶拂甫父妇杆柑肝冈肛杠个各革耕庚攻耿功公共勾古蛊骨官圭归龟轨柜酣邯旱汗汉夯好号黑虹弘红划化户怀坏环还患宦幻灰回卉惠汇讳伙圾机肌讥姬吉极棘汲级计夹家加尖间奸茧见江建讲交叫节杰姐戒介届津仅进纠酒旧狙疽咀沮拒具句炬抉决诀军君刊扛亢棵可课肯孔扣库块快匡狂旷亏拉坤泪困扩垃来阑兰肋厘狸理李礼栗历哩隶连疗辽林灵另吕仑罗裸马埋麦么玫枚眉每昧妹闷们孟米苗庙灭免闽明名沫抹尼某拇亩姆奶宁弄奴疟偶排沛朋平妻其祁乞企气泣浅欠巧栖切亲沁青庆囚酋区蛆犬权取全劝炔让仁认刃扔仍戎茸冗如汝闰洒扫杀晒珊杉删衫闪汕勺少社呻伸绅神沈审声石圣师什使式仕收书术水帅双思宋速肃岁孙他它她坍台叹桃逃体屉挑条眺厅彤童汀歪头吐妥袜丸汪枉旺苇违吾围伟纬味胃位文闻问伍务昔吸汐戏细匣下仙闲线相泄芯辛杏凶休朽袖旭轩旬穴巡训押丫炎奄羊阳耶舀姚要叶伊胰宜姨艺亿忆义因音阴引印英映庸永尤邮油有友右幼迂盂愚隅予雨与宇羽玉芋吁遇寓匀孕匝杂灾枣早灶扎札轧栅闸盏栈杖仗找召枕阵争怔政汁之证症轴址只旨志炙盅忠肿仲宙逐烛拄柱助蛀庄住注拽妆壮浊孜仔字祖诅阻组罪左

只有83个字,占13.2%是需要制订一定的拆分规则.但只要能够理解基本笔画结构这个概念,也就能理解这些字的拆分也是可以接受的.在这83个字中:

根据“单独撇笔要拆开”的规则,亦即撇笔与笔画结构块相接处含有隐性间隙的有24个,占28.9%:

乡、血、牙、禹、垂、重、毛、牛、丘、千、壬、升、失、手、禾、白、币、必、秉、才、自、朱、舟、生

相离型部件,因笔画走势不同而与其他笔画相接的有20个,占24.1%:

亡、文、亦、玄、市、方、示、辛、云、当、赤、兄、勿、步、匹、业、韭、允、元、矢

包围框外的笔画结构块相接的有13个,占15.7%:

占、县、卢、吊、虽、男、民、面、百、皮、久、尺、直

两个不同的笔画结构块相接的有13个,占15.7%:

歪、用、甩、击、出、午、乍、斤、氏、去、农、年、矢

与点笔相接的有2个,占2.4%:

太、专

“戈”字横笔左右相接有1个,占1.2%:

属于可移动性的2个,占2.4%。这两个二部件字,也可以认为是“”与“乚”因笔画走势的不同而造成了相接:

已、己

单个横笔与笔画结构块相接的有7个,占8.4%。单个横笔因其笔画走势自左至右,最易与自上而下的竖笔或撇笔相接,形成了不易察觉的隐性间隙:

天、开、万、无、卫、更、歹

只有一个“巴”字无法拆分,占1.2%。“巴”要不要拆为“、乚”,大家可以讨论,在表形码和汉字拼形字母的部件表中,已经拆开。由“巴”组成的字,有:把、色、笆、耙、杷、爸、艳、粑、疤、爬、靶、铯。认为不拆为佳的理由是:它是一个包围结构,根据“形成包围不拆”的规定,就不应拆开;它在汉字中一直是相对独立的,没有办法从别的汉字上证明“”与“乚”曾经分开过。认为拆开为佳的理由是:①把“巴”拆为“、乚”形象与英文字母相似,有利于记忆代码;②所组的字都不超过5个部件,拆分开来有利拉长码元,减少重码;③它与“己、巳、已”相似,这三字可拆,“巴”字亦可依此处理。

通过以上分析,我们就可以知道87%的字可以一目了然地拆开的,13%需要通过几条简单的规则,只有个别的字是需要讨论的。我们在这里只分析了一级字库中含二部件的字,只要这629个二部件字解决好了,三部件以上的字,大多数是它们的叠加,拆分的可接受性就会增强。例如“白”加上“氵”就成为“泊”,谁都知道“氵”应该拆出。有的即使不是二部件字的叠加,也很容易拆开,具体可看三部件字分析。

单个横笔如在某个结构块顶上或底下的,因笔画走势关系,最容易相接在一起,只能将它按笔画走势拆开。

符合“单独撇笔一律拆开”这个规则的就有24个,占总数1/3弱;属于相离型部件,因“不同的笔画走势”而需要拆分的有19个,占总数1/4弱;属于“与包围框相接的笔画结构或笔画”有13个,占总数1/6弱,包围框的完整性、稳固性当然是可理解的;属于“两个不同的笔画结构块相接”有12个,占1/7强,一般来说也是可以接受的;属于“单个横笔与笔画结构块相接的”有7个,拆开有利于维护笔画结构的完整性。难点之一是“戈字类的横笔向左伸长,此横笔左右两用”,和“利用可移动性”拆分“已、巳”,需要讲解和记忆;难点之二是粘连的点笔。点笔的处理无法一刀切。如“戈、弋”不拆分,而“太、专”相粘连的还要拆开,心理上会觉得难以接受,需要讲解这是规定。但是,它们只是极少数,仅占一级字库中二部件字总数的0.32%。如按此比例计算,一级字库应该有9-10个字需要硬性规定。99.68%的拆分是可以接受的。

以上545个有明显间隙的二部件字,都一分为二,除去重复部件,含有227个部件:

单笔型:丨丶 一 乙  丿

相离型:二 冫刂 川 三 小 彡 氵巛 六 心 火 灬 立 北 非 兆 亠 讠礻 衤 主

相交型:艹 扌 力 丰 车 匕 也 中 九 屯 弋 十 戈 肀 弗 甘 廿 井 电 酉 子 串 廾 韦 聿 孑 戋 西 册世 申 曳

三面包围型:宀 月 冖 巾 山 刀 勹 夕 匚 彐 厶 巨 臣 门 冂 乃 丹 凵 习 臼

四面包围型:女 皿 口 卩 夂 田 日 又 曰 耳 目 母 囗 攵 及 阝且 尹

相接型:人 廴 辶 厂 弓 亻 广 纟犭 幺 豕 疒 了 丬

字架型:央 虫 木 不 本 果 止 土 忄 王 由 束 大 丁 甲 几 夫 干 耒 士 上 吏 未 柬 里 末禺尢 夷五 正于 丈

这是一个很有意思的统计,545个常用的二部件字,只占国标二级字库6763个汉字的8.05%,却含有部件清单总数的61.5%。它们既然是常用的,它们的部件也就是常见的。因此,这些部件上即使有其他的部件或笔画粘连,把它们拆开也是很好接受的。

通过以上分析,我们更可以理解“拼形造字”和“拼形文字”这两个概念之所以能够成立,首先它立足于二部件字中,有87%部件与部件之间都具有显性间隙。余下的13%,只需要几条明确的规则,即可一拆到底。少数几个字的拆分,制订出具体讨论的原则和方法,就能解决。这些二部件字,大多数是三部件以上的字的基础,即是说,有许多三部件字,是二部件字加上一个部件而拼成的,那么就会知道“舌”要把撇笔拆开来。世界之大,事物之复杂,任何定义,都是不完备的,强求完备,不是科学的态度。同样,汉字经历了五千年的发展和变化,尽管它沿着客观的规律前进和变革,由于它的社会产品,其中必然地掺杂进许多人为因素,不能完全按自然科学那么要求办得到的,因此,更不能过分求全。例如拆分规则里,我们就无法把点笔的拆分,归纳出简洁的语句来。

(二)三部件字的拆分分析

下面我们再分析一级字中的1250个三部件字。其中由二部件字与其他部件组成三部件字,如“唱”(由“昌”与一个成字部件“口”组成)、“俺”(由“奄”与一个常用部首组成)、“成”(由“戊”与一个单笔部件“”组成)等,就有978个。这些字中的第三个后来加入的部件,要拆出来在心理上自然可以接受。有的三部件字中的两个部件,虽不能成字,如“岸”,由“山、厂、干”,三个都是成字部件,相互有明显的间隙,但中间一个“厂”,与上与下相连,都不能构成一个两部件字。这样的三部件字就有30个;有的三个部件中有两个是成字部件,如“烽”等,也不能相互凑成一个两部件字,但一看就知道这三个部件该如何拆分,这样的字有96个;三个部件中,虽然只有一个成字部件,如“猜”,或都不是成字部件,如“策”,但相互间都是显性间隙,看去一目了然,这样的字有79个。以上四类总计1183个,占三部件字总数的94.64%。余下67个字,只占5.36%,全部都与二部件字中叙述过的几条有关隐性间隙的说明有关。如果学习者已经掌握了二部件字的拆分规则,三部件字的拆分就没有问题了。因此,可以认为,尽管三部件字的总数增加了一倍,而其拆分的可接受性却从二部件字的87%,上升到94.64%。需要解释的隐性间隙,也从13.04%,下降到5.36%。我们既然在教学二部件字时,已经把隐性间隙解释好了,三部件字的隐性间隙也就可以认为可接受的。其中只有一个“丑”字不容易分解,可留待讨论。那么,三部件字拆分的可接受性,就可达99.9%以上了。

六、拆分的可接受性和信息损耗率的研究

(一)学术界需要具体的分析方法

汉字编码的快速性之说,已为明理者所不齿,于是,易学性就成了编码经营家宣传的重点。编码界先有“七日通”,后有“一日通”、“半日通”、“五分钟编码”等等,再接下去就是“无师自通”,“会写汉字,就能打字”,越讲越神,连一分钟也不要学了。易学性就好比一件弹力衣服,无论什么人穿都合适,而且,越穿越“合身”了。汉字编码易学性的发展如此神速,当然不符合事实。

从李金铠的笔形码始,到陈爱文的表形码,除王永民单独承认过他的五笔字型“好用不好学”外,所有的设计者都说自己的方案易学。笔形码使用数字1-8对应8个笔形,一句话告诉你就解决问题了;见字识码把每个汉字拆为4个码元,根据每个码元的读音也只要一句话;表形码用部件形象映射的方法,例如“   (EP)”就象“印”,“  (ZL)”就像“己”,岂不更神。然而,到真正上机打字,可就没有这么简单了。用户发现上当受骗:每一个方案的经营者把易学性“浓缩”为单一的映射方法,引人上钩。

用笔画对应数字,设计者认为笔画和数字都是简单而有序的,对应方便,一讲就能记住;部件与读音对应,显而易见,也很方便;部件与相应的键符形象对应,也难不到哪里去。三种方案的设计者都讲自己的易学,谁也讲不清哪个易学。

陈爱文说:“一个方案是否易学、易记、易用,光是评测它的学习时间,编码效率和错编率还不能说明问题。首先还必须问一下:这个编码方案的通用范围有多大?我们面临的是一个信息化的时代,汉字编码有许多方面的用途。如果电脑上用一套编码,字典上又用一套编码,打电报又用一套编码,(将来在家里打直通电报的情况会越来越多,那就不能靠专业人员编码,而要自己编码了。)在字体上,简体字用一套编码,繁体字又用一套编码。如果出现这样的局面,中国人的脑力是不堪负担的。我们必须寻求一种办法:用一套基础代号和编码方法,通用于一切需要编码的场合。”(4)

通用性能否证明编码的“易学、易记、易用”?具体地说,即能不能编字典。因为能编字典,就说明能给汉字排序,即证明这个编码已经设计了一套汉字的“基础代号”。表形码、唯物码(黄金富)、五十字元(张国防)等方案都已有检索字典;表音码和自认难学的五笔字型也在组织人马编写字典。试图以此证明他们的编码可以“通用于一切需要编码的场合”。如果再这样下去,越来越多的编码字典也将造成“字典污染”,那就会发生打不完的字典版权官司。

所有的编码方案都可以编字典,只要你已经学会该方案在电脑上打字,就能够利用该方案排序的字典检索汉字,或使用它作档案资料的排序。所以“通用性”也同样是一件大家都适用的“衣服”。通用性成了编码经营家的吹嘘手段。可见学术界还需要寻找具体的分析方法。

上机打字(即输入),脑子里的第一步工作就是把汉字分为比较小的单元(部首、部件或字根),即拆分;第二步是取出需要的数量,即取码;第三步才是转换为键盘符号,即映射(或谓编码)。其中拆分和取码是一个汉字转换为代码的两个独立完成而又连续不能截然分开的过程。如上所述,编码设计者说自己的编码易学,实际只把如何映射告诉用户,拆分和取码被遗漏了。

(二)拆分的可接受性和信息损耗率是进行具体分析的关键

人们没有理解陈爱文上一段话的前提:设计一套通用于一切需要编码场合的汉字的有序符号(基础代号),首先在它能给汉字排序;而给汉字排序首先要求方块汉字能作线性排列,即要将汉字拆为能作线性排列的部件,也就是要求每个汉字必须能全息拆分,而不是拆一些,丢一些。这个观点在于确立易学性的分析不是首先学会在键盘输入,而是在拆分的可接受性和取码的信息损耗率。两者均可在逐字拆分后进行统计,得到具体的数字。

什么是拆分的可接受性?

五笔字型把“不”拆为“一、小”,把“民”拆为“已、七”等等,遭到了许多编码设计者严厉的批评,其理由却无人追究。然而,某些批评者在批评五笔字型的同时,为什么自己却也犯同样的错误?表音码(沈克成把“永”拆为“丶、水”,把“既”拆为“艮、一、尢”。“永”字中是一个横折钩“”,而“水”字中间是一个竖钩“亅”;又如“既”的左旁是“、丶”,而“艮”是由“”组成的;右旁的“”是由“一、”组成的。“册丹央且内”,这些部件(字)里的框,都被部首“冂”代替了。“”,拆为“冂冖”(按笔顺应拆为“冂”),“册”,拆为“冂冂一”,……都不能说是规范的。郑码是在五笔字型受到批评后才研制出来的,必然自觉要胜它一筹。然而,它同样把“套”拆为“大、髟”(“髟”代“镸”),把“兵”拆为“斤、八”(“斤”代“丘”),把“册”拆为“月、月、一”(“月”代“”),也同样与汉字规范有悖。因此,笔者认为这不是某编码设计者故意犯规,而是其编码方法使其身不由己。因为,部件具有不可替代性,用任何一个其他的结构替代,不容易让人接受。我们的设计者为什么会觉得别人的设计不好,自己又为什么会犯同样的错误?因为,“优选”的部件(字根、部首、字元)不能覆盖全部汉字结构,一些未被“优选”的部件既不能拆为笔画,就只能用“优选”的替代。这就是设计者的无奈。

同样,没有间隙的基本笔画结构加以拆分,也是无理的,不可接受的。例如五笔字型把“聿”拆为“彐、二、丨”,表音码把“”拆为“肀、冂、二”,郑码把“”拆为“冂、三”,把“”拆为“冂、廿”等等。因为,交叉结构、包围结构都是汉字的基本结构,基本结构若加以拆分,会多种拆法,不符合汉字的结构规律,人们当然会认为不可接受。这不是一个字的问题,而是一个字符集的所有字。其中有可接受的,有不可接受的,设定相等的条件,根据一个编码方案的拆分方法,拆开所有的字,统计它们之中的可接受的或不可接受的字,除以总数,就是计算的比率,作为比较的依据。

许多方案由于基本单元由“优选”而得,不能涵盖全部汉字,又不能将未入选的结构块全部拆为笔画,才有替代法的出现。汉字的教育,是十分讲究笔形规范的,例如“干于”,有钩的就是“于”,没有钩的就是“干”,不能差一丝一毫。因此,替代法的实质是无视规范。例如郑码,总是用“寸”代“”,用“臣”代“”……,这样的例子很多很多。我们难道可以把“大”当作“犬”,把“氏”当作“氐”?

一个汉字拆为多个部件,如果顺着自然间隙拆出部件,其拆分的就可被人们接受。不按自然间隙拆分的这部分汉字,余下的需要制订一定的拆分规则。拆分规则的可接受性也可以进行具体的比较,例如一条拆分规则所能涵盖的字数多,可接受性就强;一个一个需要交代的,其可接受性就弱。拆分规则规定将部件的相接部分拆开,易被接受;规定从相交或包围之中拆开的则差。根据这个原理,进行逐个汉字拆分的对比,就可以使分析方法量化。

汉字拆分后的第二道工序就是取码,而取码规则的科学性对拆分的可接受性有直接的影响。拆分出来的部件,交换为代码后,许多方案每字四码,并均取一二三末,也可以认为这是取码的普遍规律。但因映射方法的不同,在这四个码位中,字形所占的数量有差异。例如表音码采用本字读音先占一码,余下的只有三个码位要用字形反映信息,就需要叶立一套规则。但是它又没有固定的取码规则,规则随着字型结构的不同而变化(如它所谓的二分体字、三分体字就各有不同的规定)。因此,表音码的取码方法对于超过三个基本单元的汉字,由于每个汉字的取码方法各有不同,用户就无法知道如何取码。郑码则对某些部件(字根)加位码,使许多字的码元拉得很长,取码时又没有统一的省略规则,例如将“帮”拆为“丰(代码CI)、阝(代码Y)、巾(代码LI)”,取了“CIYL”四码。但对“梆”,拆为“木(代码F)、丰(代码CI)、阝(代码Y)”,却只取“FCY”三码。取码的随意性,影响了拆分的可接受性。表音码里由四个以上基本单元组成的汉字,尽管从纸面上看大多数是按间隙拆分的,事实上却是不能接受的。例如“福”,根据规定取一二末,但是“逼”,却取的是一三末。规定按笔顺取码,所以,“敢”字取“耳攵”,但“憨”字,却取了“耳攵心”,把首码省略了。如果认为“”是笔画,而“耳”是部首,应该部首优先,那么“陆”的末码取“丨”,“凵”为什么不能优先?这种随意取码方法,使含有四个码元以上的字,必须逐个学习和记忆。因此这些字的可接受性,也就被抵销了。

什么是信息损耗率?

字根(部件)码取代笔形码的根本原因,张普先生说得很对,因为字根码符合汉字的造字历史和造字方法。也就是说,形码需要拆分汉字,不符合汉字造字历史和造字方法的编码方法就会背离人们的认知心理规律,也就是可接受性差。因此他认为“汉字的拆分与拼合应该是可逆的”,(5)即:

汉字—→拆分—→部件             部件—→拼合—→汉字

这个公式可以引伸为:汉字的拆分应该是全息的。即一个汉字中的任何部分都是部件;拆分后,这些部件可以拼还这个汉字。由于应用的需要,如果使用字形全息输入(即象全拼音码那样的全字形输入),果然有最大的区别能力,却没有最佳的工作效率,同样会陷入全拼音码的困境。因此,编码方案需要的是在最佳的工作效率前提下又有可供应用的区别能力。编码的实践探索证明,每个字需含有四个代码,可符合上述要求。确定每字四码,超过四码的,一部分字形信息就会发生损耗。汉字的字形转换为键符代码,是一个提高工作速度的信息转换过程,在这个过程里,字形信息发生损耗也是必然的。但是,最佳的字形编码必须以最少的信息损耗,获取最大的工作效益。信息损耗的多寡,可用来测定编码使用的基本单元的大小合适与否。部件过大,一个汉字,无法凑成四个部件,可区别率太低,必须其他信息凑足四码,会增加记忆难度;部件过小,很易拆至笔画,又会背离汉字的造字方法,不符合认知心理,也会造成记忆困难。

一个汉字拆分为部件后,对应为代码输入电脑,这些代码返回为部件,能否重新组合原来被拆分的汉字。可逆,表明没有信息损耗;不可逆,即有信息损耗。一个字符集中的所有汉字,拆分后不可逆的总数,除以字符集的总数,即该方案的信息损耗率。

为什么信息损耗多了不好?

一个人用视觉接受的字形信息,拆分后并转换为代码,如果可逆,即代码转换为字形部件重新拼合为本字,利于心理接受,并对记忆亦有帮助;如果不可逆,当然不利心理的接受和记忆。这里的差误,就是信息损耗造成的。因此,信息损耗率也是决定编码方案优劣的条件之一。

(三)替代拆分为什么不可接受?

一个部件,在换为代码时,采用另一个不同的部件来替代,等于改换了字形信息。汉字以其笔形、字形、结构、方向等改变字义,例如点笔稍长,即成为捺笔,“日”字拉阔,即成为“曰”;“区”字的框向上,会成为“凶”;“同”的框第一个笔画是竖笔,“周”的框第一个笔画是撇笔,不能相互替代。替代法实质是损害汉字规范,所以才不可接受。我们认真对照表音码的码本,把一级字库的3755个汉字全部拆开,我们发现表音码的替代法违背汉字规范是十分严重的。例如:在表形码里,“冂”与“”作两个部件,因为“冂”的第一个笔画是竖笔,“”的第一个笔画是撇笔。这些框都有不同的特征,只有作为不同的部件,才有利于识字教学。“”,这是“录”的上边,它的底横笔长出于第一个折笔,表音码用“彐”代替了(表形码是分为两个部件的)。“屮”,为出字头,末笔是竖;“”,为“屯”拆去一横,末笔为折弯钩。“丷八”,“⺌小”,看起来好象两个点笔倒置,表形码分得清清楚楚,表音码也合并了。“丷”是由一个点笔和一个撇笔构成,“八”是由一个撇笔和一个捺笔构成,完全是不同的笔形,合并就不利于课堂教学。尽管字典检索中是合并的,那是在利用字形相似,合并可以减少总数。编码是为汉字排序,而在语言文字的教学中就不能说这两个部首是一样的。何况表音码是采用读音映射的,总不能说这两个都念“ba”。

郑码里的替代拆分是最严重的。替代,实际就是把两个不同的部件混淆了。有的因为是部件,鉴定专家可能不重视,但有的部件也是成字,每个不同的部件都有自己的读音,不重视就不对了,例如“土士、人入、尸尹、日曰、臣、已、大、匕、丰、儿、卜、小、巴已、尸、寸、四罒……。”部件是拼字的基本单元,照理说,它的规范比成字更重要才是。因为,一个部件要拼多个字,一个错了,就会有多个错误。郑码里的替代,比比皆是,有的连我们很难想到。例如它把“曲”,拆为“日、刂”,用“刂”替代了“”。更有甚者把“肃”,拆为“肀八”,它的“优选”字根中没有“肀”,就用“彐”替代,中间一个“丨(竖笔)”不见了。它把“承”拆为“乛三水”,这样的替代,实在令人不可想象。

具体解释拆分的可接受性和信息损耗率,请看下面表音码(沈克成)与本书拼形码的对“惠、皂、寓、孕、贵、奇、眉、第”等8个字的具体拆分方式,以作示例:

 

表音码

惠 —— 一曰心   皂 —— 白一乚    寓 —— 宀曰冂   孕 ——丿子

贵 —— 口丨贝   奇 —— 大一口   眉 —— 丨目   第 —— ⺮弓丨

拼形码

惠 ——      皂 —— 丿曰七   寓 —— 宀禺     孕 —— 乃子

贵 —— 冂人   奇 —— 大丁口   眉 —— 目     第 —— ⺮弔丿

 

表音码用《新华字典》的190个部首套拆每个汉字,非部首则需要拆出笔画,结构复杂的,仍然用部首套拆。例如“惠”中的“”,不属于部首,先拆出第一个“一”笔,作第一个码元;然后拆出“曰”,作第二个码元。余下“心”,作第三个码元。其字形中省略了“”(这就是信息损耗)。以上所列出的8个字,由于都不是由全部部首组成的整字,所以每一个字中都有被省略的字形信息,都不可能按照其自然间隙进行拆分(其拆分就不含可接受性)。

拼形码的拆分方法,除“皂”字上面的“白”,根据“单独撇笔一律拆开”这一规定拆为“丿曰”两个部件外,全部按自然间隙分拆;拆出的结构块,都算部件。它含有汉字的全部字形信息。因此,它的拆分,看去一目了然。

有的人会认为:拼形码这样拆分,虽然符合认知心理规律,但必然产生许多新部件,比部首数量要多,记忆量会增大。我们认为,“优选”实质无法回避未被“优选”那一部分,因此才采取了替代的下策。现在我们说,部件是不能替代的,有多少,就应该列出多少,这样才能有利规范教学。例如“青”是由“、月”两个部件拼成的。郑码的部件(字根)表里没有“”,它认为这是三横一竖,就用“丰”替代了,然而“丰”和“月”,是不能拼出“青”来的。如果我们把郑码中被替代的部件原形统统的明列出来,也许比拼形码会更多。其实,看起来是“优选”,实质却没有。因为,拆分、分类和映射,仍然还需要这些字的信息。这说明“优选”想摆脱部件过多的麻烦,实际摆脱不了,它所摆脱的是部件定义的困难。部件是一个新概念,它的推出是因为部首这个老概念不适应当前形势的需要(文改会搞出648个部件频度统计,而不搞部首频度,就是这个意思)。它的数量客观存在,不依我们的意志可任意增减。可以认为,使用替代办法减少部件总数,实质是给严谨的科学掺假,极不可取。

认为拼形码有369个部件,表音码只有190个部首,正好只它的一半,记忆更为方便。殊不知表音码的190个部首,是以读音集合的,字形之间没有任何联系,不能类推,因此,必须逐个记忆;省掉记忆一百多个部件,换来了什么呢?一是牺牲自然间隙作为拆分的依据,增加几千个汉字拆分的困难。二是采用汉字读音占去一个码位,增加了将汉字划分为三个主观类型的困难。三是按部首读音集合,失去依靠字形特征相互联系的优势。所以,可以认为“优选”是一种不聪明的方法,是一种想取巧,而失之于笨的方法。拼形码虽说有369个部件,实际只有42个特征类,在同一特征类里,通过笔形增减而改变部件形状,因此,同类型的部件相互间有紧密的联系,记忆时可以引起联想,与“优选”相比,占很大的优势。

依据部首进行套拆必须记住全部部首,才能在看见汉字的时候,知道那些是部首,那些不是,方可把不是部首的块拆为笔画或某些部首。拼形码运用笔画结构分型,又以结构特征分类,记忆单元以特征类为主,只有48多个类,相比记忆的基本单元总数已经大为减少。例如有一次,我到某中学讲课时,在部件表里漏印了“”两个部件。学生在输入时发现这两个没有教过的部件,但即时知道它的特征、拆分、归类和代码。可见拼形码根据字形结构规律拆分有举一反三、触类旁通的功效。

我们在上面只列出8个个字来作拆分比较,基本上已可进行总体判断。如果把两个编码的码表列出来,一个一个字进行比较,甲方案如何拆,乙方案如何拆,哪些相同,哪些有差异,就更可知道甲乙两个方案谁优谁劣。

根据统计,表音码拆分后有信息损耗的字1882个,计损耗率为48.28%。可接受拆分为1945字(其中单部件字10个,二部件字97个,三部件字749个,四部件字746个,五部件以上仅43个),其可接受拆分为51.8%。表音码由于取码安排规则自相矛盾,在五部件字中有的取一二末,有的取一三末,有的取一二三,有的取一三四……等,对拆分的可接受性产生了消极的影响。因而,看起来有明显间隙,“拆”确实不难,“取”却需要逐个记忆,也就无可接受性之可言了。

拼形码的信息损耗都是五部件以上,有698字,计18.05%。拼形码的可接受拆分在629个两部件字里是87%,在1250个三部件字里是94.64%。在1068个四部件字里是99.6%。部件数越多的字,拆分的可接受性越高。因为,在两部件字里,已经按拆分规则解决了大多数没有明显间隙的字,这些字后来又作为拼其他字的单元,加上部件拼出另外的字。因此,这些字的拆分就更好接受。例如“业”,“”与“一”相接,没有间隙,经解释后,知道“”与“一”的中间,是因笔画走势不同,使间隙隐没有而连在一起的,可以拆分。“业”字顶上再加一个横笔使成为“亚”,尽管也还是连在一起,该如何拆也可一目了然。若左旁再加一个“口”,则成了“哑”,当然一眼看去,马上就会。表音码采用《新华字典》的部首作基本单元,由于有的部首较大,获得的好处是在拼形码中的五部件以上的698个字中,用2——3个部首拼成的字有143个,即这些字不但没有信息损耗,拆分也方便。但它的区别能力减弱了。例如“麒”,由“鹿、其”两个部首组成,而拼形码把它拆为“广、、、匕、、”六个部件,按取码规则取一二三末,尽管有信息损耗,其区别性能却好了。

由是可知,使用拆分的可接受性和信息损耗率能测定一个方案选用的基本单元的科学性。

 

表音码是在1993年才出场的,照理它是在其他方案的基础上产生的,应该克服其他方案的缺陷,有所前进才是,可是为什么它却包含了几乎所有形码和形音码的缺点?它在拆分中所产生的问题,是有代表性的。因为它采用部首,等于“优选”部分的“块”,这是与以“优选”字根而产生的字形编码拥有同样的缺陷;它又采用拆部分笔画,根据笔形读音设置代码,因此,它也会有笔形编码所具有的缺陷;它又采用读音映射,又有形音码所无法克服的缺陷。

一个存在着这么多缺陷的编码,在1993年还会被专家鉴定通过,说明专家们没有认真将这些编码中的字,一个一个地进行拆分;将它们的规则,一条一条进行认真地核对。仅听宣传,说什么“只要部首加上读音,几分钟就可上机输入”。仅看几个练熟了的打字员输入,自己却没有认认真地试一试。这个问题更可以证明,到1993年,我国还没有产生真正的汉字编码专家。如果有,“万码”就“奔腾”不起来!

 

《汉字编码设计学》目录

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有