湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

论汉字拆分的系统性

 

  我们在上篇文章里批评了王、陈两位教授所提出的“拆分原则”,又指出汉字的拆分必须系统解决的说法。本文就汉字拆分的系统进行论述。

汉字拆分之所以被语文界认为困难是因为它含有四个系统。第一个系统谓新旧汉字系统。论文认为,语文界没有认识到现代汉字系统与古代汉字系统的不同,他们误以为独体就是部件。其实,独体是古代汉字系统的基本单元,部件是现代汉字系统的中间层次。从现代汉字系统中拆出部件而纠缠于过去的汉字系统的独体,就会使拆分变得困难。第二个系统是汉字编码系统。如果对这个系统没有认识,就会不重视给部件定义。定义就是给部件确定拆分的界限。部件没有定义,拆分没了界限,自然就没法拆分了。拆分汉字为部件的目的是编制汉字编码,因此,部件必须定量;定量后要进行分类;分类后要映射为代码。而且,这三项工作都需要与部件定义相关联。如果不理解这个系统,就等于对汉字的拆分的目的和意义没有认识。既然缺乏认识,困难就毫不奇怪。第三个系统是汉字拆分的唯一性系统。汉字是统一使用、统一教育的文字,那么,把汉字拆分为部件也必须具有唯一性。必须从部件系统中找出拆分规律和规则。有了拆分规律和规则,才能制约部件的定量和分类,才能实现唯一性。第四个系统是汉字拆分的认知系统。这是教育心理学中用来分析编码易学难学的关键。拆分是为了编码,最易学的编码就最易认知。因此,文中提出了三个新概念:拆分的可接受性,拆分的可区别率,拆分的信息损耗率。利用这三个概念及它们的统计数据,就可评判一个编码方案的优劣。

 

    汉字字形编码是中国人为计算机输入汉字的一项伟大创举,更为重要的是它开启了一个汉字字形直接排序的新天地。当人们学会了汉字字形输入之后,实际也就是知道了汉字字形的序性。

所有的形码无不需要拆分汉字:有的把汉字拆分为笔画,有的把汉字拆分为字根,有的把汉字拆分为部件。拆分的目的是把汉字的字形信息,转换为键盘符号。利用键符把汉字打在计算机里,显示在屏幕上(术语上叫做输入)。为什么汉字字符会显示在屏幕上呢?原来,在计算机里面已经储存着一个规定的字符集。打出来的字,早就储存在字库里面,是通过软件程序把它复制出来的。文字使用者将视觉看到的形象转换为键盘上的符号,再通过手指击键,使计算机里的汉字现于屏幕上。这就是编码方法的目的。

要想几十个键符代表所有的汉字,就应该将汉字加以拆分,每个汉字都使用1~4个键符来表示。利用26个英文字母键符的排列组合,才能使几十个有限的键表达全部汉字。

现在我们普遍使用的国标二级字库(包含6763个汉字)。字库里的每一个汉字字符,都有一个国家统一规定的代码,称为内码。编码方案设计者的工作,就是制订一定的规则,再根据这些规则,拆分汉字并给拆出来的字形(部件)以一定的代码。因为,每个汉字既然拆出了数个部件,当然也就能得到几个代码了。这些代码称为汉字的外码。字符集中的每个汉字,都编好外码后,编码方案就完成了。使用电脑打出汉字的工作,由程序编制人员编制相应的程序,将外码转换为内码。使用者只要在键盘上输入外码,汉字就能显示在屏幕上。这个工作,就是输入法的工作。

文字的使用还需要一个操作系统。过去我们使用CCDOS,现在我们使用视窗98(即WINDOWS)就是这样的操作系统。编码的程序必须与操作系统挂接才能工作。过去的CCDOS系统需要编码设计者自己挂接。现在的视窗98却带有输入法生成器。编码设计者不再需要编制输入程序,而能直接在输入法生成器上生成工作文件进行输入了。

  外码是提供给输入者学习用的。好坏的关键有两点:一、是不是易于学习;二、是不是便于使用。若搞得好,就能相互支持;搞得不好就会相互矛盾,就会像王永民先生说的一样:好学不好用,好用不好学。

  如何使一个编码方案既好学又好用呢?关键在设计方法的科学性。许多人不知道某些事之所以使人觉得困难,那是因为不了解这些事物的系统性,不了解事物系统的内在结构,想问题简单化、单打一的缘故。汉字编码的困难,关键在于汉字的拆分。所谓简单化,单打一,是指为拆分而研究拆分,不是为编码来研究拆分;为编码而研究编码,不知道汉字编码中,汉字是主体,编码(代码)是客体,不知道不研究汉字字形的客观规律,就不能搞好汉字的拆分。拆分因编码而来,不研究编码,就研究不好拆分。

如果追溯历史,汉字字形编码的产生,应该说从许慎始。许慎为了使汉字能够检索,在上万个汉字中,搞出了540个部首。部首,就是汉字字形的一部分。利用一部分字形,检索到汉字,开启了字形排序的先河。当然,540个部首本身的检索也还是个难题,许慎就将这些部首加以分类。虽然这种分类的方法不十分科学,但比起没有任何依凭,要从上万个字中查到某个字,显然要方便得多了。

  这种利用汉字的部分字形来检索汉字与我们现在的汉字字形编码利用部分字形编为代码把汉字输入电脑是同样的道理。从信息传递的角度来看,部分的汉字字形反映部分的字形信息,如果我们能够把汉字拆分为全部部件,就能够反映全部汉字的字形信息。历史上有许多人曾提出字元、字素、字原等名称作汉字的中间层次,以便拆分汉字,得到它的基本单元。但始终无法建功。其实,并不是汉字太难拆。而是命名的不恰当。直到“部件”这个命名出现后,拆出汉字的基本单元就容易起来了。

 

  笔者十余年来,一直研究汉字编码,从中发现汉字难拆的原因是因为人们不理解汉字拆分的系统性之故。汉字的拆分隐含着4个系统。现论述于后:

 

一、古今汉字系统:

我发现有的人谈汉字拆分,囿于许慎的“独体为文,合体为字”之说,把独体或部首当作部件,好像它们天经地义地就是现成的部件。他们不知道许慎说的独体,是古代汉字系统的基本单元,是不能拿来当部件用的。自笔画系统取代了旧汉字的弧曲线后,汉字系统不再是只有两个层次的、由“独体——合体”构成的汉字系统了。例如在古代,“虎、鱼”等都是独体。如果把这些字都当成汉字的部件,拆分的困难就大了。因为,在这些字中,“七、几、田”都是成字,一个“虎”字中,就含有两个成字。一个部件,比两个成字还大,那就说不过去了。所以,用古代的汉字系统来分解现代汉字为部件,行不通。现代的汉字系统是由“笔画——部件——成字”构成的三个层次的系统。请看下边的“古今汉字体系比较示意图”。左侧的许学汉字体系,独体也是成字,合体的字是由独体拼起来的。现代汉字系统是由笔画、部件、成字构成的,一部分笔画是成字也是部件,例如“一、乙”;一部分笔画是部件不是成字,例如“ 丿丶、乚”等;有一部分部件不是笔画也不是成字,例如“疒、夂、刂、冫、巛、匚、彡”等。这个系统与许学系统大相径庭,如果不认识清楚,用许学系统来拆分汉字,就拆不出部件来。

 

二、汉字编码的结构系统

汉字要编成代码,就必须拆分汉字为部件,给部件定量(即列出一张部件清单),给部件清单中的部件分类,然后,将部件类映射为代码。经上述的步骤后,编码方案就完成了,剩下来的事就是给每个汉字编代码,形成一个所有汉字的代码表。代码表拿出来后,就可以让软件编程专家编成输入法在计算机上输入汉字。现在的windows98桌面系统带有“输入法生成器”,码表可以直接生成输入法,编码设计者只要做好码表,就不需要再请程序编制专家来做输入法程序了。

汉字编码方案的基本单元是部件。部件是拆分汉字而得到的。但是,没有部件的定义,就没有办法拆分汉字。所以,若要拆分汉字,首先要给部件定义。80年代,文字改革委员会曾经搞过一次部件频度统计,已经给过一次定义,意思是:部件大于笔画,小于或等于成字。这个定义实际是很不科学的。不科学的部件定义,当然生产不出科学的部件来。

部件定义就是划定部件在汉字中的边界。然而,“大于、小于、等于”这些讲法,无法在汉字中正确地划出部件的边界,因为它没有讲出汉字部件的本质属性来,当然也就无法正确拆分汉字。所以,部件没有正确的定义,拆分一个指定的汉字字符集的汉字为部件,必然困难重重。

我认为,只有先正确认识部件这个命名,才能正确给部件定义。

部件这个命名是从机械学中引用的。它包含:

(一)   它是中间层次(即从整机到部件,再到零件);

(二)   它是相对独立的;

(三)   它是可单独分离的;

(四)   它表明“拆——拼”应该是可逆的;

(五)   它摆脱了字音、字义整体性的干扰。

 “部件大于笔画,小于或等于成字”,这个定义,死搬硬套机械学中的概念,而不知区分汉字部件与机械学中的部件的不同。在机械学中,整机、部件、零件是截然分开的。而汉字中,“一、乙”是笔画,又是部件,又是成字,可以说“身兼三职”;“口、人”等很多成字,又“身兼”部件。笔者已经在上面的图示中指出这些不同的地方,这里就不必赘述了。同样,部件还有相对独立、可单独分离开来的意思。因此,正确的部件定义应该是:部件是汉字中相对独立的、可分离的笔画结构块或基本笔画。

利用上述定义,就可以拆分汉字为部件了。一个字符集拆分后,就会得到一张部件清单。也就是说,部件能够定量了。任何一个科学的设计方案,从程序上来说,首先就是给使用的基本单元定性定量。设计的编码方案的基本单元是部件,那么,科学的编码方案就是部件的定性定量。部件的定义就是定性;根据定性产生的部件清单,就是定量。定量就是使部件有了固定的数量。但是,由于这么多(几百个)的部件不可能一个一个地与键符对应(映射),还需要分成几十个类,以便于映射成代码。根据笔者研究,部件的定义必须与拆分、定量、分类建成有机的联系,构成一个相互制约的系统,才是一个完善的汉字编码方案。如上页右图。

上述定义,由于其“相对独立性”,可以用来给部件定量;其“可分离性”可以用来拆分汉字;其“笔画结构”可以用来给部件分类,再由分类映射出每个汉字的代码,制成一个完整的汉字字符集的码表(即每个汉字都有了一串代码的总表),完成了汉字编码系统的研制。如果对这个系统没有认识,就无法制成完善的编码系统;也就不可能正确认识汉字的拆分。

 

三、汉字拆分的唯一性系统

汉字是全国统一使用的文字。汉字拆分出的部件,也应该是全国统一使用的部件。所以,必须要求汉字的拆分具备唯一性。所谓唯一性,就是要求每个汉字的拆分,都只能有一种拆分的方法,不应有第二种拆法。然而,部件是汉字的中间层次,在拆分中必然产生多义性。因此,除了部件的定义和定量之外,还必须制定拆分的原则和规则,以制止二义性。然而,拆分的原则和规则,并不是凭空而来的,它必须来而有据,必须与定义、定量构成有机的联系。这才能构成了一个汉字拆分的唯一性系统。如右图:

笔者研究了很多字形编码方案,发现这些方案大多把取码当作了拆分。其实,拆分与取码是两个不同的概念。取码是指从一个汉字中如何取出所需要的部件以便输入。而拆分则是指如何把一个汉字拆分为多个部件。拆分不能背离它的原则和规则。

上面的图示,部件有定义才能拆分,能拆分才能得到部件清单(即部件定量),这里的意思当然可以明白。但是,没有拆分规则,部件就不能定量,因为,部件是由笔画构成的。在清单中,有的部件可拆可不拆,没有明确的拆分规则,定量就有困难;反过来说,只有在规则中订定“部件不拆”,清单才明确下来。拆分规则也必须体现部件的本质属性,所以,它与部件定义,同样存在着不可分割的联系。

 

四、汉字拆分的认知系统

将汉字拆分为部件必须便于认知。它包含三个全新的概念:

(一)拆分的可区别率(区别率的反面就是重码率)

不拆分的、完整的汉字,它能带给我们是全部汉字的字形信息。但是,不拆分当然是不可能的。因为,键盘上只有26 个有序的键(也可以认为加上10个数字键为36个有序的键符),拆分汉字为部件,就能够使整体的字形信息改变为部分字形信息,映射为键符代码后,利用键符的组合排列,才能使几千个汉字和它的词组得到区别而进行输入。这就是说,把汉字拆分为部件,是利用汉字自身的字形信息产生区别率,以便于认知,就不需要死记硬背了。一看到字形,就会联系想起它的代码。这就是拆分的目的。

假设每个汉字都拆为笔画,不受到取码的限制,就有最大可区别率。但有的字笔画多达几十个,每个字输入必须击键很多次,因此,不利于使用。所以,才要将汉字拆分为部件。部件数量少,一眼就可看出来;笔画就不能一眼看出。为了最大的可区别率不仅影响认知,也会影响输入,这是不合算的。所以,自有编码以来,根据用字的规律,每个字最佳取四个代码。拆分的目的是为了输入,输入不方便了,区别的意义也没有了。一个字到四码就有最合适的区别效果。如果只有两码或三码,区别能力稍差,不过,仍可以反映全部字形信息。

(二)拆分的信息损耗率

形码是以汉字的整体字形信息,拆分为部分字形信息,进行编代码的方法。所以,最理想的结果是全部字形信息都能返回,即实现无信息损耗。例如将“照”字拆为“日、刀、口、灬”四个部件,那么,拆分后的输入,是四个部件。返回仍然是四个部件,可以原原本本一点都不少地重新拼成“照”字。这就叫做信息无损耗。

部件超过四个的汉字,为了输入效率,每个字只能采用(取码)四个代码,部件多,取用少,多出来的就叫做字形信息损耗。过多的损耗会影响输入中的认知。一个字符集中,超过四部件的与总字数的商,称为字形信息损耗率。笔形码之所以不可取,就是因为字形信息损耗过多。

拆分是为了区别,部件定得大,字形信息损耗少,但区别率会受影响。各个汉字拥有的部件数量不等,取码又必须限制,在指定的字符集中不能不产生某些字的字形信息损耗。因此,必须要求最大的可区别率和最少的信息损耗率。同时把拆分的可接受性列在最重要的位置。所以,必须有适当的部件定位(即确定部件的大小)。当然,根据笔者研究,部件的存在是客观的,并不是由我们主观定位的。

(三)拆分的可接受性

拆分汉字,最重要的是我们的心理是否很容易接受,称为拆分的可接受性。拆分的可接受性强,一眼就可看出这个字部件的边界在那里,含有几个部件。反之则差。

例如“可”的拆分有如下三式:

丁、口

一、口、亅

一、丨、、一、亅

以上的三种方法,哪一种最能为使用者的心理所接受?当然是第一种。因为,这里的前提是“将汉字拆分为部件”。“可”字的两个部件,“丁”与“口”,一眼就可看出。其原因是它们之间有明显的间隙。所以,最具有可接受性的是按间隙拆分。有的人认为:应该要求每一个拆分汉字为部件时,都与汉字书写笔画一致。大多数情况下应该这样。但是,这不应该作为先决条件。这就好比把一些零件组装成部件,再组装成整机,不可能都是先装好部件,再组装成整机的。大多数整机的组装,当然要是按这个顺序。但有时候必须在某些部件中拆下某个零件,才能使其他部件装上,而这个部件只能分开安装。说汉字的部件应按笔顺拆分,这样就会使“可”字的拆分,变成了上面的第二种样式。但是,这第二种样式却不符合使用者心理上的接受。如果把“按笔顺拆分”作为先决条件,那么就会形成了如上的第三式,即全部拆分为笔画,而不是将汉字拆分为部件了。

再如有人将“黑”

也列为部件,他认为此字上面的“”,没有称说,组字量又少,还是不拆分算了。这就好比把“音”也作为部件一样,抹杀了间隙。我们是依靠间隙才能拆分汉字为部件的;没有了间隙,汉字就不能拆分了。我不反对个别处理,但是,个别处理必须在拆分规则里才能体现。

拆分优劣比较的第一种方法:可接受性。将所需要拆分的汉字集所含的汉字,分别予以统计,就可得出它的百分比。

可接受性必须有个前提,就是部件有定义。我们已经在上面提到:部件是汉字中相对独立、可分离的笔画结构块或基本笔画。这样就把部件的两种类型(笔画结构块、基本笔画)和两个基本属性(相对独立性、可分离性——是因为利用间隙而得到的)讲清楚了。部件就是部件,它不受什么“部首”、“独体”或其他称谓的限制,而是受它自己的属性的限制。因为,“部首”或“独体”从来就没有科学的定量,事实也无法定量;而且它本身就属于古代的汉字体系(独体——合体),而不是现代的汉字体系(笔画——部件——成字)。所以,在现代汉字中,以上述两种属性能一目了然地析出部件。“黑”,就现代汉字体系的眼光来看,“”和“灬”是两个相对独立的、不同的笔画结构块,有明显的间隙,因此,分为两个部件是很容易为人们心理上所接受的;相反地,如果把它作为一个部件,就会模糊部件的属性,不易为人们心理所接受。汉字拆分的可接受性越强,部件认知的程度越高,拆分就越容易。

汉字拆分的可区别率和汉字拆分的信息损耗率,都会直接影响字形信息的认知。一个字拆分为四个部件,带有全部汉字字形信息,具有完全的可逆性,因此,学习者最容易接受。所谓完全的可逆性,是指拆出来的四个部件,能重新组装为原来的字。超过四个部件的字,由于只取了四个码,的一部分字形信息损耗了,就不能重新拼回原来的字形,其可接受性就受到影响,也会影响认知;反过来说,低于四个部件的字,虽能包含全部字形信息,但其区别性能差了,也同样影响可接受性,也就会影响认知。最高的可区别率,最低的信息损耗率,才有最大的可接受性。见右图:

编码方案的优劣,可以就这三点:拆分的可接受性、拆分的信息损耗率、拆分的可区别率进行比较。如果对这个系统缺乏认识,拆分的好坏就无法知道。

这个系统实际就是汉字拆分优劣的检测系统。任何形码方案,都可以用这个系统进行检测、比较。

 

结束语

   

    古今汉字系统说明:拿“独体、部首”往部件的头上套,这叫做张冠李戴,不合用,拆不出部件来。因为,在这个系统中,没有部件。

    汉字编码的结构系统说明:不理解部件定义的重要以及与拆分、定量、分类的关系,就无法拆分汉字为部件。

    汉字拆分的唯一性系统说明:拆分规则在拆分中与定量、定义的内在联系(但拆分规则不是事先拟好的,而是在审定部件清单后归纳出来的)。汉字字形教学是统一的,所以汉字的拆分必须是唯一的。

    汉字拆分的认知系统说明:只有最易认知的拆分方法,才是最科学的,才能为全社会所接受。由于它具有可统计性,因此,就可以依此进行汉字编码方案优劣的比较。

如果不知道以上所说的四个系统,就无法科学地把汉字拆分为部件。

所谓汉字编码,汉字是主体,编码是客体。是要寻找如何将汉字拆分为部件,如何将部件分成适合编代码的类的主体规律;要如何运用最直接的转换方法将部件转换成代码的客体规律。因此,它的工作应从属于文字学研究的范畴。问题在于这些研究是字形的研究。尤其是部件这个命名的提出后,与字音、字义,已经“断绝关系”了。而我国的文字研究,几千年来,一直在字义(训诂学)、字音(音韵学)里打转转,根本没有专门的字形研究。所以,许多文字学家,在汉字拆分面前显得束手无策。再加上近一个世纪以来,汉字又被贬为落后的文字,众多的语言学家还打算以拼音文字取而代之。那么还有谁愿意花力气来研究这种落后的、即将消逝的文字呢?还有一些人甚至认为“汉字编码是汉字的枷锁” 。既然是“枷锁”,还有什么研究的价值呢?所以,他们就因为疏远而变得外行了。有位语言学家甚至说:“什么是部件拆分,把汉字拆分为部件,称为部件拆分。” 外行到这个程度,并不仅仅是因为疏忽,而有其极深层的内在原因。本文当然不便细述,否则就要离题了。

一个汉字编码,即一个设计方案。一个科学的设计方案,首先就应该建立一套系统的理论。可是许多人热衷于设计方案,却冷淡于基础理论的建设。这就是“万码奔腾”的由来。笔者十余年来一直从事于汉字编码的基础理论研究,著成《汉字编码设计学》,如读者觉得还有需要了解的地方,或者对此文有其他高见,请与本人联系。

 

   

①这样的例子很多,例如苏培成的《现代汉字部件切分》载《语言文字应用》1995年3月,

②关于部件的命名,请阅潘德孚、詹振权著:《汉字编码设计学》第114页。中国城市出版社,1997年11月。

③见钱玉趾《也谈汉字部件与汉字字根》,载《语文与信息》1995年10月第5期。

④见《对部件称说的建议》,载《计算机世界•专题报道》1998年4月27日D5版。

⑤见潘德孚《〈科学地看待汉字〉读后感》,载《汉字文化》1999年第4期。

⑥见《关于制订〈汉字部件规范〉的若干问题》,载《计算机世界•专题报道》1988年4月27日D1版。

 

 

 

下册

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有