湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

§4.4  系统性原则

 

“有了系统的思想和研究,才有定理和定则的发现。定理定则是一切真知灼见的基础。”8)

一、遵循系统原则的重要性

系统性原则是指汉字编码的设计必须遵循汉字和编码的结构规律,通般考虑汉字的用造学检的形成,以及它们各部分、各系统从属和相互关系,并建立系统的结构模型,以便使我们更加深刻地理解和衡量汉字系统与字形编码方案设计结构的严密程度,认识现在的方案成熟与否;更为重要的是通过系统模型的建立,可以对照、考察各个方案的完善程度。不完整、不成熟的系统,不可能实现汉字现代应用的宏大目标。遵照系统原理,我们就能从汉字变革和编码设计的误区中走出来。

文字因历史而变化,因系统而存在。所以,历史是变化的动力,系统是制约变化的框框。不看历史,就不能理解变化的原因;不知道系统,就不会理解在变革中制约的必要。汉字拼音化之所以劳而无功,就是因为不理解汉字的系统存在的原理。万“码”奔腾之所以形成,正是许多设计者对编码设计缺乏系统考虑的结束。有的人看到别人方案某方面不好,就着手改进自己的设计,于是又一个新方案出来了;事后另一人觉得他“拆了东墙补西墙”,仍有破洞,于是通过修补,另一个方案又“发明”了!有的人单纯地打拆分的主意,认为只要把拆分解决了,汉字编码的“瓶颈”就突破了。例如《电脑汉字拆规则的研究》(9)认为解决汉字拆的“瓶颈”应该“以笔顺为序,根顺服从笔顺,每个代码所依赖的字根必须是连续写成的。”一条规则就把汉字的拆分挤到死角里去了。但搞来搞去,解决不了“囗(大口)”和“丁”等一些不相连而又必须称为部件的部件。这些人都根据他们的理论拿出了方案,但又无法弥补新的漏洞。“以笔顺为序”,背离汉字的造字规律,皆因为没有理解汉字构成的系统原理。

现在编制或研究汉字形码方案,一些人并没有把它的设计当作一个系统工程。编码按照规则去编,规则就应该完整无缺。没有拆分,就无法取得部件;没有部件,就无法准确分类;不能准确分类,就无法编制相应有理的代码。这就是编码设计的系统性。

有的人于是以为重码越少越好,单纯想降低重码率,采用无理安排,结果肢解了自己原先的设计原理,造成了“好用不好学”、记忆量大幅度提高的难堪局面。有的人为了几个重码字,把代码改来改去,花了几年时间,发现有的字重码减少了,另外一些字又增加了,白费力气。为了提高输入速度,有的人利用词组输入,以为词库越大越好,例如声数码,研制出几十万字的词库,结果是没有人能记得住和用得上。这是什么道理?因为,修改者不理解码表完成后,就成为一个系统。系统,就象一个球体,任何一点受到压力,球上的每个点都会受到同样的压力。

汉字编码方案的设计,关键确实是汉字的拆分,把汉字拆为部件,就象把原子拆为粒子。拆分原子,需要付出能量,最后收回巨大的能量;拆分汉字,也需要付出代价(现在的代价就是“万码奔腾”的人力物力),也会得到巨大的收获。要得到这些“能量”首先考虑的当然是如何使用,其次考虑的是如何制约。使用,就是指汉字拆分后的四项应用,我们在第一章第三节里都讲到了。制约,就是指如何防止不规范拆分。我们在本书第六章里论述拆分的可接受性、拆分取码的信息损耗率以及信息的可区别率,都是为研究这个制约的问题的。我们讨论这些问题,需要排除干扰,实事求是,不厌其烦,逐个比较,只有这样,才能做到严谨而科学。研究汉字编码设计的基础理论,必须防止就拆分论拆分、就分类论分类等等不系统的另打碎敲。因为,科学首先是系统的。系统,就是既考虑产生,又考虑制约,只有产生而没有制约,就不能构成系统。

编码既是一个系统工程,设计时就应该作系统的考虑,不能就事论事,不能单打一。如果主观武断、以偏概全,就犯了编码方案设计的大忌。认识汉字字形编码方案设计思想的系统性,理解系统依存的原理和原则,就可以使我们的设计朝着既定的目标前进。

二、系统性原则的贯彻

(一)编码必须兼顾汉字的用、造、学、检

在世界上最重要的古代文字中,只有汉字直到现在仍然被当作正式书面语来使用。其它如埃及的圣书体,巴比伦的钉头文字,都早已消亡了。(埃及象形文字在一千四百年前已经消逝;楔形文字则早在公元前四世纪就随着波斯王国一起灭亡了。)而汉字由于字形稳定,字义明确,所以能超越时间历久不衰。几千年来的文字典籍,光明透亮。用拼音法的英文,五百年前的记录,非专家不能通解;而我们一两千年前的诗文,……就是刚识字的几岁孩子,都能念得津津有味。所以汉字被认为“有超越时间的功能,是世界上通行面最广,使用人数最多的文字。”(10)有人虽然懂得这个道理,但仍然坚持要用笔画音符构造的新文字来替代表意汉字。其实,所讲的汉字能力,不在笔画之中,而在于能够通过笔画结构理解信息。

文字是语言的书面表达形式。早期的人类,语言简单,使用少数图形符号,互相交换信息。随着人类文明的逐步发展,少数的图形文字,无法表达越来越多的语言信息。文字不得不逐步增加。文字的增多,就会带来记忆的困难。于是汉字在不断地发展变化着。在汉字演进的历史过程中,它却遵循着区别律和简约律这两条规律。区别律使文字增多,有利于区别不同的信息。文字增多会增加记忆量,就得使用简约律来制约,使文字约简(例如简化汉字),有利于记忆和旅途应用。区别律和简约律相辅相成,相互制约,构成了文字和文化的不断发展。汉字的用、造、学、检,互相配合,共同促进,已经经历了五千个年头,任何背离汉字系统结构原理的设想和实践,都会徒劳无功。这当然只是一个方面,最重要的是它的用、造、学、检系统的完整性,和它的历史的继承性。这就是世界上所有文字都起始于象形文字,其他文字都拼音化了,而中国的汉字却永久长存的道理。

汉字拉丁化的目的是利用汉语读音,造出拼音文字。造字是应用字的需求而来的。没有用的需求,人们就不会无缘无故地造字;造出来也没有人学。没有人学,就不能铺开。铺不开,也就没有办法用。这是一个系统的连环扣。有人曾经认识到文字发展应用是由少至多的,主张用拼音文字逐步取代汉字,例如用“D”代“的”,用“S”代“是”。过去有几个作家在他们的作品里用过几回,看起来也不行。尽管“D、S”书写或学习确实比“的、是”方便得多,但用惯了方块字的中国人,却并不喜欢这种“简化”字。任何实权的系统,都是一个“活体”,都具有排异功能。对汉字的笔画结构系统来说,“S、D”是不能容纳的异物,它不受“欢迎”,只得自动“告退”。拿整个汉语拼音文字的造字系统来说,造字的原理,造字的方法,都还在争执,还没有系统性论述和共识;它的学习班系统,不停留在专家们的议论上。全国的教育系统,还有几个基础教育课堂上的老师,具备将拉丁汉字教育学生的条件。即使有这样的教师,也有这样一看即会的拉丁汉字,这几个教师教出来的学生,拿这些文字到社会上也没有地方可以使用。因为拉丁化文字有自己的用、造、学、检的文字系统(而且,它的产生必须具备一定的时空条件)。这个系统与方块字的共通之处就是标准的普通话读音相同,除此之外,没有任何联系的了。现在有文化的父母,不能用拼音文字教育自己的孩子;老师无法用拼音文字教育学生;子女不能与长辈通信;有知识的人无法发表被看不懂的论文;古代的文化典籍无法被现代学过拼音汉字的学生看懂……这就是历史文化科学的断层。一个人只有短暂的几十年生命,而构成汉字文化的却是一个汪洋大海,人们所能接受的知识,仅仅是整个汉字文化中的一点一滴。因此,如果用拼音文字勉强取代汉字,其结束必然是:文化的断层,民族的毁灭!

汉字简化的成功,正是不背离汉字的造字原理的缘故。例如“灭”,“火”被一个东西压住了,自然就“灭”了。又如“妇”,女旁的“帚”,简化为“彐”,甲骨文为“”,篆书为“”,现只采用了它的上面部分,但仍然象形。继承和利用象形、会意等造字方法造简化字的好处在于易使人理解和接受。就是说,汉字的造字法便于学习和记忆,符合中国人的认知心理。象形、指事、会意、假借、转注、形声,构成的汉字系统,是一个完整的系统,可以应付社会信息发展的任何需要,要想废止,并不那么容易。

造字的目的是为了用,也要注意学。即是说,造出来的字,必须好用,还必须好学。只有这样的造字方法,才能被用、学两个系统所接受。检字系统产生的时间最晚,因为,只有少量的字是不需要检的。所以直到汉字已经有了上万个,为了应用和学习的需要,人们才想到了检字。过去人们又检字没有速度要求,现在时代不同了,计算机应用需要快速检字,才有了编码的设计。理解汉字的造、学、用、检 系统,有利于理解汉字的变革是要受系统结构约束的道理。

在现存汉字系统中,用、造 、学三个子系统是完善的,因为,造字的要求是易造、易学、易用;而检字等系统仍有不足,因为,检字要求能拼、线性、有序,但汉字原来的检字法却不行。这当然是现代科技应用要求造成的,所以才需要用汉字编码来补足这个缺陷。

前两段说明文字以“用”为依据。以汉语拼音造出来的文字去扫盲,当然也能够让人学会。可是这些人学会后,拿不出用。因为你拿出来人家看不懂。造字是为了应付用的需要。没有用的需要,造字的意义消失了。拼音化的理想主义者把“用”和“造”的程序颠倒了:先造后用。结果就事与愿违。汉字的用造学检系统是历经几千年逐步建立起来的,这决不是拉丁化的“新文字”所能代替的。

(二)编码必须立足于汉字的时空系统

五千年的民族文明,有使用汉字记载的浩瀚的典籍;从少数的的象形文字,发展为六万多个庞大的汉字队伍;从私相授受的个别教育,到现在规模庞大的教育系统;从《说文解字》到发行已达大亿册的《新华字典》,已经构成了一个巨大的汉字时空系统。随着文化知识的普及,这个系统的规模就越来越大,越来越坚固。它所构成的内在规律,正因计算机的中文应用而受到冲击。实际只有一个小难题:汉字没有序性。只要使用科学的编码方案解决这个问题就可以了,不应这一点点麻烦而因噎废食。有的人提出“汉字要服从信息”,有的人要“削”汉字之“足”,“适”编码之“履”,⑾实际是不理解汉字的时空系统的稳固性。

“汉字服从信息”论者背离汉字的历史性、涵盖性、系统性三大原则:历史性原则,是指汉字在这么长的历史过程中,经过了这么长的时间,它的发展变革,都出于时代的应用要求;它的生存、发展都是历史的必然,有必然的客观规律。涵盖性原则,是指汉字覆盖着这么大的空间,有着世界上最多的使用人群;它记载着五千年的文明信息,是一个淘不尽的科学宝库。系统性原则,是指因历史性、涵盖性,实际构成了一个稳固的时空系统结构。其系统结构如图5。从图5见从时间维度,汉字囊括了五千年的汉字文明和它的发展规律;从空间维度,汉字囊括了所有汉字使用的领域,即所有的汉字文化;汉字纵横关联形成一个完整的颠扑不破的系统结构。

图5  编码设计时空系统结构原理示意图

(三)编码设计必须建立系统的结构模型

编码设计又我们来说很陌生,每个设计者就好比瞎子摸象,有的摸着鼻子,有的摸着象脚,有的摸到象背,最后归纳出大象的全身的图象。这个“全身图象”,就是设计的模型结构。

从笔形码又表形码,汉字编码终于走到了它的尽头,设计的规律被发现了。我们讲的设计规律是一个系统,它包含:设计原理(结构模型)、设计原则、和具体规律。图就是字形编码的设计原理(结构模型)图。

图6  编码方案设计系统图

从图可以看出,形码设计的始点是部件的定义。部件有了定义,就有了划分部件的标准;部件就可以定量;也可以根据定量进行分类。划分部件的标准就是拆分的界限。拆分、定量、资料既相互特约,又相互资生。它们与定义也存在同样的贫生、特约的关系。这个图象说明,有使编码的设计具有高度的科学性,必须严格“按图索骥”。没有设计模型的设计就是不科学的设计。这个设计图,是根据众多的编码方案的设计内容,归纳出它们的共同规律。例如所有的形码都需要拆分汉字;都需要给自己的方案规定编码要素的数量;都需要给这些要素分类;都需要给编码的要素定义。因此,这个图里的内容,就是它们的共同需要,也就是共同规律。有的方案设计时往往主次不分,主客颠倒,因此设计出了偏差,问题出在定义上。对照本图,各个方案都可以按照这个结构图比较自己的设计方法,符合的有多有少。从电报码到表形码,都不能打满分。就是说,编码设计方法的不断变化体现它已经成熟,但还须继续完善。俯观编码设计,已经从主观走向客观,从粗糙走向完善。从人为走向科学。这个设计图,是编码设计的总结,它为汉字编码的统一创造了条件。这就是统一的曙光。

从这个图里还可以看出从分类中产生了部件的代码,形成码本,码本窆后,编码的系统建设就完成了。它对内是封闭的,要进行某些修改,就涉及整个汉字集;它对外是开放的,适用于编制教材,在基础教育课程中进行正字教育,为字典排序以提高检索速度,同时用于汉字输入。

客观存在的任何系统,都有其独特的内涵和外延。内涵是它的封闭性;外延是它的开放性。例如汉字编码,它的内涵是:部件的定义(即定性)、部件的定量、汉字的拆分、部件的分类和部件的键符安排。部件的定义是这个系统工程的核心。不遵照定义进行拆分,就会同时涉及定量和分类两个子系统。再如在形成码本之后,编码系统工程完成了。如果觉得某些部件代码需要修改,就会牵连到整个汉字集许多汉字码位的安排。系统,就是相互依存、相互特约,一动百动。例如没有定义就无法拆分;没有拆分为无法定量;没有定量就影响分类;分类不好就影响拆分。拆分、定量、分类、从定义中产生,也制约定义的产生。编码(映射)从分类中产生,也制约分类,例如分类过多和太少,都会影响映射和记忆。系统形成之后,内部几个因素相互平衡,基本上不受外部的影响,例如编码方案的码本完成之后,不再受输入法的影响了,故称之为封闭性。编码输入或汉字检索,或资料排序等都是它的外延应用。故称之为开放性。

编码的设计系统是客观存在的,这是我们归纳了所有的编码方案,发现它无不存在于各个方案之中。只不过各个方案对这些规律的重视与运用的程度有所不同而已。

在理解编码设计系统的结构模型时,还必须把握部件定义这个核心。在汉字编码的设计中,最重要的是部件的定义。给部件定义,必须遵循一个原则:不能背离汉字的造字历史和造字方法。即:汉字有几千年的拼形历史;是用拼形的方法造出来的。我们现在要拆分它,就要理解“拆——拼”应该是可逆的。  

汉字造
字方法
部    件
定    义
 
部件类
代    码
拆    分
定    量
分    类

图7  编码设计中部件定义原则图解

图中的部件定义,承接造字方法。部件定义就是部件划分的标准。既然汉字是相拼造出来的,就可以从相拼的地方拆开。部件有了定义,拆分、分类和编代码就都有了依据。拆出来的部件,又返回到造字方法,说明了拆分和拼合是可逆的。这个图可以检验方案设计的正确与否,也可以检查部件定义的正确与否。

上述三大原则从三个侧面反映了编码设计的客观规律:历史性强调汉字发展的时间连续性,编码必须反映并遵循汉字五千年发展史所表明的自我完善的历史轨迹;涵盖性强调汉字的空间联系性,编码必须遵循它与汉字使用领域及使用者的对应性关联;系统性强调汉字的内在结构,编码必须遵循汉字用、造、学、检等子系统间的相互依存和转化。唯有如此,我们才能得到一个科学的能反映汉字规律的编码。

为了说明编码设计原则的发展,我们把五笔字型的设计原则摘抄于下。五笔字型编码设计的基本原则是:

1、  基本字根优选原则;

2、  低频字根一法处理原则;

3、  多字根共容原则;

4、  多余信息删除原则;

5、  单体结构拆分原则;

6、  末笔字型交叉识别原则;

7、  键位按频度放射排列原则;

8、  按书写顺序取码原则;

9、  字根键盘依形分区划位原则。(12)

拿上面的五笔字型的设计原则,对照我们所论述的设计原则,相互比较,就可以知道五笔字型乃是编码应用初期的一种低级的设计思想。在那个时候,计算机的中文应用还处在初期阶段。人们还不知道如何使用计算机打字,才会有四通的电脑打字机占领市场的阶段。论应用功能,四通的2401型打字机远不如现在被淘汰的286型计算机,就当时的价格来说,也是购286型比购买2401型合算。然而,286型计算机的销售和使用,却远不如2401型打字机。这说明市场与科学是两码事,编码的优劣不是决定占领市场的因素。

对照五笔字型的设计原则,我们可以看出它的肤浅。然而,它却为什么能够占领全国90%的市场?这是因为我们的实践中,过分地重应用,而轻视理知;过分地注重实际,忽视这些实际问题背后的原理原则。只有理解超越急功近利的原理原则,高瞻远瞩,才能真正了解问题的本质;只有认真确立汉字编码设计宏观的原理原则,才能统一全国的编码方案,才能结束这个纷乱的“万码奔腾”局面。

 

参考文献:

1)蒋梦麟:《现代世界中的中国》第150页,学林出版社,1997年1月。

2)蒋梦麟:《现代世界中的中国》第64页,学林出版社,1997年1月。

3)文武:《字形编码终将被时代所淘汰》,载《语文与信息》1995年5期。

4)杜查理:《丘吉尔全传》第411页,红旗出版社,1996年12月。

5)孙剑艺:《论祖国书同文的基础》,载《语文建设通讯》,1994年6月第44期。

6)王永民:《汉字字形编码的原理和实践》,载《汉字编码参考资料》,第317页,中国中文信息研究会汉字编码专业委员会,1983年元月。

7)卓睛君:《要为我们的娃娃选择一种什么样的字形编码方案》,载《中小学计算机教育》,1993年创刊号。

8)蒋梦麟:《现代世界中的中国》第68页,学林出版社,1997年1月。

9)王希曾:《电脑汉字拆分规则的研究》,载《中文信息》1994年第2期。

10)袁晓园:《汉字现代化方案》,展望出版社,1981年4月。

11)王永民:《五笔字型计算机输入技术》,第19-20页,河南科学技术出版社,1985年。

12)王永民:《五笔字型计算机输入技术》,第4-16页,河南科学技术出版社。

 

 

《汉字编码设计学》目录

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有