一门新学科的诞生 序二 1 1941年抗日战争进入最艰苦的阶段,在抗日根据地的扫盲工作中,我们曾经推广过“新文字”(就是现在的汉语拼音)。那时,一小片一小片的根据地,还在日本侵略者的分割包围之中,在根据地要用“新文字”代替使用了几千年的汉字,其脱离实际的主观程度,也真够可以的了。可是,我就是那个时候学会了汉语拼音的。 从“五四”运动开始,人们就认为方块字难学,甚至把中国科学文化落后的罪状,也强加在方块字上。新中国建立之后,有许多文字改革家,仍然念念不忘使汉字“拼音化”。我国也曾在某些地区推行过“新文字”,但客观是无情的,终究因为脱离实际和非科学的态度,推行失败了。后来,“新文字”变成“汉字拼音”,成了学习汉字的辅助工具——这当然也是一件好事。 汉字到底是中华民族的优秀遗产还是因袭的历史重担,汉字是不是难学,中国科学文化的落后的罪状,是不是应该加在汉字身上,许多专家已有定论。这且不言。我认为汉字在统一中华民族方面,是起了极其伟大的作用的。我们现在使用的汉语拼音,即汉语注音符号,只能拼出普通话。如果拼广东话(广东又有客家语和海南语等)、福建话,那就要另外创造一种字母。那么中国就不是一种文字和一种语言了(可能是数十种)。一个民族的重要特征,是语言文字的统一,如果汉族有多种文字,就很难说是一个民族了。所以说汉字在统一中华民族方面起着伟大的无可代替的作用,是一点也不过分的。 我国到了 80年代,电脑从国家机关、企事业单位,开始进入千家万户。为了输入汉字,“新文字”又有了新“岗位”,人们最初使用的大多就是汉语拼音(即全拼码),在还没有发明“形码”输入方法的时候,有些人甚至认为拼音是电脑输入汉字的方向。但用音码(包括音形码)有一个前提条件:要能讲标准的普通话。从新中国建立,我国以政权和教育的力量推广普通话,已近半个世纪。我原来以就普通话已经很普及了呢,没有想到,最近几年跑过的不少方言地区,还得带“翻译”。不要说广东、福建这样的地方了,就是山西、山东、河南、河北都属于讲北方话的地区,发音就有很大区别。山西省的许多地方,把“银子”说成“蝇子”,把“雁门关”说成“夜(雁)蒙(门)关”;江苏省的南京、苏州、泰州地区彼此用地方土语,互相也听不懂。有些外地人在北京工作了几十年,乡音难改,还讲不好普通话。鉴于这种方言土语的复杂情况,我认为汉语拼音化的道路,从历史观点看,是脱离传统的;从现实观点看,是脱离实际的。因此在电脑迅速普及的今天,实现普及拼音和形码输入方法,除了他们的其他弱点之外(如重码多等),仅从由于方言土语和人们“拼不准”这一角度看,用音码方法,是很不乐观的。方块字有五千年的历史,覆盖了五千年的民族文化,想以拼音文字代替汉字为会割断五千年的历史,扔掉五千年的文化传统。同时,汉字的发展是由“用、造、学、检”四个子系统构成的大系统。而“造”是应“用”的要求而产生的。汉语拼音文字先“造、学”而后“用”,背离了汉字系统形成的顺序,是不会成功的。因此,作为一个用户,我认为形码比音码的适应面大得多。 2 1989年为了了解编码信息,我参加过一次全国性的电脑输入比赛。只那次参赛的编码就有32种之多。赛后有一个“学术讨论会”。我作为一个用户发了言:提出编码要“科学、迅速、易学、难忘”的要求。发言之后,有好几位编码专家找我,希望我们用他们的编码,并免费提供软件(为了不至于落下先入为主的印象,我在发言中没有说我用的是表形码)。“孩子是自己生的好”,所有向我推荐他们发明编码的专家,都向我宣传他们的编码是如何如何优秀。因此,我也研究、学习试用了几种编码,虽各有特长,但都不理想。到了1991年,据不完全的统计,发明的编码已有五六百种之多了。我在试用的一些编码中发现:有不少编码把汉字的字块分拆得乱七八糟、五零七散,汉字的字块面临被“肢解”的危险。我想已经有了这么多的编码实践,应该总结一下编码的经验,使实践上升为理论。没有理论的实践,是盲目的实践,混乱的实践。所以那年我在《中国科学报》上发表了题为《开展汉字编码的理论研究》一文,建议编码专家“从发明编码的热潮中走出来”,“从功利主义的目的中走出来”,“坐一坐理论研究的冷板凳”。我国使用了几千年的汉字,在进入电脑时代的当前,面临着严重的挑战,进行理论研究,无论对于我国的现代化,对于汉字教育,都有极为重要的意义。我当时的信息不灵,早在1986年,陈爱文先生就出版了《汉字编码的理论与实践》的理论著作,我是最近才看到的。陈爱文先生这本著作,为汉字编码理论奠定了基础。 当时,我在那次学术讨论会上所提出的编码第一要“科学”这一观点,因为我不是文字学家,所谓“科学”的内含是相当简单的。我只是觉得,汉字是“块结构”,我们从小学习汉字是从“部首”“部件”开始的。比如:“弓长——张”,“立早——章”“双木——林”,“三点水——氵”,“单立人——亻”,“草字头——艹”等等。实际上在分拆汉字中,比我想象复杂得多。汉字是由“点、横、竖、撇、捺”笔画组成的“块儿”。有的是一笔,既是单独的“字”,又是“块儿”,有的是两个以上的笔画组成的“块儿”;有的可以叫出名字,如“木”字旁,有的在康熙字典上也没有命名。有许多“块儿”可以拆,也可以不拆,可以这样拆,也可以那样拆。比如“田”字是一个“块儿”,要分拆成“口、十”吗?“四”字要分成“口、儿”吗?“木”字是分拆成“十、八”呢?还是分拆成“一、小”呢?“事”字这个“块儿”,可以有五六种拆法。而这几个例子还是很简单的,更复杂的汉字就不要说了。我是后来试用了别的几种形码之后,才明白了这一点的。有许多形码,把汉字的块结构分拆得乱七八糟,五零七散,面目全非,而且有许多字分拆错误,教人写错字,笔顺也不对。的有的难学易忘,得靠死记硬背,从小学识字教育说,那要遗患后代后患无穷了。 实践逐步使我才明白了,汉字是一种“拼形字”,是由一个、两个,或者更多“部件”组成的。分拆汉字包括着很多学术理论问题,比如:汉字从甲骨文到古篆字到如今的汉字,她的发展历史;什么是“部件”?“部件”的定义和命名,“部件”的“本质属性”,“部件的设计”,“部件的排序”,“部件的代码”……要解决这些问题,得有理论上的开拓和建树。有了理论的指导,有了理论准则,编码才纳入科学的范畴,否则就是盲目的,自流和混乱的。特别是部件的“本质属性”,这个题目也许只有研究过文字学的朋友才知道它的重要性。部件是随着字形编码的出现而产生的一个新概念。它很需要一个正确的解释。《汉字编码设计学》用一整章来研究这个问题。由于对部件的各种错误理解和解释,这是造成目前的“万码奔腾”局面和编码恶性“膨胀”的根本原因。人人都说自己的编码是最好的编码。编码界和文字学界面对这种“公说公有理,婆说婆有理”,“好码难登场,劣码占市场”的局面束手无策,就是缺乏理论,缺乏公认的准则的结果。《汉字编码设计学》为我们讨论和带着这张根本问题提供了一个契机。 3 我用电脑写作之始,用的就是陈爱文先生发明的“表形码”。陈先生的重大贡献还不仅仅是“表形码”的发明,还在于《汉字编码的理论与实践》中的对汉字结构的科学分析、认识,据此,对汉字部件的处理、分类、拆分,提出创见性的意见。时间过了五年,潘德孚和詹振权两位先生给我寄了一本《汉字编码设计学》的专著。看了这本编码的理论著作,令我兴奋不已。在本书中,作者对汉字编码的内容与方法、编码的历史发展、各种编码的设计方案的比较、编码的设计原则,特别是对汉字产生历史、造字原则、结构规律、检索演变及对多种编码进行了全面的分析评判,找出并论证了汉字的“部件系统”,以此为根据,提出了汉字的“汉字拼形系统”的概念,制订了“部件清单”。这是在陈爱文先生“表形码”的理论和实践基础上,从理论上说使之更加系统化了,从实践说进行了更深入的研究和有着创造性的发展。 《汉字编码设计学》开辟了一个新的学科领域,在我国进入电脑时代的今天,《汉字编码设计学》对于继承我国汉字的优秀文化遗产,进行汉字教育,字典、图书资料、档案的检索、查阅和编目,对于我国走上信息高速公路互联网络,都具有重大意义。 汉字编码既要尊重我国汉字结构的客观规律,因为要适应电脑键盘上的英文字符。这就必须有所创造和创新。潘德孚、詹振权先生的《汉字编码设计学》,应该是开辟和创造了一门新的学科领域,是适应电脑的运用而诞生的,是一项新事物。既然是新事物,就难免有不完整、不确当之处。任何新事物都不可能一诞生就完美无缺的,都需要经过实践,再发展、再完善。特别是这项新学科,还需要经过诸多文字、语言学家、编码专家的讨论、争鸣,才能走向成熟。现在,迫切需要的是:对这本著作首先有引起理论家和国家有关方面的重视,重视了才能去研究、讨论,研究讨论了才能进行鉴别,鉴别了才能取得共识,有了共识,才能推广应用。 4 现在“码家军”已经发展到了一个团了(据不完全统计是 1600多种)。目前的主要问题,不是再发明新的编码(原来我以为发明了一种编码很困难,现在看并不是那样),而是要结束这种编码的“春秋战国”局面,必须在一定的理论、原则的指导下,通过讨论、争鸣,进行必要的整顿、一。正在这个时候,陈爱文先生的《汉字编码的理论与实践》和潘德孚、詹振权二位先生合著的《汉字编码设计学》为我们提供了这样一基础。尽管他们的理论研究,还有待于深入、完善,然而,如果经过讨论、争鸣,推出一种或几种优秀编码,这对我国走向信息高速公路,对汉字教育和字典、档案、资料检索,都有重大意义。果真是这样,则国家幸甚,民族幸甚,现代化幸甚。 韶 华 1996年10月30日
|