湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

 

《汉字不够用了》一文的错误在哪里?

 

2000年9月25日米阿仑先生在《人民日报•海外版》发表了《汉字不够用了——中文信息产业发展的尴尬处境》。此文的错误甚多。发表在这样一个对海内外都有很大影响的版面上,会误导很多人。因此,我认为有必要就此文中的几个主要问题提出商榷。

 

 

一、 是汉字不够用了吗?

 

根据《汉字不够用了》这样一个题目,作者写的是两层意思:一是讲计算机里的汉字不够用了,例如他说,“输入法选择永远不能解决汉字数量是否足够的问题”。米先生不知道“输入法选择”的目的是挑选一个科学的、易学易用的输入汉字的方法,与汉字数量是否足够根本不存在任何联系。二是讲汉字系统本身的汉字不够用了,例如他说,“去年,国家颁布了新的化学名称,使用的汉字都是新造的”。有了新的化学名称,要使用新造的汉字,怎么能说不够用呢?难道使用拼音文字的国家,出现新的化学名称,不需要新造的单词吗?当然,米先生不是这个意思,而往计算机里再装新方块字,不如直接使用拼音字母造新字。

以计算机里的汉字字库所装的汉字不够用,来证明必须加快汉字信息熵的计算,走“一语双文”之路,也讲不通。因为,用拼音字母造出来的新字与汉字不是一个系统的东西,不易被中国人接受。文字的使用有一个重要的规律叫做区别律。用熟了汉字系统的中国人,习惯方块字的区别。比如出现了一个新元素,造一个新的字,通过字形,我们就比较容易知道这个元素的基本特性和读音;如果是用拼音造的,就只能够拼出读音,不知道其特性。即使在这读音与特性两者之间只能选择一种,我相信知道特性比知道读音更受人欢迎。

以现在计算机里的汉字字库不够用,证明汉字编码之路走不通,那么,怎样解释实践是检验真理的标准呢?因为,汉字编码在实践中已经证明是一种极其有效的方法。至于“万码奔腾”,那当然不是好现象。如何解决,笔者有专门的研究,不便在这样一篇短短的文章里讲清楚。

 

二、“中文信息产业”这个概念能否成立?

 

该文的副标题是“中文信息产业发展的尴尬”。“信息产业”是指围绕计算机等一类人工智能产品构成的产业。但是,把它加上中文两字就是指局限于围绕中文输入(汉字编码和汉字输入法)而言的产业。中文输入不能成为产业的理由很明白,就好比拼音字母表不能构成信息产业一样。拼音字母与汉字一样都是全民使用的公器。这样的公器,怎么可以成为被少数人控制的产业呢?假使行“一语双文”,即在汉字边上装上拼音字母,也不能构成“中文信息产业”。如果可以有“中文信息产业”,那么日本有否日文信息产业?俄罗斯有否俄文信息产业?诸如此类等等。如果说,“中文信息产业”这个概念不能成立,那么“尴尬”之说就没有依附了。

米先生说“汉字平均信息熵计算工作完成,为中文信息产业奠定了最起码的基础。在这个过程中,中文计算机输入也在步步前进,终于在1978年实现了汉字输入,在八十年代中期实现了拼音方式和汉字笔画并行的若干种中文输入法。按照原来的国家计划(即文改会的计划),是在这个基础上开展汉字动态信息熵计算和渠道效率等基本研究,为实行中文数据管理的双文制奠定科学理论基础。”这才算一语道破天机。汉字动态信息熵计算和渠道效率等基本研究是实行中文数据管理的双文制奠定科学理论基础的。他埋怨“汉字优越”论的影响,人们对“原来的国家计划(文改计划)”有怀疑了,这种“科学理论基础”研究停顿下来,于是,“汉字就不够用了”。那么试问:“这种‘理论基础’奠定了,汉字就够用了吗?”答复当然是:不可能。因为,汉字信息熵的计算不是造字方法。米先生没有想到,现在的汉字库中不够用的字大都是古代典籍中的老汉字或死汉字,也许连文字学家都念不出它们的读音,即使能知道读音,要是用拼音造出来能替代得了吗?另一些则是日本、韩国的汉字,例如“  ”,“一语双文”的拼音造字法也解决不了。也许米先生说的是新的字(新元素或新的化学名称)。但,汉字的形声造字法完全可以造任何新字,而且造出来容易被中国人辨认,而用拼音字母造出来的字却不容易被辨认。

 

三、 字信息熵的计算,能否建成所谓

“中文信息产业”的地基?

 

米先生还认为只要汉字动态信息熵计算和渠道效率等基本研究搞好了,中文数据管理的双文制的科学理论基础也就奠定了。

我不知道汉字的平均信息熵对汉字输入有什么好处。但从上述语言中可以理解,它与汉字输入并没有什么关系,至少,它与汉字编码没有什么关系。我说它与汉字输入没有什么关系是从现在的输入现状中看出来的。这二十年来,汉字输入从个人自己投资研制的、在CCDOS 下运行的输入软件,到现在编码设计人根本不需要投资的Windows98下运行的输入法,都没有听说过需要进行平均信息熵的计算。在汉字编码方面,就我所知,没有一位曾经谈起过需要这种信息熵计算的帮助。因此,唯一需要汉字信息熵计算支持的就只能是某些人日夜思念的“一语双文”了。

“一语双文”是一种文字使用方法的基本设想,围绕这种设想采用某些技术和方法来证明或支持这种设想都是应该的。但这些方法(如信息熵计算)或技术的实现,是否就能保证这些设想的实现?那就不一定了。就好比拼音字母表和汉字简化方案的推行,并不意味着可以保证汉字能拉丁化。

“信息熵是信息产业的地基”。但是,把它引伸为“汉字信息熵是中文信息产业的地基”,恐怕是有问题的。日本有没有搞“日文信息熵计算”去建成日文信息产业的地基?法国有没有用“法文信息熵计算”建成法文信息产业的地基?如果他们都没有,唯中国有这样的说法,那当然大有问题。

 

四、“万码奔腾”是因为这两股潮流的影响吗?

 

米先生认为汉字信息熵的计算是中文信息产业的基础,它的停顿受到两股潮流的影响:其一是“汉字优越”论,其二是微软公司兼并(购买专利使用权)引起的“万码奔腾”。我认为这个讲法有问题。

“汉字优越”论影响了以“汉字落后”论为基础的“一语双文”实践,而作为“一语双文”的基本建设——汉字信息熵的计算,也同时受到影响。我认为如果“汉字落后”之说是科学的,将来搞这种信息熵的计算,也未为晚;如果它是不科学的,你现在花了那么多的时间和金钱,不是都白白浪费了?说汉字优越或说汉字落后,是从两个不同的角度来帮助人们认识汉字和探索汉字的规律,只有多角度地揭示汉字规律,文字学术才会丰富多彩,兴旺发达。现在语文学术界一些人把“汉字落后论”说成是科学,把“汉字优越论”说成是“伪科学”,这就不很好。

说“微软公司兼并中文输入法所刺激的‘万码奔腾’”,此说是不了解“万码奔腾”始于20世纪80年代末期。那个时候,有三种因素激发了“万码奔腾”:一是学术界出现了“汉字编码(键盘)输入法”这个错误概念,造成了理论导向错误(1993年我已发表《“编码热”与理论导向错误》指出了这个症结);二是语文界的权力派执着把“一语双文”当作重点,主动放弃自己研究编码的责任,例如,“全国第二届计算机语言学联合学术会议,语言界到会的只占总人数的20%”,“国内外700多种编码方案中,语文界真正搞成的寥若晨星……”三是不成熟的字形编码——五笔字型覆盖市场赚了大钱,刺激了人们研制的积极性。在这三个因素影响下,产生了研制汉字编码的热潮。微软公司的“兼并”是1994年以后的事,怎么能提早“刺激”80年代末期的“编码热”?

 

五、输入法的选择怎么能解决汉字数量与数据管理的问题?

 

输入法是汉字输入计算机的方法,是一种软件程序。在码表完成以后(一个字符集的全部汉字的代码都注好了,称为码表),编程设计人员根据编码设计者对输入的要求,例如高频字的安排、字词的取码方法等,编制成输入程序,使该编码方案实现在计算机上输入。因为,现在的所有方案,其输入方式、方法基本一致,所以,现在的Windows95和Windows98系统中都有输入法生成器,能把任何的编码的码表转换为输入法。所以,任何编码方案,都可以利用它来输入汉字。如果米先生能研制出一个编码,也可以利用Win98的输入法来输入汉字,根本不需要自己再编制输入程序。字库中装容的汉字数量的多少,取决于被确定的字符集。如果确定的是GB13000,说明它只装容了20902个汉字;如果是GB18030,说明它装有27484个汉字。郑码仅仅是编码方法中的一种。将GB18030字符集中的汉字,根据郑码的方法编好,只能称为郑码码表。如果某台计算机也有这样的字库,再加上郑码输入法,就能将GB18030字符集中27484个汉字中的任何一个汉字打出来。郑码的设计者只负责将被确定的字符集中的汉字编成码,不负责字符的数量。说郑码有打不出来的字是外行话,真正的原因是没有确定的字给它编。今后如果我们觉得使用的字符集还不够用,还须再研究扩大字符集。那是文字专家的事,与郑码(即编码设计者)无关。

至于中文数据管理,那是一个非常复杂的系统,与输入法更没有直接的关系。但米先生却认为“输入法选择永远不能解决汉字数量是否足够的问题,更不能解决中文数据全面管理的问题。”那么传达室里看门的老伯能解决学校里的教师不足和学校的全面管理的问题吗?

 

   引

载于1994年10月1日《中国教育报》第3版。

潘德孚、詹振权:《汉字编码设计学》197页,中国城市出版社1997年11月

 

 

上册

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有