阅读文章

论信息时代的汉文字改革

五、对信息时代汉文字改革任务的认识

[日期:2008-05-02] 来源:语言文字网  作者:陈明然 [字体: ]

通过前面各个章节的讨论,我们可以认识到,由于表意汉文字相对于汉语言的良好适应性,汉民族的文字在相当长的历史时期内不可能演变为拼音文字;又由于不同字素数的汉文字在计算机处理过程中效率相同,所以简化已不是信息时代汉文字改革的主要方向。另一方面,对于当代通行的表意汉文字系统,在单字的结构上,字元树模型是不失一般性的,而通过遍历字元树则可以方便地得到符合规范的汉文字编码;这说明,现行的表意汉文字系统存在着适应计算机这一汉语言记录新工具的良好基础。如果我们能解决4.4节中所述的应用字元树编码模型尚待解决的三个局部矛盾,就能使汉文字完全适应计算机这一汉语言记录新工具的要求;因此,信息时代汉文字改革的任务,不是拉丁化,也不是单纯的继续简化,而是在原表意文字大框架内对当代通行的汉文字进行适度改革使之适应计算机处理的需要。由于现行汉文字与计算机之间的矛盾集中体现在汉文字的计算机键盘输入编码这一环节上,所以信息时代的汉文字改革应该着力于解决现行通用汉文字对计算机键盘输入编码的不适应之处。

根据本文前面所作的讨论和研究,我们可以得到对当前信息时代汉文字改革的如下认识:  

1、以继承汉文字的历史传统为前提,在表意文字的大框架内进行。  

任何事物的变革和发展,都是在继承基础上的变革和发展。没有继承,变革和发展就成了无源之水,无本之木。况且,通过本文前面对汉文字构成规律的分析可以知道,占汉文字总数百分之九十五以上的合体字,是基本符合计算机键盘输入编码的要求的,因此,信息时代的汉文字改革完全可以在表意文字的大框架内进行。“淡化字理”、“拼形造字”的观点是不足取的。恰恰相反,为了能从单字中分析出构成单字的上代字元以利于对其编码;为了实现原国家教委(现教育部)要使计算机汉文字输入代码和学校识字教学相融合这一目标,我们需要强化“字理”,要大讲“形声”;要大讲“会意”。  

2、制定统一字表,确定改革范围。

要根据社会各个阶层、各个领域的需要,制定统一的字表。

我国目前在教育、出版和信息处理等不同领域所使用的字表各不相同,仅文革后公布的主要就有以下几种:一是国家标准局发布的《信息交换用汉字编码字符集──基本集》(GB2312 - 80)及《信息交换用汉字编码字符集── 第二辅助集》(GB7589 - 87)和《信息交换用汉字编码字符集──第四辅助集》(GB7590 - 87);二是同样由国家标准局发布的GB13000.1;三是由国家语言文字工作委员会和原国家教育委员会联合发布的《现代汉字常用字表》;四是由国家语言文字工作委员会和国家新闻出版署联合发布的《现代汉语通用字表》。

多个汉字字表的同时存在,是除“万码奔腾”现象外,信息时代汉语言记录符号和记录工具之间矛盾的的又一种表现。这一现象不利于信息时代汉文字的使用,不利于汉文字计算机处理和中小学识字教育相融合目标的实现。本文认为,多种字表应该统一。在制订统一字表这项工作上,相关部委应合并办公,不要再各吹各的调了。原国家语委常务副主任仲哲明曾经呼吁: 信息处理用字标准同社会通用的标准之间本来是可以统一,也应该统一 起来的,……如何通过适当的调整,使各个字表之间交叉矛盾的地方衔接起来,统一起来,制订一个统一的现代汉语用字规范字表,这是摆在面前的一项急务。(国家语委 1995:P?)此话可谓一言中的。

近闻国家有关部门研制的新的《规范汉字表》即将完成,这是令人鼓舞的好事。新字表的制订工作是否是各有关部委联合进行的,笔者不得而知。本文在此要强调指出的是:新的《规范汉字表》一定要充分全面地考虑汉文字对计算机信息处理的适应性问题。“评判汉字改革的过去和放眼汉字整理的未来,都必须以计算机汉字信息处理和交流的效率作为最首要的标准。”[20]

统一字表制定完成后,汉文字改革的范围也就可以划定了。本文认为,把改革范围划定在统一字表中按使用频率排列的前3800字以内即可。参考有关研究成果,可以预计出,在当代这部分字的使用率约占全部汉文字使用率的99.88%[21]。只要解决了这部分字中与计算机键盘输入编码不相适应的部分,可以说也就基本完成了汉文字在信息时代的改革任务。  

3、 改一部分独体的“文”为合体的“字”。

独体的“文”的存在,是产生编码对单字信息量的要求与单体字元编码信息短缺矛盾的根源。要解决这一矛盾,就必须对独体的“文”进行妥善的处理。

经笔者初步统计,在《基本集》的3755个一级字中,约有160个独体的“文”。这160个独体的“文”中,字素数在4(含4)以下和在4以上的各约占50%。对于字素数在4(含4 )以下的这一部分,可以规定以字素作为码元,以其字素名的普通话读音的拼音首字母作为码符。如“一”的读音为“横”,码素取“h”;“丨”的读音为“竖”,码素取“s”,其余类推。这样的话,这部分独体的“文”仍然可以通过字素提供足够而又不超过最大码长值的编码信息量。余下的80来个,可以选出26个,参考《五笔》输入法中对键名字的编码方法,分别安排到26个字母键上。最后剩下的50来个,就要改为合体字了。理由是这部分独体的“文”中,每一个的字素数均多于4,如果仍然用字素作为码元的话,会发生编码信息冗余,从而造成单字提供的编码信息量即码元数大于码长值的矛盾,在码长值的限制下,就会发生丢弃部分编码单位即丢弃单字的一部分构成成分的情况,这就违背了汉文字的使用规范,是不足取的。我们应坚持不丢弃单字任何字形信息的“全息编码”原则,这就需要把字素数超过4个的独体的“文”改为合体的“字”。

改独体的“文”为合体的“字”,就是改不可分为可分。这是解决汉文字键盘输入编码对单字信息量的要求与汉文字中单体的当代字元编码信息短缺这一矛盾的需要。

这里讲的改独体的“文”为合体的“字”,是指改革对象作为当代字元即作为单字使用时的情况。改了以后,原来的独体的“文”仍应作为构字的字元使用,即取消其当代字元的功能,保留其原始字元的功能。

对独体的“文”的改革,要注意避免发生新的编码冲突。依据改革后的新字形得出的编码,其代码应使用编码空间的原冗余部分。

4、改革含有形、音信息模糊字元的字。

改革含有形、音信息模糊字元的字,是解决编码对码元信息鲜明性要求与部分字元形、音信息模糊这一矛盾的需要。

形、音信息模糊不清的字元包括变形字元,省形字元以及连体字元。

变形字元,在单字中大都作为义元使用,其“形”、“义”的信息是明确的,需要解决的是其“音”信息的鲜明化,所以需要对这一类字元的“音”作一个统一的,明确的规定。

从改革范围的最小化原则出发,可再把这一类字元分成两种,一种是与原形字元相比, 在“形”上 只有很小的差别。如“ ”、“ ”、“ ”……等等。这一种变形字元的特点是字素数较之原形字元没有增减,而且在“形”上与原形字元还相当接近;另一种是在“形”上与原形字元相去甚远,基本失去了原形的痕迹。如“扌”、“氵”、“讠”……等等,这一种变形字元的特点是字素数比之其原形字元都有不同程度的减少。“扌”比“手”、“氵”比“水”都少了一个字素;“讠”比“言”少了五个字素。我们可以把前一种仍然当作原形字元看待,用其原形字元的读音作为它的读音,而只把后一种作为变形字元处理。处理的办法就是专门规定它们的对应码素。如果这样的话,应该把前面对变形字元的定义修改如下:

定义5.1:作为父代字元或祖代字元使用时,其义不变,几何形状与原形相异且字素数量较原形少的字元称为变形字元。

省形字元和连体字元的“形”比较模糊,因此也带来了“音”、“义”信息的模糊性。理想的情况,当然是还其原来面目。这对连体字元来说比较容易实施,只须还其少量字素,施行“分体手术”就可以了[22]。在省形字元方面,因为被“省”掉的字素数比较可观,如果还原的话,所涉及的单字均要增加不少字素,所以需要作通盘考虑。如果不改可以明确其“音”、“义”信息的,就不要改;“音”、“义”信息过于模糊的,应对其进行改革。另外,这一部分字元的改革,也应和解决编码冲突一起作统筹考虑。

除了上面提及的三类字元,存在“音”、“义”信息模糊问题的还有一类字元,这些字元在历史上曾是当代字元(单字),但后来随着时代的变迁,其作为当代字元的功能逐渐消失了,到了现代,只作为父代或祖代字元使用。这样一来,由于在计算机键盘输入汉文字这一事物出现以前,人们只是注重于整字的音义辨析,就把这些字元本来的音义给淡忘了。如“载”、“裁”、“截”等字中的“ (音zāi)[23]”;“满”“瞒”等字中的“ (音mán)[24]”等等,而计算机输入编码又要求每一个字元能提供明确的音、义信息,所以对这类字元的处理就成了信息时代汉文字改革的内容之一。可以用二种方法来处理这类字元:一是对出现频率较高的进行钩沉整理,还其原有的音、义。二是对其中出现频率过低的,读音过于冷僻的,可以用适当的在当代使用频率较高的字元来替换。

5、改革存在编码冲突的单字

改革存在编码冲突的单字,消除编码冲突,是解决代码唯一性要求与编码空间冲突的现实存在这一矛盾的需要,也是实现编码规范性与实用性完美统一的需要。

这一方面的改革对象,是代码集里所有存在编码冲突的单字。每一组编码冲突字中只留一个使用频率相对最高的单字不改,对其余的字要作适当的改动。具体方法可以从被改编码冲突字的父代字元入手。设某个编码冲突字共由三代字元组成,则更换其两个父代字元中的声元。新声元应满足三点要求:一是和被换字元应为同音字元。在原声元表音度较低的情况下,尽可能采用表音度高的字元做新声元,这是保持被改单字读音不变的需要;二是新声元的上一代字元中至少有一个字元的读音和原声元中对应字元的读音不同,以期实现改变该字代码的目的;三是改后该字的代码必须处于编码空间的原冗余部分。一句话,就是更换该编码冲突字的一个祖代字元,从而改变该字代码中相对应的码素,达到消除编码冲突的目的。

6、整理简体字和继续简化汉字。

1956年,国务院公布了《汉字简化方案》(以下称《方案》)。《方案》的公布,对于普及文化教育,提高全民族的文化水平,促进社会主义建设产生了巨大的积极作用。然而,这个方案是在当时“笔”作为唯一的汉语言记录工具这一历史条件下产生的。它没有也不可能考虑到计算机处理汉文字的需要。现在,我们从汉文字的计算机处理这一新的角度来审视《方案》,就可以发现《方案》中的部分简化字和其原来的繁体字相比,由于“形”上的省略模糊了原本清晰的字元之间的界限,由此带来了编码信息的短缺和字元音、义信息的模糊甚至丢失,给编码过程中编码信息的提取造成了困难。本文4.4.2节中所举对“應”字的简化就属于这种情况。对这部分简化字应从计算机处理的需要出发重新进行整理,需要复原的应于复原;需要修订的应于修订。

关于简化字的整理问题,近年来学术界讨论得比较热烈,许多专家学者都发表了各自的意见。本文要着重提出的是,整理简化字,一定要充分考虑满足计算机处理的需要这一点,要纳入汉文字的信息化改革课题中统筹处理,不能就事论事,为整理而整理;否则的话,会导致重复劳动,造成大量人力物力的浪费。

因为计算机屏幕显示清晰度的需要,同时也由于笔还将长期和计算机一起作为汉语言的记录工具,所以对汉字的简化工作仍将是未来一个时期内汉文字改革的内容之一。不过,信息时代汉文字的简化工作,必须以服从汉文字计算机处理的要求为原则,以保持足够、鲜明的编码信息为前提。具体地说,就是不改变单字的字元树结构,即不改变构成单字的字元数量及字元所携带的音、义信息。在这一前提下,对单字的简化最终应落实到对字元的简化,即减少字元内的字素数这一点上。

信息时代汉文字的简化,可以和改革存在编码冲突的单字结合起来考虑。在更换编码冲突字中的某个父代字元时,尽可能选择既能解决编码冲突同时字素数又比原字元少的字元。

------------------------------------------

[20]  引自詹鄞鑫《关于简化字整理的几个问题》。载《汉字书同文研究》第四辑,香港鹭达文化出版公司2003年7月第1版。

[21] 见贝学琴、张学涛 《汉字频度统计》,电子工业出版社(1988年版)。

[22] 同[15]。

[23] 《汉语大字典》,四川、湖北辞书出版社(1986 - 1990 ),一卷p611“哉”条、二卷1193页“栽”条、五卷3086页“裁”条、3526页“载”条。

[24] 《汉语大字典》,四川、湖北辞书出版社(1986 - 1990),一卷101页“”条。



上一页 [1] [2] [3] [4] [5] [6] [7] 下一页   
【内容导航】
第1页:引 言
第2页:一、汉文字演变的直接动因
第3页:二、信息时代汉语言记录符号与记录工具的矛盾
第4页:三、汉文字编码
第5页:四、汉文字的结构
第6页:五、对信息时代汉文字改革任务的认识
第7页:六、结 语


阅读:
录入:陈明然

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:

下一篇:连体部件小议
相关文章       文字改革 
本文评论
  不错   (vvb ,2013-12-16 )
  very good go on working hard at it .   (shen_36193 ,2009-07-29 )
  较好的一篇文章   (ckr_99 ,2009-02-04 )
  好   (付一 ,2008-11-11 )
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章