信息时代的汉文字优化与汉字书同文[1]
陈明然
一
汉字书同文,是汉文字学界近年来比较关注的课题。
在当今信息时代,讨论汉字书同文问题,必然要和汉文字的信息处理紧密地联系在一起。书同文研究中的一个重要课题——非对称简繁字问题,就是在计算机汉字处理领域的简繁转换中被提出来的。
统一两岸四地的汉字,以什么作为标准?詹鄞鑫教授提出:“评判汉字改革的过去和放眼汉字整理的未来,都必须以计算机汉字信息处理和交流的效率作为最首要的标准。”[2]本文无保留地支持詹教授的这一观点,认为统一两岸四地的汉字,应以是否有利于汉文字的计算机处理为标准;也就是说,应以是否有利于解决信息时代汉语言记录符号和记录工具的矛盾[3]为标准。任文先生也曾讲到:“信息时代,文字不能脱离电脑和汉字编码而存在,书同文应与‘字同码’相结合,‘文字规范’应与‘编码规范’相促进。”[4]所以,同一汉语语素的记录符号,目前的大陆规范字形和台湾标准字形,哪一个附合“有利于解决信息时代汉语言记录符号和记录工具的矛盾”这个标准,就应以哪一个作为“统一标准字形”。
比如“众(衆)”字,大陆的规范字形“众”,字元间界线清楚,很容易分解,字元的读音信息明确,可以很方便地对其实施键盘编码输入,而且字理明白,笔画少,手写也很方便;而台湾目前的标准字形“衆”,相比之下就不如大陆字形好。又如“丝(絲)”字,大陆简化后的字形“丝”,是一个连体字元[5],虽然可以也还可以方便地对其分解后应用于键盘编码输入,但按照这个字形进行的分解不符合“十忽为絲,糸五忽也”[6]这个字理,不利于识字教学;而台湾现行字形“絲”,就符合这个字理,有利于识字教学,同时也可以方便地分解后应用于键盘编码输入。从计算机信息处理的角度出发对二者进行比较,“絲”要优于“丝”。
在对异体字的处理上,两岸四地哪一方规定的“正体”字更附合信息处理的要求,就应以这个字形为“统一标准字形”;如果某一个原已作为“异体字”淘汰的字形比之选为“正体字”的字形更附合信息处理的要求,就应该把二者换位;即把原“异体字形”扶正,把原“正体字形”淘汰[7]。如“籴(糴)”字,大陆把“糴”简化为“籴”,即取“籴”为规范字;台湾则取“糴”为正体字,把“籴”定为“糴”的异体字。应该说,“籴”的两个字元界线分明,读音明确,整字的字理也很清楚,书写又方便,比“糴”要好;但如果采用“籴”作为正体会引起编码冲突[8]的话,那就需要考虑采用“糴”为正体了。因为“糴”有“入、米、羽、隹”4个字元,比只有“入、米”两个字元的“籴”多了2 个字元,相应编码元素也就多了2个,发生编码冲突的可能性要比用“籴”作正体字小。
对于双方的等同异体字,本文认为也应该按“有利于解决信息时代汉语言记录符号和记录工具的矛盾”这一原则重新调整。如“蠹(螙)”,目前双方都把“蠹”作为正体字。笔者则赞同林夫先生用“螙”作正体字的主张[9]。对比“螙”和“蠹”两个字形,很显然,“螙”非常容易分解,而且字理清楚,笔画也少,好记好写,不仅方便计算机键盘输入编码,也有利于识字教学和手工书写[10]。
同一汉语语素的现行字形和历史字形二者,也应该按上述原则处理。如果历史字形比之现实字形更附合于信息处理的要求,那就应该取历史字形为“统一标准字形”。许多专家学者提出的“非对称简繁字”[11]和本文作者提出的“连体字元”[12]等就都属于这种情况。对于大陆来说,“非对称简繁字”中的繁体字即是其所对应简体字的历史字形。为了实现简繁之间的正确转换,就需要恢复这些繁体字的使用,将其归入“统一标准字形”之列。又例如“曹”字,现在使用的这个字形,上方的“ ”是一个连体字元,是把两个“東”简省后又连体而成。这就模糊了字元之间的界线,在计算机键盘输入编码中不易分解;而其历史字形之一“ ”,其三个字元相互之间径渭分明,很容易分解,而且对它的分解不会破坏字理[13]。
需要说明的是:前面所举的几个字例,只是为了帮助说明笔者“汉字书同文应以是否有利于汉文字的计算机处理为标准”这一主张,并不是笔者对相关单字调整的最后学术建议。
二
要实现书同文,就不可避免地要对两岸四地当前使用的部分汉字的字形作不同程度的改变调整。这个改变调整,是在信息时代这一时代环境中进行的,因此,汉字书同文,是包含在信息时代的汉文字优化范畴之内的,必须和汉文字的信息处理统筹考虑。
计算机处理汉字的原理,决定了无论两岸四地中的哪一方,都不能只是就字形而论字形了。这是因为,对任何一个汉字字形的改动,都将涉及到信息处理用汉字编码字符集的调整和新老标准的兼容性问题;都将涉及到宋、楷、黑、仿宋、行书……等等各种字体字模库的调整及兼容性问题;都将涉及到相关计算机中文应用软件的兼容性问题;甚至还将涉及小学识字课本的改编问题……,等等,等等。这已经不单单只是汉文字学单一学科的研究课题了,而是一个涉及多学科的庞大的系统工程,将牵一发而动全身。
信息时代汉文字优化以及汉字书同文课题的这一重要技术特点,要求我们在讨论汉字字形的调整时,必须多学科联合,多方面论证。只有在取得学术上[14]真正成熟的,技术上真正切实可行的,并得到两岸四地一致认可的整体方案之后,才能最后通过行政手段在包括计算机汉文字处理领域在内的各个汉字使用领域正式推行之。在这之前,各方对现行汉字体系欲做的一致的调整,或任何一方对现行汉字体系欲作的与其他方不相同的单方面的调整,最好都只限于学术讨论范围之内,以免造成汉文字使用上的新的书不同文现象,造成汉文字使用上的混乱和人力、财力的大量浪费,除非调整后所采用的新字形已在现行计算机字符集中存在。在进行学术讨论的同时,可以先在手写领域中试行。手写试行期,正好可以作为新老汉字体系的过渡期。但这并不是说,我们可以消极等待;恰恰相反,正是由于汉文字优化课题所面临的这一新的时代特征,正是由于涉及学科之多,涉及技术之复杂,而决定了研究对象的广度和深度都将是空前的,这就需要我们以更加高昂的热情和严谨的学风,以更加好学的精神,和时不我待的紧迫感,更加奋发、积极地投身于信息时代的汉文字优化和汉字书同文研究事业之中,在最后实现符合信息处理要求的汉字书同文的时机到来之前,通过广泛的讨论和手写领域的试验,作好学术上和社会心理上的充分准备,以便能够在这一时机到来之时,及时拿出比较成熟的学术建议方案[15]。[1] 本文是笔者为在七研会上宣读的论文《论信息时代的汉文字改革》加写的一章。《论信息时代的汉文字改革》全文,可以登录《语言文字网》(www.yywzw.com/cmr)阅览。
在《论信息时代的汉文字改革》一文中,笔者主要是论述了以下几个问题:
一、汉语言记录符号和记录工具的矛盾运动,是汉文字形体演变的直接动因,每一种新的记录工具的普及使用,都必然会促使汉文字形体发生新的演变;
二、信息时代,汉语言记录符号和汉字信息处理新工具——电子计算机的矛盾是主要矛盾;
三、信息时代汉文字改革的主要任务,不是拉丁化;也不是单纯的继续简化,而是要原表意文字大框架内对当代通行的汉文字进行适度改革使之适应计算机处理的需要。
上述文章发表三年来,通过与网友的讨论,以及与书同文沙龙同仁的交流,对一些问题有了一些新的思考:如原来的文题《论信息时代的汉文字改革》中的“汉文字改革”这一提法,习惯上一般是和汉字的拉丁化联系在一起的。拙文既然是主张在“表意文字大框架”内对汉字进行调整,就不宜用“改革”这一提法,所以现在改为“汉文字优化”;再有就是,《信息时代的汉文字优化》和汉字书同文到底有什么联系?这种联系又有什么具体内容?于是就有了今天要提出来和各位讨论并向各位请教的这篇短文。
[10] 《第一批异体字整理表》中没有这一组字,但《辞海》和《现代汉语词典》都把“螙”作为“蠹”的异体字;1990年重排的《新华字典》也把“螙”作为“蠹”的异体字。《汉语大字典》四卷2908页,“蠹”条:《说文》:“蠹,木中虫,从 (音kūn,作者注),橐声。螙,蠹或从木,象虫在木中形。”2877页“螙”条:同“蠹”。并引梁启超《节省经费问题》:“螙日蛀木,木腐而螙安栖?”