21世纪的电脑汉字应分级建库 沈克成 2001年国家强制执行的《GBK2.0》是汉字统一编码的新的国家标准,是电脑中文取得突破性进展的里程碑。有了统一的标准,计算机信息可以直接交换,它不仅对我国计算机的发展将产生深远的影响,也将对汉字文化圈各国、各地区特别是海峡两岸的文化交流和科技进步起到积极的作用。 《GBK2.0》大字库是和国际标准ISO/IEC10646.1接轨的,它的出现不仅是十多年来电脑中文产生和发展的必然结果,也是电脑中文继续发展的新起点,它将为电脑中文的完善化,中文信息交换和中文软件的发展开创崭新的天地,电脑中文必将走进现代世界。 但是,中国人往往存在一种“求大崇洋”的心态,以为国际标准自然比国家标准好,以为大字库总比小字库好,以为新标准总比旧方案好。其实,这种心态往往会将人引入误区,因为国际标准适合于国际或地区间的交流,但在国内,在日常生活中,我们平时使用的电脑中文、装机汉字有没有必要使用多达两万的字库?正如社科院语用所原所长王均所说的,“现在有人把中文信息处理用字的国家标准和国际标准字符集增扩到二万字以上,有没有这种必要,似乎还需充分的科学论证。” 再说,由于新的国家标准《GBK2.0》大字库收入了许多《简化字总表》和《异体字整理表》所规定的“废弃”字,于是让人们产生了一种《国际标准》和《简化方案》相互矛盾的迹象,甚至有人误以为这是对简体字的否定和对繁体字的肯定。对此,我们必须统一认识。 另外,由于《GBK2.0》大字库采用了中日韩汉字统一编码,我们需采取有效办法,防止国外汉字及繁体字、异体字对我国出版物、办公文书等的干扰。 目前最令人困扰的是,汉字文化圈的各国,特别是海峡彼岸并未采用《GBK2.0》,因而对于涉外工作者,特别是老外来说,他们所使用的中文电脑、软件该用哪家的中文系统为好?左不是,右不是,最后干脆用英文的,这倒很像两岸在联手共同抵御外敌入侵了。 因此,笔者认为,最好的解决办法是采用全汉字字库的分级建库。 《GBK2.0》大字库里包含了中日韩及各地区所使用的汉字,可以说,凡是世界任一角落,只要有中国人,他们所使用的汉字在《GBK2.0》大字库里都可以找得到。但是,这样一个庞大的混合物,对于大陆的中国人来说将是一个累赘。一般的中国人只认识4000来个汉字,字库中五分之四的字我们用不着也不认识,让他们白白占了电脑的内存,有必要吗? 随着计算机使用的日益普及,随着微机质量水平的飞速提高,人们在奔腾机上使用WINDOWS 2000/XP和WORD 2000来处理中文将指日可待,到了那一天,我们的社会中必将出现五花八门各种字体的文字,简繁体并存,错别字连篇……这将严重污染、侵害我们的语言环境,其后果将不堪设想。有关当局必须清醒地认识到这一情况的严重性,防患于未然,采取措施,杜绝这一弊病的出现。 为此,我们应该在现有大字库基础上,尽快分级建立现代常用字库和古今通用字库两个系列的电脑汉字字库。 怎样从事现代常用字库、古今通用字库的字量、字形、字音、字义的研究,同时又照顾古籍整理的需要,必须从宏观上加以规划,才能既便于社会各层次用户的日常运用,又能适应不同专业的要求,这里也有个轻重缓急,统筹规划的问题。 笔者认为:古今通用字库即采用《GBK2.0》大字库,在27000字左右。而现代常用字库的收字量应为7000字。因为: 1.有关统计资料表明,现代汉字的常用字非常集中,字频统计中前2400字的覆盖率高达99%。这可以作为常用字和最常用字的字量。掌握了2400个高频字,就可以认识书面语的99%。如果能掌握3500个常用字,其使用概率已高达99.48%。 2.汉字总字数虽然很多,但使用很少超出7000字的范围,根据周有光的“汉字效用递减率”,6600个字种覆盖率为99.999%,这可以作为通用字的字量。字频统计中序号在6600以后的字,不管有多少字种,总的覆盖率不会超过0.001%。 3.据说为了整理古籍,有人已搜集到九万多个汉字,但据专家考证研究,每个时代的社会用字实际都维持在六七千字的水平。这九万字中显然多数是罕用字和死字,有不少只是偶然出现,决不能等同对待。 如何制订现代常用汉字库呢?当务之急,要尽快组织力量做好以下几点: 1.对当今使用的汉字的字频必须重新着手统计。 字频的统计,是对现代汉字的使用情况所做的大规模、较全面的调查研究,可以得出汉字的使用概貌并区分出常用程度等级。字频的统计结果,对语言教学、研究及中文信息处理和自然语言应用系统的设计有直接的使用价值或重要的参考价值。字频统计结果的准确性在很大程度上依赖于所选择的语料是否科学,而频率误差多半由于选材的不合理。 我国在20世纪70年代组织的748工程,曾对2100余万汉字的语料,进行汉字的字频统计,得出了《现代汉字组合使用频度表》,国家标准《信息交换用汉字编码字符集·基本集》(GB2312-80)的收字,就是以该表为基础的。但限于当时的历史条件,统计资料有一定的局限性,另外也由于技术和经验的不足,致使以这一统计为依据的《信息交换用汉字编码字符集.基本集》中所收的一、二级汉字中,有少数字的使用频率极低,甚至是目前根本不使用的“死字”,可有些实际使用频度不太低的字却未能收进去。 随着社会语言生活的变化,汉字使用频率也在发生变化,因此,需要补充新的语料进行字、词频的统计。 2.修订国家标准《信息交换用汉字编码字符集·基本集》(GB2312-80),删除那些生僻的罕用字,如“厍、茺、庹”等,删除那些木部、鱼部的不少死字,腾出空间来,增补一些平日生活中用得着的字,并把近百处明显的错误改过来。 3.制订新的各类字表,让各个部门统一实施执行。例如现在教育部门颁布的有《常用字表》3500字,《通用字表》7000字,但科技系统颁布的字符集(GB2312-80)一级字库为3755字,二级字库为3008字,合计6763字。3500对3755,7000对6763,何其相似乃尔,可惜两个系统,两种字表并不统一,让广大学生、计算机用户、科技工作者无所适从,这是万万不应该的。国家语委原副主任仲哲明曾一针见血地指出:“信息处理用字标准同社会通用的标准之间本来是可以统一,也应该统一起来的,但是由于某些客观原因,现在二者之间存在不少差异和矛盾。如何通过适当的调整,使各个字表之间交叉矛盾的地方衔接起来,统一起来,制订一个统一的现代汉语用字规范字表,这是摆在面前的一项急务。这项工作做好了,不仅可以更好地维护汉字的规范,而且无疑会产生巨大的社会效益,给广大干部和群众带来极大的方便。” 建议有关当局尽快邀请有关专家,制定出三个统一的字表,第一级为常用字表,共2500字;第二级为次常用字表,共1500字;第三级为通用字表,共3000字。三表合计7000字,超出三表范围的,明令限制使用。我们有理由相信,经过一代人的努力,我国的语言文字环境将可以得到较大的净化和改善,我们的识字教育效果将会得到很大的提高。 4.对五十年代颁布施行的《简化字总表》和《异体字整理表》作一次全面的整理和修订,让大家取得共识,汉字简化是必由之路。 5.集思广益,组织攻关,尽快制作出一个准确率超过99%的繁简字体一键切换的计算机软件,以应用于日常生活中地区间、国际间的文字交流,也有利于我们对几千年古老文明精髓的汲取和继承。 总之,我们要正确对待汉字,更要善待21世纪的电脑汉字。《GBK2.0》大字库的出现,向世人昭示汉字有着光辉的历史、强大的生命力,是不容忽视的客观存在,也还有极其美好的未来。汉字的存在和发展以及在世界上的地位,是不以任何个人意志为转移的。我们共同来迎接电脑中文这一突破性的进展,创造出更加辉煌的中华文化。 (通讯地址:浙江温州市开源路金石园8幢204室 325003) |