我国电脑中文字库的突破性发展 沈克成 汉字从商周时代的甲骨文演变到当代的方块形,已经历了数千年的漫长进程,是世界上使用历史最悠久、使用人口最多的文字。汉字的数量是随着时间的推移而不断增加的。西汉的《仓颉篇》仅有3300字;东汉的《说文解字》收录了9353字;清朝的《康煕字典》突破了47000字;现在的《汉语大字典》所收汉字高达54678个。各地小范围流通使用的地名、人名用字还有许多,如果全部收集起来,总数大约有9万。 尽管汉字的数量如此庞大,但常用汉字的数量是有限的。孙中山先生写《三民主义》,总字数约16万,仅用了2134个不同的字;《毛泽东选集》一至四卷,总字数超过66万,也只用了2981个不同的字;小说《骆驼祥子》,总字数达10万多,用到的汉字数为2413。郭沫若先生曾说过,汉字的数目大体上有五万多字的光景,这五万多字中绝大多数已经不使用了,目前一般知识分子日常所使用的大概有五、六千。也就是说绝大多数汉字仅在古籍资料中才能见到。 那么计算机能够输入多少汉字呢?这与它的系统软件和汉字库有关。汉字库通俗地说就是计算机软件系统中的汉字仓库,依据不同的标准,字库中汉字的数量是不同的。 近二十多年来,我国的中文信息交换和处理技术取得了突飞猛进的发展,从而使计算机的汉字库也变得越来越庞大。 一、1980年国标(GB)字库 6763字 从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,在数以亿计的浩瀚文献资料中,统计出不同的汉字数为6335个,其中3000多字的累计使用频度达到99.9%,而另外的3000多字累计频度不到0.1%,说明了常用汉字与次常用汉字的数量合起来不足7000个,这就为国家制定汉字库标准提供了依据。 1980年,国家标准总局颁布了国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,国家标准号为:GB2312-80,自1981年5月1日起实施,通行于大陆。新加坡等地也使用此编码。 GB2312收录7445个图形字符,其中汉字占6763个,还选入了682个非汉字字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。 GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,我们习惯上称第一个字节为“高字节”,第二个字节为“低字节”。 GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节。94个区中,01-09区为符号、数字区;16-87区为汉字区;10-15区、88-94区是有待进一步标准化的空白区。 GB2312将收录的汉字分成两级:第一级是常用汉字,计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字,计3008个,置于56-87区,按部首/笔画顺序排列。 GB-2312的实施,保证和满足了一般汉字处理技术的基本要求,从而奠定了中文信息处理的基础。它对于初创阶段电脑中文的应用和发展,功不可没。但经过实践,也暴露了不少问题: 1. 收字量过小。目前学术界认为汉字总数在六万左右,而它仅收了十分之一。该标准制定的主要依据是1956年公布的《汉字简化方案》和当时报刊的字频统计,它显然不符合21世纪今天的需要,也不能全面表达三千年文明史留下的大量文献,更不会为汉字文化圈其他国家和民族所认同。 2. 收字不合理。基本集中有不少稀见字,如“厍、茺、庹”等,在本已狭小的编码区间中白白占据了宝贵的位置。 3. 所收字形的标准也有失一律,如“仝、苎、雠”等。 4. 两级汉字库各收汉字3000有余,但其排列次序一级为拼音,二级为偏旁,并未采取一以贯之的排列方式,造成了人为的困难和混乱。 5. 在技术处理上,现已发现的差错有80处之多。当时,我国大陆各种中文DOS版本、Windows3.1/3.2版本,装入的字库都是国标一二级字库。正由于当时对汉字的实际需要量认识不足,在使用GB-2312的过程中常带来不少尴尬和混乱。如遇到“镕、啰、瞭、袆、祎、曌、赟、贇、鱻、驫、犇……”等汉字,既无法输入,又不能打印。特别是自从实行个人存款账户实名制后,便经常碰到打不出来的“失名户”。在高校招生实行计算机录取后,有相当一部分学生的名字在计算机里成了“黑三角”,影响了录取工作的进程。同样的现象也出现在户籍管理和测绘、古籍、辞书整理等方面。产生这些现象的根本原因是计算机中所装的6千多个汉字不够用。 二、1983年台湾BIG5字库13461字 1983年10月,台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》,后经修订于1992年5月公布,更名为《中文标准交换码》,BIG5是台湾资讯工业策进会根据以上标准制定的编码方案,它通行于台湾、香港地区,是一个繁体字编码方案,虽存有一些瑕疵,但广泛应用于电脑行业,尤其是互联网中,从而成为一种事实上的行业标准。 BIG5码是双字节编码方案,共收录13461个汉字和符号,包括: △符号408个。 △常用字5401个,包括台湾教育部颁布的《常用国字标准字体表》的全部汉字4808个,台湾教科书常用字587个,异体字6个。 △次常用字7652个,包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字6341个,《罕用国字标准字体表》中使用频率较高的字1311个。 三、1993年UCS统一的中日韩汉字20902字 随着汉字全面向信息化社会转型,随着计算机在各个领域的广泛应用,随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年,国际标准化组织ISO发布了一个编码标准,即Universal Multiple-Octet Coded Character Set(简称UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与Unicode编码完全兼容。ISO/IEC 10646.1-1993是该标准的第一部分《体系结构与基本多文种平面》。 嗣后,国家技术监督局发布了GB13000.1-93国家标准(1993年12月24日),对UCS以国家标准的形式予以认可,即GB13000.1等同于ISO 10646.1。该标准采用了全新的多文种编码体系,收录了20902个汉字,使编码空间扩大。同时还编制了《统一的中日韩汉字》,又称“CJK统一汉字”(C指中国,J指日本,K指韩国)。而其中的中国部分,包括了源自中国大陆的GB2312、GB12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的CNS11643标准中第1、2字面(基本等同于BIG-5编码)和第14字面的汉字和符号。 新的GB13000.1-93国家标准有以下几个特点: 1. 所收汉字数增加了近两倍,比较切实地反映了汉字应用的历史和现状,可以初步改善两岸书同文的要求。 2. 字符集一律采取了部首及部首外笔画的排列方式,比较妥善地绕开了大字符集注音的难题,并为汉字自然排序提供了一种比较可靠的科学方式。 3. 对汉字字形进行了一次跨国界、跨地区、跨历史的清理工作,采取客观和求同存异的原则,对汉字作了一次有意义的全面研究,并制定了一个两万多字的字表。 4. 释放了CO和CI两个平面,得到了大量的编码空间,可以允许中文及其他文种编码,编纂专业或专用的子字符集,扩充余地也大大增加。 新标准的诞生,是电脑中文取得突破性进展的里程碑。它不仅对我国计算机的发展产生深远的影响,也对汉字文化圈各国、各地区的文化交流和科技进步起到重大的作用,尤其在对汉字的视听识别和人工智能方面做出了贡献。它促进了汉字文化圈计算机信息的直接交换,也促进了软件的更新以及数据量的扩大,特别是沟通海峡两岸的计算机技术,有益于祖国的统一。 但是,新标准的建立,也使人们引起某些误解和疑虑,如: 1. 由于收入了许多《汉字简化方案》所规定的“废弃”字,产生了标准和方案相互矛盾的假象,往往被人们误以为是在变相地恢复繁体字。我们说,标准只是为了使用、交换和生产的便捷而约定的规则,它允许某些灵活性、宽容性、人为的约定性和使用的变通性,所以它不涉及对《汉字简化方案》的否定和对繁体字的肯定。 2. 近十年来,我国在编码输入法的开发上可以说是百花争艳、万“码”奔腾,但绝大多数都是建立在GB-2312基础上的。新标准字库建立后,自然需要新输入法的研究。众所周知,字库的增大,意味着编制输入码的难度要有平方和立方乘积的增长。 四、1995年GBK 1.0字库21886字 为了配合 UNICODE 的实施,全国信息技术标准化技术委员会于1995年12月1日制订了《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification。国家技术监督局标准化司、电子工业部科技与质量监督司于1995年12月15日联合以技监标函[1995]229号文件的形式,将它确定为技术规范指导性文件,并予以发布和实施。这一版的GBK规范为1.0版。GB即“国标”,K是“扩展”的汉语拼音第一个字母。GBK向下与GB2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡过程中的一个承上启下的标准。 GBK共收录了21886个汉字和图形符号,包括ISO 10646.1中的全部CJK汉字和符号,并有所补充。具体包括: 1. GB2312中的全部汉字、非汉字符号。 2. 与 ISO-10646 相应的国家标准GB13000.1中的其他CJK汉字。以上合计20902个国标化汉字。 3.《简化字总表》中未收入GB13000.1的52个汉字。 4.《康熙字典》及《辞海》中未收入GB13000.1的28个部首及重要构件。 5. 13个汉字结构符。 6. BIG-5中未被GB2312收入、但存在于GB13000.1中的139个图形符号。 7. GB12345增补的6个拼音符号。 8. 汉字“○”。 9. GB12345增补的19个竖排标点符号(GB12345较GB2312增补竖排标点符号29个,其中10个未被GB13000.1收入,故GBK亦不收)。 10. 从GB13000.1的CJK兼容区挑选出的21个汉字。 11. GB13000.1收入的31个IBMOS/2专用符号。 GBK亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间,剔除xx7F一条线。总计23940个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。 GBK 编码区分三部分,其中的汉字区包括: △B0A1-F7FE, 收录 GB2312 汉字6763个,按原序排列; △8140-A0FE,收录 GB13000.1中的CJK 汉字6080个; △AA40-FEA0,收录 CJK 汉字和增补的汉字8160个。CJK汉字在前,按UCS代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。 微软公司自 Windows 95 简体中文版开始支持 GBK 代码,标准叫法是 Windows Codepage 936,也叫做 GBK(国标扩展),它是 8-bit 的变长编码。 GBK 从来没有成为正式的国家标准,只不过因为 Windows 的普及,它已经成为事实上的标准了。 GBK所收字数是GB2312的3倍,收集的汉字包含大部分的冷僻字、繁体字等,从而较好地解决了中文冷僻字问题,受到业界的广泛关注。 GBK的优点是与现行的GB2312内码体系兼容,保持系统兼容性,容易为用户所接受,而且是等长双字节代码,码长较短,通信、处理速度都比较快,占存储空间比较小,因此是GB2312-80的理想换代标准。 五、2000年GBK2.0字库27533字 2000年3月17日,信息产业部和国家质量技术监督局又发布了一项新的中文信息处理基础性国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,它是在原来的GB2312-80编码标准和GBK编码标准的基础上进行扩充,增加了四字节部分的编码。它可以完全映射ISO 10646的基本平面和所有辅助平面,共有150多万个码位。它在ISO 10646的基本平面内,在原来的2万多汉字的基础上,增加了7000多个汉字的码位和字形,从而使计算机可处理的汉字数量进一步从GB13000.1的20902个,再扩充到现在的27533个。GB18030与GB2312一脉相承,较好地解决了旧系统向新系统的转换问题,而且繁简字处于同一平台。 GB18030-2000是我国继GB2312-80和GB13000-1993之后的强制性汉字编码标准,是未来我国计算机系统必须遵循的基础性标准之一。它的主要目的是为了解决一些生、偏、难字的问题,以及适应出版、邮政、户政、金融、地理信息系统等迫切需要的人名、地名用字问题,也为汉字研究、古籍整理等领域提供了统一的信息平台基础,并且为中文信息在国际互联网上的传输与交换提供了保障。该标准还同时收录了藏、蒙、维吾尔等主要的少数民族文字,为推进少数民族的信息化奠定了坚实的基础。 文字标准是信息处理的基础,在大字符级的国际标准得到采用后,将解决两岸四地间GB码与BIG5码字码转换不便的状况,届时,大陆、香港、澳门和台湾将处于统一的文字平台,这将是我国电脑文字标准走向世界标准的重要步骤。 世界许多国家和地区从方便本国和本民族应用的角度出发,都制定了自己文字的编码标准并建立起相应的内码体系,如日本的JISX0208和JISX0212,韩国的KSC5601和KSC5657等,这是国际上的通行惯例。我国制定GB18030同样符合国际惯例,它可以充分利用已有资源,保证不同系统间的兼容,最大限度地共享资源,为我国软件产业留有巨大的发展空间。可以相信,GB18030的实施将有利于国产软件的发展并形成规模,使我国的中文信息技术再上一个台阶。 国家质量技术监督局宣布,GB18030(俗称GBK2.0)自2001年9月1日起替代原有的GB2312和GBK1.0,成为新的计算机汉字信息交换标准。所有信息技术产品的研制开发和生产,若不执行GB18030强制性标准,将依照国家有关规定进行惩处。 GB18030标准的建立,是二十年来电脑中文处理技术产生和发展的必然结果,也是电脑中文处理技术继续发展的新起点,它对中文电脑的完善和发展,影响至深至远。 GB18030标准的建立,为电脑中文的完善化,中文信息交换技术和中文软件的发展开辟了崭新的天地。 GB18030标准的建立,既表明了汉字有着光辉的历史、强大的生命力,是不容忽视的客观存在,也昭示着汉字还有极其美好的未来。汉字的生命力在于它的几千年一贯的稳定性,还在于它几千年来不间断的发展所表现的旺盛的生命力和凝聚力。我们通过一代人的努力,终于让汉字插上信息化的翅膀,使其飞得更高更远。电脑中文将促进和帮助中国的发展和统一,电脑中文必将走进现代世界。 目前,我国大部分计算机系统仍在采用GB2312编码。GB18030与GB2312一脉相承,较好地解决了旧系统向新系统的转换问题,并且改造成本较小。从我国信息技术和信息产业发展的角度出发,考虑到用户的需要及现有系统的兼容性和对多种操作系统的支持,采用GB18030是我国目前较好的选择,而GB13000.1更适用于未来国际间的信息交换。 |