2015年02月26日
汉字是中华民族使用的文字,具有3000多年的历史。汉字字形的基本趋势是从繁难向简易演化。
汉字简化的系统性工作从民国时期就开始了。1935年8月,国民政府教育部正式公布第一批简体字表,共计324个,主要选择社会上比较通行之简笔字代替难写的汉字。虽然由于戴季陶等的反对,该方案被搁置,但对中国大陆50年代的《汉字简化方案》产生了重要影响。1956年,《汉字简化方案》发布,1964年出版《简化字总表》,自此简化字成了大陆的标准。而中国台湾仍然采用传统汉字。
由于政治上的对立和分隔,海峡两岸的文化交流在上世纪80年代之前几乎处于停滞状态,致使两岸语言文字在使用习惯上形成了一定差异,包括字音、拼读系统、标点符号、书写系统、词汇、语法以及版式等方面。信息化方面,两岸在汉字编码和输入法方面也有很大不同。据统计,《简化字总表》第一表350个简化字,两岸字形相差甚远、看不出关联性的字有90余个,如“出[齣]”“丛[叢]”等,约占此表的25.7%,导致两岸民众在阅读对方文字时产生一定困难。近年来,随着互联网快速普及以及两岸政治、经济、文化交流的日益频繁,简繁自动转换的重要性愈加凸显。
2009年,第五届两岸经贸文化论坛提出两岸合作开发汉字简繁转换系统的共同建议。2012年底,教育部、国家语委正式启动这一项目。2013年初,在中国中文信息学会举办的汉字简繁转换软件评测中,厦门大学开发的系统取得第一名。因此,教育部、国家语委决定由厦门大学牵头、联合教育部语言文字应用研究所和北京师范大学进行汉字简繁转换系统研发,计算机专家和语言文字专家联合攻关。
项目组对“一简对多繁”汉字、两岸常用词语、专业术语、标点符号等问题进行了深入研究,采用机器翻译技术解决简繁转换问题,既考虑到歧义字的上下文,也考虑了转换的概率。两者都可通过大规模繁体语料库来进行机器学习。同时,由于现代的台湾繁体的字形和语言用法与古籍也有一定差异,因此需区分面向中国台湾的转换和面向古籍的转换。通过研制人员不懈努力,“汉字简繁文本智能转换系统”终于研发成功。该系统功能完善,性能稳定,简体到繁体字级别转换准确率达到99.9%。用户可通过三种方式使用该系统:一是直接打开“汉字简繁文本智能转换系统”网站使用网页版;二是安装“汉字简繁文本智能转换系统”插件,在Word中联网使用;三是拷贝“汉字简繁文本智能转换系统(单机版)”到电脑,可使用更多功能。
“汉字简繁文本智能转换系统”免费提供社会使用,这必将促进两岸在科技、文化、教育、经济等领域的交流合作。(史晓东 作者系厦门大学教授)
《中国教育报》2015年2月26日第2版