【二】
汉字统一在计算机世界实现
在纸上书写的汉字至今或许还远远谈不到统一,但是在计算机上统一已经实现了——中日韩统一表意文字(CJK Unified Ideographs),就是把分别来自中文、日文、韩文的汉字,按照共同的认同规则,把本质相同、形状相同或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、略字、韩国独有汉字)在ISO/IEC 10646的标准框架内,形成有序的集合,赋予一套统一的代码。
也就是说,中日韩三国在写法上有细微差异,但意思基本相同的文字,在计算机上的编码是同一个虚拟的“汉字”,一个编码;而字形不同的汉字,即使是同样含义,也对应着不同的编码,比如繁体字的“壹”和简体的“一”意义相同,却必须有各自的编码。
使用过Win95的人都有过这样的经历:遇到繁体字的电邮和网页时,打开会出现一片乱码,其原因就在于那时台湾使用的是BIG-5码 ,而大陆的编码标准是GB2312。假设,内码(0000)对应的汉字是(一),而在台湾,内码(0000)对应汉字是(十)的话,中文的汉字“一个”,在BIG5系统就可能变成了“十万”。GB码的汉字,在BIG5下,就变成了乱七八糟的符号和文字。
而在Win 2000和XP系统下,我们已经几乎忘却了乱码的烦恼,那是因为其包含了一个国际标准的通用多文种编码字符集,其中的汉字编码就是CJK——中国、中国台湾、日本、韩国共同参与,由中国主导完成的。
实际上,这套多文种编码字符集的创建、整合和最终成型,也经历了一个复杂的过程。
一方面,世界IT龙头企业微软发起制定Unicode标准,似乎企图完成一个古老的人类夙愿:修建一座有助于人类沟通的“通天塔”——一个涵盖了目前全世界使用的所有已知字符的统一编码方案。
同时,国际标准化组织(ISO)也在修建另一座通天塔——ISO10646,中文全称为:信息技术——通用多八位编码字符集。ISO10646国际标准定义了一个31 位的字符集,这是一个难以言喻的巨大编码空间,总共达21亿4748万3648个码位。
也许,即使搜罗地球上古今人类所有符号、所有文字,也不会有字符分配到第20位 100 万码位空间,而这还不过是31位空间的两千分之一。迄今为止被定义了的,也不过其中的前16位子集,称为基本多语言面 (BMP),包括 65534个码位 (0x0000 到 0xFFFD),尚不及全部空间的万分之一,但是已基本包含了世界上所有已知语言的字符,包括各种拼音文字和象形文字如阿拉伯文、藏文、汉字、彝字以及国际音标符号等等。
目前,这两座通天塔其实已经合成了一座:1993年ISO10646与Unicode合作,制定了第二个方案,1993年成为正式的国际标准,即ISO10646-1。两个标准的字符对应的编码是完全一致的,两者不断扩充的文字编码是继续对齐的。
这座通天塔的功用,已经在现实中发挥——微软的MSN可以同时支持世界上所有的语言,中文、日文、韩文、阿拉伯文、印度文、希伯来文。操着不同语言的人可以在同一个界面上一起聊天。
稍嫌讽刺的是,这个沟通自由的梦想现在正和与垄断纠缠不清的微软帝国走在同一条道路上。
从Windows NT开始,Unicode已经成为Windows 操作系统的主体代码,或者说基本代码或轴心代码,各个代码页面表面上在那里存在,但是内部的表示、处理和外部的传输、交换等等都是Unicode。
三流的国家制造产品,二流的国家提供技术,一流的国家制定标准。谁制定了标准,谁将掌握未来,在通天塔的理想背后,是一只商业的巨手。
“汉字统一编码不仅最大限度地简化了以汉字为载体的信息(短信、电子邮件、Web、电子出版物)在各个国家和地区的传输和交流;而且还极大地降低了软件开发和移植的成本,使一套程序用于多文种的语言环境。”几乎全程参与了汉字内码国际标准制定工作的张轴材对《环球》杂志记者阐明了CJK的商业价值。
如此看来,韩国的一些学者提出“统一汉字”的所谓共识,真的仅仅是因为他们的荒谬和狭隘吗?