一 汉字编码现状
何为危机,是指已经到了严重困难的关头。例如政治危机、经济危机等。何为汉字编码危机,是指汉字编码遇到了前所未有的困境。三十多年来,计算机键盘输入方式形码编码各种方案累计数以千计,每年还在不断涌现,但简单方便、适宜推广普及、满足地籍和户籍管理用字的大字符集汉字编码久久呼唤不出。在手机数字键盘领域,汉字输入基本还处于字处理阶段。无论是计算机还是手机汉字编码,目前都远远跟不上信息产业发展,甚至拖了后腿,很多人认为汉字编码今天已经走到了终点,不会再有新的突破,并已经影响到了国家基本法的制定。
二 汉字编码危机面面观
1、汉字排序
汉字是平面结构,计算机输入汉字是通过汉字编码,键入若干个字母来实现,汉字编码是线性结构。在目前已发布的汉字编码字符集中,几乎都采用汉语拼音和部首两级排序,随着字符集扩充,采用部首排序又划分若干独立区域,一个字符集中采用多种排序方法,这对于拼音文字来说是不存在的。
汉字编码字符集主要是用于汉字编码,汉字按部首排序属非线性排序,线性的汉字编码和非线性的部首排序方法,这不能说不是对当前汉字编码的巨大讽刺。
2、汉字编码字符集
1980年发布GB 2312-80,含6763个字。适应五笔字型输入法。金融、交通、邮政、户籍等部门普遍使用五笔字型输入法。
1997年发布GB13000.1,含20902个字。适应郑码输入法(五笔字型难以处理这么多字)。但遗憾的是郑码学习难度大,字符集虽然更新换代了,但人们并没有跟进,仍在使用最初的字符集GB 2312-80和五笔字型输入法。
2000发布GB 18930-2000,含27533个字。这是为了满足信息技术发展而发布的强制性标准,不符合该标准的产品将不容上市。但强势的标准和弱势的输入技术发生碰撞,该标准并没有真正执行,人们还在使用最初的字符集GB 2312-80和五笔字型输入法。
2005年发布GB 18930-2005,含70244个字。这是为了解决生僻字输入而发布的字符集。但鉴于同样原因,目前金融、交通、邮政、户籍等部门仍在使用最初的字符集GB 2312-80和五笔字型输入法。
2009年发布《通用规范汉字表》征求意见,含8300个字。这是适于各领域汉字应用的强制性标准,与以往发布的字符集不同,在某种意义上,这也是为了迎合目前汉字输入状况而制定的规范标准,只要把最初的字符集GB 2312-80适当扩充和五笔字型输入法适当修改就可以了。
3、换发二代身份证
因为户籍部门仍在使用最初的字符集GB 2312-80和五笔字型输入法,这样在换发二代身份证过程中,造成我国有近6000万人姓名“生僻”无法输电脑。之前据专家保守估计,至少有上百万人面临“被迫自愿”改名,而身份证的改名意味着户口簿、工资卡、保险卡、银行存折、房产证、驾驶证、人事档案、学生证、毕业证、各类技术资格证、水电煤气收费证等都面临更改,可能还远不止这些,还涉及亲属等社会关系的档案更改问题,这种更改带来的后遗症会影响到几十年以后。目前二代身份证换发已经结束,最终有多少人更改了名字不得而知。
4、对地籍、户籍管理用字进行限制
今年8月12日,《通用规范汉字表》征求意见新闻发布会刚结束,专家在谈字表对百姓生活影响时多次谈及汉字输入法的问题:“……其实那些字在电脑的字库里面都有,只不过一般的输入法打不出来。收录到《通用规范汉字表》以后,一般的输入法都可以打出来。”“有些特别生僻的字,电脑虽然已经编码,但是输入法不支持,就是人们常说的打不出来……。”
《通用规范汉字表》含83000个字,全国乡镇以下生僻地名和上千生僻孤姓未能收录到字表中,字表一旦正式发布就意味着这些生僻用字面临改名的命运,今后对新生儿起名用字也不得超出该规范,汉字输入法的问题已经影响到了国家法规的制定。
5、汉字编码混战
几乎是随着汉字编码的诞生,各种编码方案也相继问世,这可用“走马灯”或“昙花一现”形容。三十多年来,累计汉字编码总数已达数千种,每年还在不断涌现,但人们期待中能够独占鳌头的汉字输入法始终没有现身。
6、小学生用汉字输入法
人们对小学用汉字输入法的要求是苛刻的,小学学习汉字规范主要是笔顺规则表,适用于小学的汉字输入法应该与汉字笔顺有关。所以,采用基础部件编码并不适用小学生,而与汉字笔顺有关的汉字输入法尚未问世(按笔画输入除外)。
7、汉字编码基本规范空白
汉字编码自1978年诞生以来,至今已经三十多年了,汉字编码字符集由6763个字扩充到了70244个字。21世纪是信息化时代,信息化催生标准化,因此也是标准化时代。在前不久发布的《通用规范汉字表》征求意见中已经阐明:该表的制定已经考虑了计算机汉字输入的问题,收入到该表的字,一般的输入法都可以打出来。对于输入法很多人都在呼吁要按照国家规范编码,然而至今还没有制定出汉字编码基本规范。
8、电脑失写症
随着上机打字时间增加,“提笔忘字”人群逐渐浮出水面,心理医生把长期使用电脑打字,而在书写字时发生心理恐慌而写不出字的现象叫电脑失写症。这种症状表现是离开电脑就写不出汉字来,因此有人把这种症状蔓延形容是中国文化的一种慢性自杀,其实一点都不过分。
造成这种症状根源是汉字编码。与书写汉字相比,用电脑打字不留笔迹,这对大脑刺激作用差,因此容易出现电脑失写症。
目前用电脑打字主要是汉语拼音和五笔字型输入法,使用汉语拼音输入没有字形的概念,因此患这种症状的人群比较普遍。那使用形码输入的是否会好些呢?如果按笔画输入只用H、S、P、D、Z五个键位就够了,分别代表汉字的横、竖、撇、点、折,这肯定不会出现上述症状,但这种输入方法效率低很少会有人使用。采用五笔字型输入法,用整体或部分汉字结构编码,记的是汉字轮廓,与笔画输入相差甚远,与汉字笔顺规则表关系不大,因此也会出现上述这种症状。这意味着如果有一种汉字输入法,能够按照笔顺规则表每次输入若干个汉字笔画,与汉字笔画输入接近,这不但能避免产生电脑失写症,又能提高输入效率,这是后话。
9、手机数字键盘汉字输入
目前手机输入法远远落后于计算机输入法。计算机汉语拼音输入法经历了字处理、词处理、句处理、现在已经发展成为互联网输入法。而手机汉语拼音输入法目前仍在字处理阶段徘徊,就是先输入字,再由字组词。中国大陆用手机上网的目前已经超过一个亿,占互联网上网人数的三分之一以上,因此,手机汉字输入法滞后已经拖了信息产业后腿。
三 汉字编码理论危机
汉字编码危机实质是汉字编码理论危机。
汉字编码理论发展到目前为止,总共经历了两次大的跨越:
第一次是从整字输入到编码输入,结果产生了汉字部件。这一方法从上世纪七十年代末开始普及,标志着汉字输入由打字机过渡到计算机,特征是汉字专用键盘被国际标准键盘所取代,过去由专职打字员才能胜任的工作,现在几乎每个人都可以实现。
第二次是由字输入到词(句)输入。字输入存在两个问题,一是效率低,二是重码多。大约从上世纪八十年代初开始,逐渐采用词(句)输入,大大提高了汉字输入效率,巩固了汉字编码这种汉字输入方式。目前字、词混编是最基本的汉字编码方法,受到人们普遍认可。
如何实现第三次跨越,这是汉字编码最后冲刺。自汉字编码诞生以来,“好学的不好用,好用的不好学”这一格言始终伴随着汉字编码一路走来,前两次没能够跨越过去,历史留在了第三次跨越上,因此这无论是对汉字编码理论还是对汉字编码实践都是一种挑战,甚至涉及到汉字形码编码存亡的问题。
建立一种全新的汉字编码理论迫在眉睫。但在人们思维观念中还存在着很多误解需要消除,否则会直接影响新的汉字编码理论的建立,主要表现如下:
1、汉字编码与汉字简化一样,都遵循“约定俗成”原则。其实这只对了一半,而是都具有前提:汉字简化是在“常用趋简”下的“约定俗成”,否则就会产生负面影响;而汉字编码“约定俗成”也受“客观规律”支配,否则这种编码理论或编码方法就面临被淘汰。
2、汉字部件规范GB 13000.1是汉字编码基本规范。这是错误的,影响面也比较大,阻挠了汉字编码深入发展。采用汉字部件编码能够生成多种汉字输入法,但这构不上汉字编码基本规范,目前笔画输入法、表形码、台湾苍颉码等,都有别于采用汉字部件编码。无论是采用汉字部件编码还是采用其它方法编码,都要有个标准可依,这应该就是汉字编码基本规范,汉字编码基本规范应具有普遍性而非针对性。
还有人把汉字笔顺规则表看成是汉字编码基本规范,这种观点具有局限性,只适用于汉字按笔画笔顺编码。
汉字编码基本规范是啥结构?可借鉴汉字笔顺规则表。例如汉字笔顺规则表有“从上到下,从左到右”条款,汉字编码基本规范也要含有这样的条款;汉字笔顺规则表有“先横后竖,先撇后捺”及“先外后里再封口”条款,因为汉字编码每次输入一笔或多笔画结构,因此汉字编码基本规范就不能含有这样的条款。汉字编码基本规范重点是解决与笔顺规则表不相一致的地方。
3、汉字部件规范GB 13000.1是末级部件不能再拆分,否则把文字蕴含的信息都丢掉了。持这种观点是片面的,这一票否决权对汉字编码危害性极大,足以封杀其它优秀汉字编码方案。三十多年汉字编码实践已经证明,采用汉字部件编码是不能产生适于普及、简单易学的汉字编码方案,既然如此,为什么不能突破这一禁区呢?
按字源关系“好”只能拆分成“女、子”。在汉字编码中“女”、“子”可以各用1个字母表示,现在的问题是“子”是否可以用2个字母编码,目前还没有规定汉字部件只能用1个字母编码,但又不能用2个以上字母编码。例如“子”如果用2个字母编码,那一定会是用一个字母表示“了”另一字母表示“一”,但这有将“好”拆分成“女、了、一”之嫌。因此,汉字按字源拆分实质是限制了汉字部件用多字母编码。
汉字部件采用多字母编码有哪些好处呢?还以“好”字为例,如果能够拆成“女、了、一”,那在部件中可省略“子”,这有利于减少部件数量和简化编码方法,因此,唯字源拆分论是造成汉字编码“好学的不好用,好用的不好学”之根源。
汉字编码不是汉字而是汉字辅助工具,不能用汉字标准要求汉字编码,汉字拆分是为汉字编码服务的,汉字按字源拆分只是汉字编码进程中的阶段性产物,或者说是一种方法,汉字编码最终出路在于汉字按字形拆分。
4、国家应限定码长及重码率指标。这种规定意义不大,如果字符集字少,增加输入难度,码长就短,重码也少。如果是大字符集汉字多,为了降低输入难度和减少重码,码长自然就长,这是显而易见的,因此这些标准优劣不应体现在规范中,而是经过市场进行淘汰。
5、手机数字键盘字母键位设定采用GB/T 18031-2000标准(目前手机数字键盘)不能更改。其实这是从国际通用数字键盘移植过来的,目前也只是国家推荐性标准。该标准对英文的输入只有1次转换过程,即数字转换字母,因此,只要手机含有英文词语用数字键就可直接输入。而输入汉字需2次转换,即数字转换字母,再由字母转换汉字,这就决定了用这种手机数字键盘直接输入汉语词组具有瓶颈效应。
目前,手机作用越来越大,除了通话用之外还可用于网上银行存取、证券交易、交通购票,学生可以用来查字和外国人用来学习汉语等,这让目前手机数字键盘负重很大,因此,研制一种中国式数字键盘,重新设定手机数字键盘字母键位,使其最大限度满足英文和汉语拼音输入并推向世界,也已迫在眉睫。
四 汉字编码人才危机
汉字编码理论危机实质是汉字编码人才危机。
回顾中国三十年汉字编码史,是由理工学科发明了汉字编码,在这一领域由科研部门、大专院校、软件公司及分布在全国各地的工程师、教授、学者、职员、学生、工人、普通百姓组成的浩浩荡荡编码大军,目前仍然十分活跃。按语文学科标准制定了汉字编码规范,主体由文字学家、大学语文教授等组成。
按语文学科标准制定汉字编码规范,为了最大限度保留汉字信息含量,在汉字拆分中采用按字源关系制定了汉字部件规范。如果是按理工学科标准制定汉字编码规范,就不会用汉字按字源关系拆分,这对字源不堪了解是一方面,但不是主要的,为了追求最简单的汉字拆分方法,就必须尽量减少汉字信息含量,也就是采用汉字按字形关系制定汉字部件规范。
汉字编码属边缘学科,无论是汉字编码的研制还是编码规范的制定,都需要由理工学科和语文学科共同来完成。因此,汉字编码需要理工学科人才,也需要语文学科人才。目前这两学科的不统一是造成汉字编码至今尚不能统一的重要原因之一,因此,汉字编码尤其需要兼备以上这两学科的复合性人才,需要拥有决策权的复合性人才,作为应急,目前还需要能够在这两学科之间进行勾通的中间人才。
五 结论
六十年前,在制定《汉语拼音方案》过程中,总共提出了一千多种不同方案,大致分两类,一是考虑到民族感情,采用笔画结构,另一是考虑国际通用,采用拉丁字母结构,今天人们感叹历史选择了《汉语拼音方案》。
周有光先生在回忆中说:“《汉语拼音方案》不是没有缺点的,但是改掉一个缺点往往会产生另一个缺点。缺点和优点是共生的。只能两利相权取其重,两弊相权取其轻。”吕叔湘先生也指出:“平心而论,注音字母从其他几个方面来衡量,不比《汉语拼音方案》差多少,但是我们不得不放弃它们而采用拉丁字母,主要就是考虑到国际交流的需要。”
今天,在确定汉字编码方案过程中,我们又面临同样的抉择,对于汉字拆分,是考虑保留汉字信息采用字源编码,还是考虑使用方便和对外推广采用字形编码,这关系到未来汉字形码编码存亡的问题。而手机数字键盘字母键位的设定则恰恰相反,是迎合泊来品的目前这种数字键盘字母键位设定,让数亿中国手机用户容忍、并接受汉字输入瓶颈问题,还是发展民族品牌,重新设定手机数字键盘字母键位,逐渐对外推广并占领国外市场。这都应该引起我们的深思。
《汉字拼形系列论文之二十二》
E-mail:hzpx8298@yahoo.cn
启示:
汉字拼形输入法简介
由笔者研发的汉字拼形输入法是按汉字笔顺规则表,一次输入单笔画或多笔画汉字结构,这是除了笔画输入之外唯一的长码方案,最大码长12键,从而确保了大字符集(7万字以上)汉字输入的简单化,因此适宜普及。在实际应用中,汉字拼形主要是挂接到中值码输入法中。
中值码汉字输入法用于输入通用字(7000字以上)和词组。取汉字的三个要素:汉语拼音首字母,汉字拼形首、尾字母。在输入中:一键是单字简码;二键是双字词简码;三键是输入汉字;四键是输入词组。
中值码挂接了汉字拼形和汉语拼音。在输入中,凡遇到读不出的字(包括生僻字),只要按U键,进入大字符集字库,采用汉字拼形输入方法;凡遇到写不出的字只要按V键,进入汉语拼音字库,采用全拼输入法。挂接的输入法只能输入汉字,不能输入词组。
中值码适用于普通用户日常汉字输入,作家、记者、教师等语文工作者文章写作,文字学家、考古工作者古汉语写作,金融、交通、邮政、户籍等部门打字输入,尤其适用于初学或中老年人计算机汉字输入。
中值码汉字输入法分为:中值码G、中值码K、中值码D三个标准,三者之间区别仅仅在于挂接的汉字拼形版本的不同,中值码G挂接的汉字拼形是GB2312(含6763字)、中值码K挂接的汉字拼形是GB13000.1(含20902字)、中值码D挂接的汉字拼形是GB18030-2005(含70244字)。
中值码G汉字输入法近期将作成互联网下载软件,届时欢迎“品尝”。
高国鹫
2009年11月9日
目前在《语言文字网》(www.yywzw.com)已发表的文章有:
1 《汉字编码三大定律》2007年12月13日
2 《笔画组合理论与汉语拼形方案》2008年2月28日
3 《数字键盘复码字母键位设定原理》2008年2月29日
4 《挑战天下编码人》2008年3月19日
5 《汉语拼形汉字输入法》2008年4月7日
6 《汉字编码——未来推动汉字演化的动力》2008年6月6日
7 《关于汉字编码第二次整理探讨》2008年7月6日
8 《论汉字编码数学原理》2008年8月20日
9 《汉字编码与密码设置》2008年11月9日
10 《汉字编码与互联网域名》2008年11月19日
11 《汉字编码与电话号码》2008年12月21日
12 《汉字编码与邮政编码》2009年1月3日
13 《字母异化·数字异化·汉字编码》2009年1月19日
14 《汉字编码——对汉字简化的“否定”》2009年2月17日
15 《简化字总表》调整建议方案2009年8月8日
16 《阿拉伯数字的遗憾》2009年5月30日
17 《当前汉字编码急需解决的十个问题》2009年6月13日
18 《〈汉字笔顺规则表〉修改建议方案》2009年6月17日
19 《手机互联网输入法》2009年7月1日
20 《关于“中华姓氏”申报世界非物质文化遗产的倡议》2009年10月23日
21 《沉重的〈通用规范汉字表〉》2009年10月25日
22 《遭遇汉字编码危机》2009年11月9日
近期要发表的文章有:
23 《汉字(编)码的最终归宿》
24 《汉字拼形输入法简介》