汉字键盘输入语言文字的现状与未来 章寅元 浙江省舟山广播电视大学 【摘 要】汉字键盘输入语言文字已经不是问题,但不符合国家语言文字规范的汉字编码方案比比皆是,使汉字文化受到严重污染、干扰和破坏,贻害无穷。而中小学计算机汉字输入教学除了拼音编码方案外还无合适的汉字输入技术,直接影响着我国汉字计算机输入的整体水平。这个现象已经越来越引起人们的关注和重视。本文浅析现有编码方案普遍存在的问题,从而给出一个符合规范标准的、易学的、高效的、适用于学校教学的编码方案。希望全社会推广和普及标准规范的汉字输入技术,来提高国民素质和汉字在整个信息时代的国际地位。 《国家通用语言文字法》的诞生确立了规范汉字作为国家通用语言文字的法律地位,标志着我国语言文字规范化、标准化工作开始走上法制化的轨道。国家已经颁布的《汉语拼音方案》、《笔顺规范》、《折笔规范》等规范和标准,汉字键盘输入语言文字的编码方案必需遵守。编码作为汉字输入技术而言,编码方案除了遵守规范标准的要求外,还应该具备易学、高效和适合学校教学等特点,才能适应输入语言文字的需要。 汉字键盘输入的现状是:许多汉字编码方案不符合规范,它们与小学语文的识字教学产生严重对立和抵触,大大阻碍语言文字规范化的推行和发展,这样输入法越流行,汉字文化就越受到污染、干扰甚至破坏,贻害无穷。另一方面,符合规范、易学、高效、适合学校教学的编码方案却鲜为人知,更谈不上推广和应用,尤其在学校的汉字键盘输入教学中除了拼音输入法外,没有更好的汉字输入技术,直接影响青年学生键盘输入汉字水平的提高。这种现象已经越来越引起人们的关注和重视。采用先进的汉字输入技术用于学校的汉字输入教学,来提高我国汉字输入的整体水平,是当务之急。 汉字是一种具有“声,形,义”三个要素的复杂文字,要素“义”除了渗透在“形”中以外很难用计算机键盘来实现,汉字键盘输入编码方案都是利用汉字的“声”和“形”两种要素进行编码。分析不符合规范的编码方案或不尽人意的编码方案究竟存在哪些问题,以便求得理想的编码方案。 汉字的“形”是由5种基本笔形构成的复杂图形,笔画数少的只有一画,多则达几十画;笔画不但有一定的排列顺序(笔顺),而且还是笔画间相对位置构成的平面构架。要完全准确描述每个汉字完整的图形是一件非常困难的事情,而用字根却能方便地拼凑出完整的汉字图形,也就有了久盛不衰的字根编码方案。 然而用字根编码随即带来许多问题,首先字根是编码的作者定义的,有些字根还是硬造出来的,具体的字根更是千变万化,只要是字根的数目、具体的字根、字根的分布稍有一点不同,就是一种不同的编码方案,这样的方案何止千万种。不论是字根、或是字根分布、或是编码方案都无规范可言。 有些字根在汉字中不是连续笔画,编码时提取这些字根的顺序与笔顺就产生矛盾。例如:“武”拆成“一、弋、止”、“匠”字拆成“匚、斤”、“国”字拆成“囗、王、丶”、“夷”字拆成“大、弓”等等,这类字的拆字顺序不符合汉字的笔顺规范,从而导致编码不符语言文字规范。 字根的数量多,要熟记字根、更要记住字根的分布、要掌握字根的拆分原则以及编码原则,都是很复杂的过程,使得编码难记又难学。 用字根编码汉字拆成的字根不惟一。例如:“天”字可拆成“一、大”或“二、人”、“未”字可拆成“一、木”或“二、小”、“韵”字可拆成“音、匀”或“立、日、勹、冫”如此等等,使汉字的编码存在歧义,用户无所适从。 字根的分布常规的做法是“首笔定区位,次笔定键位”,即键名只与两个笔画有关。汉字编码只用键盘上的键名,若直接用汉字的笔画来定键名,不难发现字根是一个多余的编码环节。它把笔画组成汉字这一简单过程,分成了笔画组成字根、再由字根组成汉字两个环节来完成。使简单事情复杂化。 即使用字根编码能准确地描述出汉字的完整图形,也无法避免编重码的出现,例如“牛、午”、“天、夫”、“乃、刀、力”每组中字的笔画,笔顺,笔画数量都相同,为避开编码的重码,则采取强制性措施:若是字就规定拆字或编码的规则;若是字根就硬性分配在不同的键上。可见编码的重码与字根没有必然的关联。 总之,字根编码方案会产生编码不规范、编码有歧义、编码过程复杂、输入法难学等一系列问题,而且它与重码没有必然的联系。可以认为用字根编码是一个错误的选择。 有些编码作者已认识到字根编码的缺陷,就改为直接用笔画确定键名的方法,但为了选取笔画的需要,把汉字划分类别,然后分门别类地用不同编码规则进行处理。造成编码的第一个环节就要判别该字归属于哪一类,然后才能确定下一步应该使用哪一类编码规则,无形中多了一个辨别字类型的环节;其次,一个方案中存在多种编码规则,使编码的一致性变差,因此把汉字分类也是个不恰当的做法。还有在方案中还保留少量字根,并规定字根优先笔画的编码方案,使得编码更显得磕磕绊绊不流畅。 单独用汉字的“声”编码的规则是《汉语拼音方案》,规范性好,几乎不用学习,拼音字母直接可用键盘输入,是目前使用人数最多的方案。但汉字一共有不到410个音节,对于成千上万的汉字而言,重码就不可避免;另外拼音编码的长度较长,即使输入完整的编码,汉字也无法自动上屏,影响输入效率;再则,拼音编码无法输入不能正确识读的汉字,更不用说是无拼音知识的用户。输入效率低、无法输入不会读的汉字以及不能适应所有层次人员使用是拼音编码方案的缺陷,不可能从根本上得到解决。 从上面分析看出,采用字根编码所带来的危害、汉字分类所造成的麻烦、拼音的先天不足都是造成编码方案不规范或不理想的原因。所以,理想的汉字编码首先要避开上述存在的问题,即:不用字根编码,不给汉字分类,合理利用汉字的“形”和“声”的要素。 其实用汉字的“形”编码不一定非要使汉字图形再现,只要能取得能代表字形的特征、与其它汉字有所区别的信息就足够了。取“形”信息最简单的办法是按书写顺序取字首和字尾的部分笔画。单独用“形”的信息编码,不可避免重码的发生,以只有撇和折两个笔画组成的汉字(九儿匕几乃刀力)为例,若单独采用笔画编码,只能根据笔顺规则被分配在两个键上,重码率高;字根编码方案强制把这七个字(根)分布在不同的键盘上,来避免重码;而采用声形结合的办法,在笔画编码的前面加上拼音码,就可区分这些汉字的编码。所以声形结合是编码理想的选择。 据此,汉字未来的编码为:拼音的首字母、汉字的前4个笔画和末2笔画;笔画数少于4画汉字的编码为:拼音首字母、汉字的前2笔画和末2笔画;用双笔画来确定一个键。按《汉语拼音方案》和《笔顺规范》的规定选取拼音字母和部分笔画,并且依此顺序组成编码,方案没有任何多余的环节、规则既简单又统一,十分流畅,是最理想的编码方案。 汉字拼音的首字母、部分笔画和笔顺信息,既能体现汉字特征,又精简了汉字声和形的信息,既有利于编码元素的选取,又易于用户的掌握。充分利用汉字声和形的信息,很自然地降低了编码的重码率。遵照汉字规范进行取码和编码,既符合语言文字规范,又是输入法易学的保证。因为人们是遵照汉字规范识字的,编码利用人们已经熟练掌握的汉字知识,就不用再重新学习编码知识,当然易学。实质上这是让编码方案去适应人的做法。 是汉字的同声不同形的特性,使这种声形信息组合的方案降低了编码的重码率。以拼音为zhang的字为例:章(zyif)、张(zbcx)、长(ztx)、帐(z;kx)、仗(zrdw)、丈(zdw)、掌(zlwf)、涨(zoax)、账(z;wx)、樟(zfwf)、杖(zfww)、彰(zyie)、漳(zosf)、胀(zqgx)、瘴(zywf)、障(zvyf)、仉(zrq)、嫜(zcsf)、幛(z;lf)、嶂(z;lf)、鄣(zyiv)、璋(zghf)、獐(zqwf)、蟑(z;ff)共24个汉字,(括号内为本方案的编码)采用此方案的编码只有1个重码,很能说明问题。它充分体现了遵循识字规律、编码简单、符合语言文字规范、易学性好、输入效率高和适合学校识字教学等特点。 此编码方案适合任何层次的人员学习和使用,既适用于在识字教学阶段同步学习,学会几个字就可输入几个字,立竿见影,与识字教学相得益彰。也适用于已经掌握汉字人员的使用,他们已经具备汉字的读写能力,只要掌握首笔画确定区号,次笔画确定位序的规则就可输入汉字,适应期也很短,并且掌握后不会遗忘。此方案编码的实际测算结果,重码率为10%。 采用简码和词组是提高汉字输入的效率常规做法,各种方案的规则基本上相同:把使用频率高的字设为简码;双字词取每个字的前两个编码,三字词取每个字的第一个编码和第三字的第二个编码,四个及以上的词取第一、二、三、末字的首编码。所以不管何种编码方案(全拼除外)在实际输入语言文字时,大多数情况只需输入汉字的前两个编码,本方案只涉及到拼音首字母和汉字的前两个笔画信息,拼音首字母和前两个笔画就成了最能反映汉字特征的信息,也是汉字中最方便选取的信息。这个事实说明完全没有必要把汉字的编码搞得太复杂。 方案中编码的首位只用拼音的首字母还有如下好处:由于第一个编码是拼音字母,其余编码是由笔画确定,因此,第一个编码用“通配符”代替就可输入不会读的汉字,弥补拼音不能输入不会读音汉字的缺陷;由于声码只用一个字母,可解除“平”、“翘”不分的困扰,更无前后鼻音之忧;用声码输入汉字,还符合人们的思维习惯,而且在输入“多字词”的过程中简直成了“简拼”输入。 按照汉字自身规范编码的方案,适应性强,它不仅适用GB-2312汉字标准,也适用GB13000.1以及GB18030等国家标准,生成的输入法也不会因国家标准的改变而改变;规范性好,由于它遵守汉字自身规范进行编码,不再需要为汉字编码而制定新的规范,诸如《部件规范》。此编码方案若能广泛使用,也许能延伸成为汉字的一个组成部分,信息时代电脑并没有把汉字淘汰出局,反而给汉字文化带来了新的发展机会。 目前我国对汉字键盘输入语言文字规范还缺乏评价标准,所以如何评价一个汉字编码方案还是一个亟待解决的课题。汉字作为我国的通用文字,受众最多,汉推广和普及标准规范的汉字输入技术是提高国民素质和提高中文软件国际竞争力的关键,加快汉字输入技术的标准化进程,使之融入到国际标准,关系到汉字在整个信息时代的国际地位。 |