湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

汉字输入技术与应用研讨会论文集

 

形化声编码方案:一种汉字输入的新思路

 

刘文祥

 

保定晚报

 

【摘  要】汉码的根本问题是如何使汉字的输入像拼音文字那样简便的问题,解决这一问题必须使汉码达到四个目标,即易学、易用、规范、通用。目前流行的汉码没有一个同时达到以上目标。这是由汉字的缺陷造成的。汉字的缺陷即语音不发达及字型庞杂,语音不发达使得用声输入汉字重码率高得惊人,无法做到易用;字型庞杂使得汉字用形输入必须硬性设置字根,无法做到易学和规范。本文介绍的形化声编码方案,以声取形,使汉字的声形得到了有机的统一,使汉字语音不发达及字型庞杂的缺陷不再成为汉字输入的障碍,较好地实现了汉码的四个目标。

 

前言

 

汉字编码的根本问题是如何做到使汉字的输入像拼音文字的输入那样简便的问题,这一点为汉码学术界所公认,一般认为,汉码要做到这一点应该实现以下四个目标:即易学、易用、规范、通用。易学,即规则简单,易理解,机械记忆量小;易用,即重码率低,输入速度高,同时不需要高强度思维;规范,即编码必须遵循汉字构字规律和语言文字规则,不能与学校教学相抵触干扰文字的正常使用;通用,即不仅能处理常用汉字,而且能处理包括繁体字在内的全部汉字,同时还应尽量适用不同使用者的特点(普通话的水平、方言区的差别等)。

可是,就目前汉码现状看,人们经常使用的汉码,尚没有一种能够完成以上四个目标。就是说,人们经常使用的汉码没有一种称得上是合格的汉码。汉码发展这么多年,居然没有出现一种合格的汉码供人们使用,这似乎不可思议,然而,这却偏偏是不争的事实。汉字编码所以出现这种尴尬局面,其实是有它的必然性的,因为汉码多年的发展实际上只是一种量上的发展,而在汉字编码的根本性问题上并没有多少突破。针对这种情况,笔者不揣冒昧,特向大家提供一种汉字编码的新思路,即形化声汉字编码方案。

这个方案目前尚不敢断言已彻底解决了汉字编码的根本性问题,但起码为解决这个问题提供了一种现实的可能,下面即就这个问题展开论述。

 

一、形化声编码方案:克服了汉字输入的两大障碍

 

目前,汉字键盘输入法多达上千种,被人们戏称为万“码”奔腾,但这上千种汉码归根结底不外乎三类:即声码、形码、声形码。这三类汉码各有优势,也各有缺憾。声码虽简便易学,但因受汉字语音不发达的限制,重码率甚高,输入时不仅要靠数字键选择,还要翻页寻找,令人不堪其繁,远远做不到易用;形码虽突破了汉字语音不发达的限制,大大地降低了重码率,使汉字的输入达到了一个空前的高度,但因其字根的繁多及字根设置的硬性和随意,不仅使得汉字输入成了一种需花费大量时间学习才可掌握的技能,同时在很大程度上破坏了汉字的构字规律,干扰了汉字的正常学习和使用。所以,对于专业录入人员来讲,形码可以说是做到了易用,对于其他人来讲,既不易学,也不易用,更谈不上规范和通用。声形码显然是为了取以上两类码的长同时以补以上两类码的短才出现的,但做的并不尽如人意,这也难怪,因为取声,就必然会受到汉字语音不发达的限制,就不能最大限度地减少重码,而取形就避兔不了设置字根,强迫使用者去学习记忆,再加上声形频繁转换,又势必会增加使用者的思维强度,而这类码同声码一样,还有一个致命的弱点,即读不出音和读不准音的汉字打不出来,还得特设功能键帮助。所以,这类码虽然很多,但却没有一种能成气候,究其原因,其实很简单,就是它取声,却比声码复杂,它取形却不如形码单纯,就是说它两头都想靠,却两头都落了空,人们不买帐也就很自然了。

分析了以上三类汉码的特点,现在我们可以探讨汉码的根本性问题了。如前所述,汉码的根本性问题,即如何使汉字的输入象拼音文字的输入那样简单的问题,这个问题必须解决,如果这个问题不解决,汉字的快速输入就只能是少数人的一种技能,这对于使用汉字的广大的社会人群就永远是一种遗憾。

那么,汉码的根本性问题怎样解决呢?没有别的办法,只能在以上的三类汉码中去寻找解决的途径。以上三类汉码中,哪一类汉码能够解决这个问题呢?我们先看声码,声码是一种最原始的汉码,同时也是一种最方便的汉码,可是因为汉字语音的不发达,使得声码的输入受到致命的限制,汉字的400多个音节要承担上万甚至数万个汉字的输入,显然不堪其负,所以,声码无法解决汉码的根本性问题;再看声形码,声形码虽能在很大程度上减少汉字输入的重码,但因其受声的限制,解决不了读不出音和读不准音的汉字的输入问题,同时声形不时转换,无端地增加了使用者的思维强度,往往令人顾此失彼不堪其扰。所以,声形码也无法解决汉码的根本性问题;再看形码,众所周知,目前人们使用的形码,字根是硬性和随意设置的,不仅学起来困难,而且还干扰了汉字的正常的学习和使用,所以形码走硬性设置字根这条路,也无法解决汉码的根本性问题。

声码,声形码无法克服汉字语音不发达的缺陷,而形码硬性设置字根则意味着汉码的技能化,意味着把广大的使用汉字的社会人群拒之门外,很显然,汉字编码存在着两大障碍,这两大障碍是:l,汉字的语音不发达使汉字用拼音(声)输入无法避免高频率的重码,做不到易用。2,汉字的字型庞杂使汉字用字型(形)输入无法避免硬性设置字根,做不到易学,。由此我们可以得出一个明确的结论,要想使汉字的输入象拼音文字那样简单,必须克服汉字输入的这两大障碍。

而形化声编码方案则成功地克服了汉字输入的这两大障碍。形化声编码方案即一种将汉字的基本笔画、偏旁部首及字中字全部化做汉语拼音的声母进行汉字输入的汉字键盘输入法。换个角度说,就是利用汉字字型的读音进行汉字输入。因为利用汉字字型的读音进行输入,这就使得一个汉字实际上有了几个声,使汉字语音不发达的缺陷不复存在。而利用汉字字型的读音进行汉字输入,又会使汉字庞杂的字型自然而然的得到简单明确的归类,无须再去硬性设置字根,这又使得汉字字型庞杂的缺陷化为乌有。同时,值得指出的是,汉字字型的读音,也就是汉字的笔画及偏旁部首的名称是广大的社会人群所熟知的。所以,这又使得汉字的输入无须进行专门的学习,甚至不用去学就会使用。下面我便对形化声编码方案作些简单介绍。

 

形化声编码方案的基本构想

 

形化声编码方案由于突破了汉字语音的限制和形码硬性设置字根的桎梏,使得汉字的输入做到像拼音文字那样简便成为一种现实的可能,但要实现这一可能,还必须做到使使用者见到任何一个汉字就知道怎样拆打,这就需要做到使每一个汉字的输入具有确定性和唯一性,为实现这一目标,笔者在拆阅微机常用字库中所有汉字的基础上  制定出以下四项基本原则:1,三键原则,即每个汉字一般最多打三键,此原则是根据微机常用字库中汉字的数量制定的,微机常用字库中汉字数量为6763个,而三键打一个字则可在没有重码的情况下打出17576个汉字(26的三次方),所以三键打一个汉字,容量已经足够,在一般情况下无须再多用键。现在微机中的常用汉码均有大量的四键字,所以,三键原则会大大减少汉字输入的用键量,使汉字的输入速度得以提高。2,拆后原则,即一个字在前后两部分均可拆的情况下,不允许拆前,只允许拆后。此原则是为由两部分组成而又需要打三键的汉字制定的,拆后的具体做法是,先将汉字的后一部分整取,然后再取其居末笔画或偏旁,如“使”字由人吏两部分组成,如需打三键则应取人吏捺,再如“容”由宝盖谷两部分组成,如需打三键则应取宝谷口。3,净拆原则,即一个字如能拆成三个完整的部分则应首先拆成三个完整的部分。此原则是为由三部分组成的汉字制定的,净拆的含义是将由三部分组成的汉字用三键拆净,不可多拆也不可少拆,如“复”字由人日折文三部分组成,其中的末码折文由撇又两部分组成,拆字时不能将撇舍弃取又;再如“窗、些”二字即可拆成两部分也可拆成三部分,在此情况下首先考虑拆三。4,顺序原则,即按先左后右先上后下的顺序取汉字的笔画或偏旁部首。此原则是为由四部分和四部分以上组成的汉字制定的,其要领是,按汉字构字的顺序取汉字的首码、次码和未码。如“生”字由撇横竖横横五部分组成,按原则取撇横横;再如“儡”字由人田田田四部分组成,按原则取人田田。

以上四项基本原则可以使所有汉字的输入做到有章可循。考虑到,有些偏旁部首没有读音,本方案还专门设置了无名编旁键:考虑到有些偏旁部首系生僻汉字,本方案还制定了一张码表,码表中把所有的偏旁部首按其所属声母分类排列,使人一目了然,这样做的好处是既可以巩固使用者的编旁部首知识,又可以提高使用者的语言文字水平,如 BIAN)、殳( SHU)、JI)等字,一般使用者可能不认识,但看了码表就会立刻知道各自的归属(具体码表从略)。本方案的重码率在5%左右,就重码率来讲,这已经很低了,尽管如此,为杜绝重码,本方案还对所有的重码字安排了其他打法,所以,从一定意义上说,本方案的汉字输入已经做到了没有重码。同时本方案还在遵循汉字构字规律的前提下,对个别打字键的功用及个别偏分部首的位置做了一些细微补充和调整,限于篇幅,就不一一叙述。

本方案已于去年11月申报了国家专利,特此申明。

 

形化声编码方案较好地实现了汉码的四个目标

 

如前所述,汉码的四个目标是易学、易用、规范、通用。汉码只有实现了这四个目标才能使汉字的输入像拼音文字那样简便。而形化声编码方案则较好地实现了汉码的四个目标。下面我们逐一论述。

1,易学,要想使汉码易学必须使汉字的输入以广大的社会人群熟知的知识为基础,而汉字字型中的声恰恰为广大的社会人群所熟知,形化声编码方案将其作为汉字的输入渠道,无疑可以给使用者带来极大的方便,无须花费精力去专门学习就可以迅速掌握。

2,易用,要想使汉码易用必需使汉字的输入即方便又具有确定性,形化声编码方案本质上是一种形码,但与其他形码却有根本的不同,其他形码是以形取形,所以无法避免设置字根,无法使汉字庞杂的字型得以简化,而形化声编码方案的取形则是通过汉字字型的声来实现的,这就避免了字根的设置,减弱了使用者的思维强度,同时又保留了形码中汉字的输入具有确定性的优势,很容易做到使汉字的输入即方便又快捷。

3,规范,形化声编码方案的以声取形严格遵守了汉字笔画及偏旁部首的读音,而其拆字原则亦充分考虑了汉字的构字特点和规律,并且符合人们的心理习惯,使用此码不仅会丰富人们的汉字知识,还会提高人们学习汉字的兴趣,这无疑会有利于学校的教学,对汉字的正常使用也会有积极的推动作用。

4,通用,通用的内容之一是能够处理包括繁体字在内的所有汉字,这一点对于本码来说不构成问题,可以用不同的版本来解决。通用的内容之二是能够适应不同使用者的特点,这不同使用者的特点主要是指人们普通话水平的不同和方言区的差别,这一点对于本码也不构成问题,亦可用不同的版本来解决。不过对这一点笔者有不同的看法,笔者认为,汉码固然应该适应不同的使用者,但汉码还应该有一种引导使用者的使命,因为我们的国家毕竟是一个统一的国家,推广普通话更是一项长期的任务,所以汉码以普通话的发音为基础,不应该视作一种缺点,因为这样的汉码如果能够推广,不仅会有利于普通话的普及,同时也有利于提高汉字的国际地位。

综上所述,可以说形化声编码方案较好地实现了汉码的四个目标。

 

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有