湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

汉字输入技术与应用研讨会论文集

 

输 入 法 解 惑

 

沈不沉

 

【摘  要】不论以何种名义命名的输入法,都要向用户提供一个该输入法赖以依存的词库;某一输入法的重码率,与其所提供的词库的词条总量成正比,由于中文输入以词组为主,故统计单字的重码率毫无意义。由Windows9X 提供的“输入法生成器”,有可能建立具有个性化特征的输入法;编制个人词库时,应尽可能包含经常用到的GBK字库。

 

几年前就有“万码奔腾”之说,这里的“码”指的是各家推出的汉字输入编码,也就是通常所说的“输入法”。“万码奔腾”意谓输入法之多。曾有人作过统计,中国目前至少有两千来种输入法,单是温州人编的码就不少于10个。

不论以何种名义命名的输入法,都要向用户提供一个该输入法赖以依存的词库,从这一意义上说,词库就是输入法的灵魂,词库的质量和数量,决定着该输入法的中文输入质量,有的输入法还设置了高频先见、模糊查询等近乎智能化的功能。不论这个输入法有多少功能,其中最关键的方面就是词组的设置。

中文输入法的最大特色是单字和词组并存,可以用同等的按键次数输入一个单字或一个词组乃至一个短语。一般的输入法大抵都遵循以下的编码原则,即“以单字为基础,以词组为主导”。所谓单字,指的是当前在计算机中文平台上普遍应用的国标字库(GB231280),至于词组的选择,常用词、习惯用语等的多寡,则全凭该输入法编码人的意愿,谁也无法给出一个统一的标准。

由于早期的中文平台受 DOS 640K内存的限制,一般的输入法都不可能做得很大,从我经手过的近40余个输入法来看,其词库总量大多在70KB上下,也就是说,其所提供的词组约在六七千条左右。如果仅用于起草一些简单的公文或者财务上记账也许还能凑合看用,倘要用于文学创作,实在是捉襟见肘,相差太远了。更由于 WPS编辑软件中的内置输入法都是封闭式的,用户不能按照自己的意愿来增加或减少词组,遇到该输入法中没有的词组,用户只好一个字一个字地输入;有的输入法虽也提供了造词功能,但重码的次序却很难按照使用者的意愿来加以调整,这不仅大大影响了输入速度,还会令使用者产生不胜其烦的厌倦心理。

许多用户可能都不大清楚,一些输入法在其广告宣传中为了标榜其优越性,大都表明其重码率如何地低,此类广告语实则都是掩耳盗铃,自欺欺人。会打字的人都知道,中文输入是以词组为主的,只有在词组输入无效时才不得不用单字逐个输入,因此,统计单字的重码率也就失去意义。如果这所谓的重码率指的是词组,那么,只要把产生重码的词组去掉,重码率岂不就等于零了,哪来什么百分比?须知输入法所依存的词库乃是纯粹的动态概念,词组的设置全凭人为操纵,决不可能有恒定的百分比;而重码率也只能与词组的多寡成正比,词组越多则重码率越高,这也是毫无疑问的。

日前报载一篇介绍某输入法如何优越的文章,声称该输入法的重码率只有0.1%,我就怀疑这个词库的可靠性。1995年以后,随着 UCDOS5.0版的推出,由于采用了零内存技术,使输入法的词库容量得以大大扩充,该平台还提供了一个所谓的“万能输入法”,用户可以自己动手编制一个按照某种编码规则编成的词库文本文件,UCDOS目录下的 Convert.exe文件就可以将它转换成以 imd为扩展名的输入法。 Windows3.2版和Windows95的方法也与此相仿,尤其是 Windows95,其词库总量可达650O0条左右,如果不愿受某种编码规则的束缚,用户还可以按照自己认为合适的方法来创造自定义词组(.emb文件),我就曾利用键盘上的正反方括号自定义了不少词组,用来颇觉得心应手。

中华文化的博大精深给中文应用者提供了纵横驰骋的广阔空间,由于个人的受教育程度、职业需要及文字风格的千差万别,多数人都需要一个完全按照个人意愿编制出来的词库,即具有个性特征的个人专用词库,从这以意义上说,从Windows95开始为用户提供的“输入法生成器”。实在是功德无量。

Windows98 问世以后,由于硬盘与内存容量的不断升级,以及   CPU 反映能力的加速,使得在Windows 平台下的自定义输入法有了更加广泛的应用空间,而且突破了6.5万词条的限制。从理论上说,自定义的输入法可以做得无穷大。目前我个人使用的《沈沉词库》的词条就已达6万条。WindowsMe Windows98 是姐妹版,同样可用自定义的方法来生成自己个性化的输入法。但WindowsXP 却把原先的“输入法生成器”取消了,即使把Windows98 下的“输入法生成器”拷贝到WindowsXP,虽能转换码表,但却不能安装。不论微软对WindowsXP如何地自吹自擂,但取消“输入法生成器”,无论如何是失算的。

目前,市上流行的输入法,一般都以GB2312-80字库为基础,能够应用的汉字仅有6300个左右,遇到GB2312-80字库没有的字,此输入法就无能为力了。本次会议“汉字输入技术与应用研讨会征文通知”中的第二项“论文要求”就有一行特别提醒:“论文中凡GB2312-80中没有的字符或部件请在文中详细说明或另行书面通知”,可见在中文输入中,这是一个普遍存在的问题。其实,这个问题在Windows9X下,已经不是什么问题,解决起来也很容易。因为Windows9X 中文版已为用户提供了一个GBK字库,中文回头做“国标扩充字库”。多数应用Word 作为编辑软件的人都知道,当你正在使用的输入法遇到某个冷僻字无法输入时,可在Word 的“插入”工具栏内点击“符号”,即出现GBK字库,可从中选择所需要的字。此外,Windows9X 自带的输入法中的“全拼输入法”已集成了GBK 字库,只须连续按Ctrl + Shift 键切换到“全拼”,一般所需要的冷僻字都可用这种方法输入。

有了GBK 字库,当你运用自定义的编码方式来编制个性化的输入法时,在词库中应尽可能把一些经常用到的冷僻字都收进去,如果个人使用的词库包括了部分GBK 字库,在输入中文时就省去了频繁切换到“全拼”。我是个搞文史的人,我的近6万词条的词库中就有不少冷僻字及其组词。

 

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有