一 拼形字元与拼形字母
汉语拼形基础字元对照表(GB 2312—80)见下表,为方便记忆,表中将字符集析出的275个拼形字元划分成62个主形字元和213个辅形字元,主形字元是在同类字元中具有代表性,人们只要掌握了主形字元与拼形字母间的对应关系,那么辅形字元与拼形字母间的对应关系也就清晰了,这为掌握七万余字大字符集标准的汉语拼形奠定了基础。
四 汉语拼形输入法应用
主要介绍中值码输入法,为音、形混合编码,由汉字汉语拼音首字母及汉语拼形首尾字母构成,是一种简单易学、输入快、词组容量大、重码少、适于推广和普及的汉字输入法。中值码编码规则如下:
1、简码输入
键入一码是单字中汉语拼音首字母所对应的常用字,键入二码是双字词中每个字汉语拼音首字母所对应的常用词。
2、单字与词组输入
单字输入为三码,首码是汉语拼音首字母,次码及末码分别是汉语拼形首、尾字母。词组输入为四码,双字词依次选取每个字的汉语拼音首字母及汉语拼形首字母;三字词依次选取每个字的汉语拼音首字母及末位字的汉语拼形首字母;四字及四字以上词依次选取前四字每个字的汉语拼音首字母。
目前,7000个现代汉语通用字,完全可以满足出版印刷、词书编纂、文字信息处理以及人们日常交流的需求,因此,为了与通用字表相匹配,中值码单字选用《信息交换用汉字编码字符集 基本集》(GB 2312—80)标准(含6763个字),词组的选用要涵盖《汉字键盘输入用通用词语集》(GB/T 15732—1995)标准(收录43540条词组)。
3、挂接输入法
挂接输入法的作用是把两个互不相同的汉字编码方案纳入到同一个输入法中,并且能够快速进行切换:在输入过程中,只要按某一键就会立刻切换到另外一个辅助字符集中查找字,把这个辅助字符集的汉字编码称为挂接输入法。
在日常汉字输入中,不时会遇到读不准字音或不会读的生僻字输入的困惑,例如人名、地名等,中值码挂接了汉语拼形输入法,在输入过程中只要键入字母u就会自动切换到汉语拼形输入法检索字,按不同版本选用GB 18030—2000标准(收录27484个字)、GB 18030—2005标准(收录70244个字),以及更大字符集标准或整个方块字,这除了要增补字元以外,编码规则不变。在日常汉字输入中,也不时会遇到写不出字形或不会写的疑难字输入的困惑,中值码又挂接了汉语拼音输入法,在输入过程中只要键入字母v就会自动切换到汉语拼音输入法检索字,按不同版本选用GB 2312—80标准(包含异音字共收录7288个字)、GB 18030—2000标准和GB 18030—2005标准。因为中值码挂接了汉语拼音和汉语拼形输入法,因此是不需要备用字典的中文输入法,挂接输入法的最大码长12键,但不包含词组的输入。
4、关于重码
中值码单字采用GB 2312—80字符集,包括异音字在内单字总数为7079个,每个字为3码,其中不重码字占37.4%,2重码以内字占64.8%,4重码以内字占89.5%,6重码以内字占96.8%,8重码以内字占99.2%,最多一组重码为12重。词组选用涵盖《汉字键盘输入用通用词语集》(GB/T 15732—1995)标准(收录43540条),词组总数为43620条,每条词组为4码,其中不重码词组占62.8%,2重码以内词组占85.8%,4重码以内词组占97.7%,6重码以内词组占99.4%,8重码以内词组占99.8%,最多一组重码为17重。
附录:
大字符集《信息技术
中文编码字符集》(GB18030—2005),含70244个字,对该字符集所有字逐个进行分析、归纳总结出542个汉语拼形字元。其汉语拼形字元、汉语拼形字母及数字汉语拼形字母(复码数字键盘)对照表(部分)如下:
《汉字近形编码论文之五》
辽宁/本溪/高国鹫
E-mail: hypx8798@yahoo.cn
2008年4月7日