七巧笔画码汉字输入法
刘学中
【摘要】本文根据东北师范大学教授徐万胥先生的专利成果《数字统一码汉字输入法及其键盘》提出了改进方案。改进后形成的七巧笔画码符合GB18031对数字键盘汉字输入法要求,具有更易学、更规范、更高效的特点。
【关键词】改进方案 , 数字统一码 , 七巧笔画码, 汉字输入法
1.引言
数字统一码是徐万胥教授二十多年汉字编码研究的专利成果。专利号:ZL00110317.2。数字统一码的设计思想是:坚持中、日、韩汉字编码方法统一;繁、简汉字编码方法统一;字、词编码方法统一; 识字与识码规律统一。七巧笔画码是在数字统一码的基础上,改进形成的一种新型汉字笔画编码方法。七巧笔画码突出编码的易学性,同时兼顾汉字的输入速度。
2.统一码汉字基本笔画的属性值
汉字是一个比较复杂二维图形,通常由若干个部件组成,而部件又由笔画组成。汉字的字形由笔画及其位置来决定。即使笔画完全相同,而笔画之间的位置不同,也可构成不同的汉字,例如,“于”和“亍”。
2.1 汉字笔画的顺序
汉字的笔画有十几种,根据字典检字使用五个“一画部首”的惯例,以及数字编码的特点,我们取五种基本笔画:“横(一)”(含“提”)、“竖(丨)”、 “撇(丿)”(包括“啄”)、 “点(丶)”(含“捺”)、 “折(乙)”(包括左折和右折),并且将这五种笔画赋予顺序值,分别规定为:“1”、“2”、“3”、“4”、“5”。
2.2 汉字笔画之间的位置关系属性值
笔画之间的位置关系属性是一个重要属性,可以作为汉字编码的依据。汉字中笔画之间的位置关系有:“相离”,如“八”;“相接”,如“丁”、“口”;“相交”,如“十”、“丰”等。实验表明,“相交”关系与前两者容易区分,并且较前两者带有更多的编码信息。因此,我们将“相离”和“相接”关系归并为“独立”关系。这样,笔画与笔画的位置关系就简化为两类:独立与相交。
2.3 汉字笔画代码
将独立的 “横(一)”、 “竖(丨)”、 “撇(丿)”、 “点(丶)”、“折(乙)”的代码为:“1”、“2”、“3”、“4”、“5”,“横交”、 “竖交”、“撇交”、“捺交”的代码为:“6”、“7”、“8”、“9”。考虑到数字编码的码元资源十分珍贵,少用一个码元“0”,对数字统一码在移动电话等数字设备上使用更方便。所以,不区分“折”是否与其它笔画相交,规定“折”无论是独立,或者与其它笔画相交,它的代码均为“5”。
2.4 超越笔画的部首
使用九个出现频率很高的部首作为“超越笔画的部首”,这九个“超越笔画的部首”是:“王、虫、竹、氵、纟、十、艹、八、口” ,分别赋予代码“1、2、3、4、5、6、7、8、9”。实验表明,使用“超越笔画的部首”, 可提高编码效率,降低重码率。
但是,为了不影响编码的易学性,在下面提出的七巧笔画码编码中放弃使用“超越笔画的部首”。
3.汉字的类型及首尾切分
汉字分独体字与合体字两种,合体字占汉字的绝大多数。
3.1 汉字的类型
全国信息技术标准化委员会在《汉字内码扩展规范(GBK)》中将汉字的类型为两类:独体字和合体字。举例如下:
合体字,如:们、因、函、区、庙、进。
独体字,如:木、鱼、毛。
独体字是浑然一体的,一般具有独立、单纯的含义,不容易切分成部件,或者已经是基本构字部件,不能再切分。
3.2 汉字的首尾切分
数字统一码对于合体字,采取二分法,把字分成“字首(前字部)”和“字尾(后字部)”两部分。切分字首、字尾的方法,与查字典取部首的方法相同。按取形完整的原则,将汉字一分为二。把上下结构汉字的上部构字部件,左右结构汉字的左部构字部件,作为字首,其余作为字尾。包围结构汉字的首尾,按书写顺序划分,先写的构字部件作为字首,其余作为字尾。对于独体字不切分。
4.数字统一码的取码方法
4.1 数字统一码的键盘安排方式
数字统一码的码元为:“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”,共九个数字键。数字统一码的键盘安排方式,采取汉字的笔画代码与数字键盘数字键位同一对应 ,即:“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”分别对应“横(一)”、 “竖(丨)”、 “撇(丿)”、 “点(丶)”、“折(乙)”、“横交”、 “竖交”、“撇交”、“捺交”。
4.2 数字统一码的基本取码方法
数字统一码规定一个汉字可以取一至六码,允许使用简码和词码,词汇码为等长码。汉字的结构类型决定了汉字的取码方法。对于合体字,字首按笔顺取前一至三码,字尾按笔顺取前一至二码和末笔代码,整字最多取六码。对于独体字,按笔顺,取前一至五码和末笔代码。取码方法举例如下:
字445556 各3599 们32425 种367257 闻425126 出52752
庙413251 起612515 进668454 申25667 右689 丰6667
在输入汉字时,采取逐键提示的方式,每次键入,都有可选汉字提示,使用者即可选字,而不必等到输入全部代码。数字统一码是有重码输入法,与同类输入法相比,重码率低,同组重码字数少,在GB 2312 字符集中,同组重码汉字一般不超过10个,实现了一页提示行显示所有同组重码字。
5.七巧笔画码的取码方法
5.1 七巧笔画码的基本取码方法
数字统一码改进后称谓七巧笔画码,规定一个汉字可以取一至七码,允许使用简码和词码,词汇码为等长码。汉字的类型决定了汉字的取码方法。对于上下结构、左右结构、包围结构等类型的合体字,字首按笔顺取前一至三码,不足三码以“0”补齐三码,字尾按笔顺取末二至末一码和字尾的前一至二笔代码,不足两码以“0”补齐两码,整字取七码。对于独体字,按笔顺,取前一至三码和末一至末二笔代码,第六和第七码以“0”补齐。取码方法举例如下:
字4455650 各3595110 们3202540 闻4251612 出5275200 丰6667000
在输入汉字时,采取逐键提示的方式,每次键入,都有可选汉字提示,使用者即可选字,而不必等到输入全部代码。七巧笔画码是有重码输入法,与同类输入法相比,重码率低,同组重码字数少。
汉字的使用频度是不同的,仅“的”、“一”、 “是”、“在”、“了”、“不”、“和”、“有”前八个高频字,就占汉字总出现次数的10%。因此,我们对一些常用字,不仅给出全部代码,而且给出“简码”,简码的长度分别为1、2、3码。并且,简码一定是全码的前1、2、3码,使用者不必记简码。下面例子给出了“是”、“在”、“了”、“不”、“和”、“有”等字的简码与全码:
是2 2513400 在6 6827100 了5 5500000 不1 1324000 和3 3675120
项121 1213413 我3 3654300 正12 1212100 第31 3146356 中2 2567000
由于高频字简码和逐键提示相配合,仅输入前3码就可以有效地找需要输入的汉字。因此,使用者只要记住九个数字键位,按笔顺打3键,不必考虑如何切分汉字,也可以使用七巧笔画码。
5.2七巧笔画码的词汇编码
词码为等长七码。二字词的编码由前个字编码的第一、二、六码和后字的第一、二、六、七码组成,三字词、四字词以及多字词的编码取第一、二、三字每个字的前二码和末字的第六码。输入时,字词混合输入,不必区分字码和词码。由于七巧笔画码的二字词编码采取字首和字尾分别取码方式,其二字词重码率和综合重码率在同类输入法中应该是比较低的。
6.七巧笔画码的应用——多语种汉字处理
汉字不仅在我国使用,而且在日本、韩国等国家与地域的流通使用。由于汉字流通的国家与地域的不同,采用的字型与字符集也不同。而ISO/IEC 10646-1汉字符集正是源于中国的GB标准系列、中国台湾的CNS(Big5)标准、日本的JIS标准、韩国的KS C标准汉字符集。
为支持多语种汉字处理,七巧笔画码对ISO/IEC 10646-1:2000字符集中的中文、日文、韩文汉字统一编码。按汉字流通的国家与地域的不同,组成七巧笔画码汉字输入法不同的子集,即采取“统一码本、分集实施”的方法。这些子集包括:中文GBK/GB 2312七巧笔画码汉字输入法,繁体中文Big5七巧笔画码汉字输入法,日文JIS七巧笔画码汉字输入法,韩文KS C七巧笔画码汉字输入法。采取“统一码本、分集实施”的方法,符合汉字流通使用的实际,同时,也降低汉字编码的重码率和同组重码字数。
7.结束语
七巧笔画码具有规范、易学、高效的特点。七巧笔画码编码规则简单,拆字符合中国国家语委制定的汉字部件规范,取码顺序符合中国国家语委制定的汉字笔顺规范,各项技术指标达到中国国内先进水平。七巧笔画码的适用范围广,不仅适合于通常的计算机汉字输入,更适合于移动电话、视频点播、DVD、电子记事本、掌上电脑等输入汉字。既可输入中国 GB 2312_80 /GBK 13000.1字符集汉字,也可输入中国台湾省繁体字符集汉字,也可输入日文、韩文汉字。(作者单位:河南省内黄县田氏镇人民武装部 )