阅读文章

七巧笔画码汉字输入法

[日期:2011-02-13] 来源:编著  作者:刘学中 [字体: ]

七巧笔画码汉字输入法  

刘学中

  【摘要】本文根据东北师范大学教授徐万胥先生的专利成果《数字统一码汉字输入法及其键盘》提出了改进方案。改进后形成的七巧笔画码符合GB18031对数字键盘汉字输入法要求,具有更易学、更规范、更高效的特点。

  【关键词】改进方案 , 数字统一码 , 七巧笔画码, 汉字输入法

  1.引言

  数字统一码是徐万胥教授二十多年汉字编码研究的专利成果。专利号:ZL00110317.2。数字统一码的设计思想是:坚持中、日、韩汉字编码方法统一;繁、简汉字编码方法统一;字、词编码方法统一; 识字与识码规律统一。七巧笔画码是在数字统一码的基础上,改进形成的一种新型汉字笔画编码方法。七巧笔画码突出编码的易学性,同时兼顾汉字的输入速度。

  2.统一码汉字基本笔画的属性值

  汉字是一个比较复杂二维图形,通常由若干个部件组成,而部件又由笔画组成。汉字的字形由笔画及其位置来决定。即使笔画完全相同,而笔画之间的位置不同,也可构成不同的汉字,例如,

  21 汉字笔画的顺序

  汉字的笔画有十几种,根据字典检字使用五个一画部首的惯例,以及数字编码的特点,我们取五种基本笔画:横(一)(含)、竖(丨)撇(丿)(包括)、点(丶)(含)、折(乙)(包括左折和右折),并且将这五种笔画赋予顺序值,分别规定为:“1”“2”“3”“4”“5”

  22 汉字笔画之间的位置关系属性值

笔画之间的位置关系属性是一个重要属性,可以作为汉字编码的依据。汉字中笔画之间的位置关系有:相离,如相接,如相交,如等。实验表明,相交关系与前两者容易区分,并且较前两者带有更多的编码信息。因此,我们将相离相接关系归并为独立关系。这样,笔画与笔画的位置关系就简化为两类:独立与相交。  

23 汉字笔画代码

  将独立的横(一)竖(丨)撇(丿)点(丶)折(乙)的代码为:“1”“2”“3”“4”“5”横交竖交撇交捺交的代码为:“6”“7”“8”“9”。考虑到数字编码的码元资源十分珍贵,少用一个码元“0”,对数字统一码在移动电话等数字设备上使用更方便。所以,不区分是否与其它笔画相交,规定无论是独立,或者与其它笔画相交,它的代码均为“5”

  24 超越笔画的部首

使用九个出现频率很高的部首作为超越笔画的部首,这九个超越笔画的部首是:王、虫、竹、氵、纟、十、艹、八、口,分别赋予代码“123456789”。实验表明,使用超越笔画的部首, 可提高编码效率,降低重码率。

但是,为了不影响编码的易学性,在下面提出的七巧笔画码编码中放弃使用超越笔画的部首

  3.汉字的类型及首尾切分

汉字分独体字与合体字两种,合体字占汉字的绝大多数。

31 汉字的类型

  全国信息技术标准化委员会在《汉字内码扩展规范(GBK)》中将汉字的类型为两类:独体字和合体字。举例如下:

  合体字,如:们、因、函、区、庙、进。

    独体字,如:木、鱼、毛。   
  
独体字是浑然一体的,一般具有独立、单纯的含义,不容易切分成部件,或者已经是基本构字部件,不能再切分。

  32 汉字的首尾切分

  数字统一码对于合体字,采取二分法,把字分成字首(前字部)字尾(后字部)两部分。切分字首、字尾的方法,与查字典取部首的方法相同。按取形完整的原则,将汉字一分为二。把上下结构汉字的上部构字部件,左右结构汉字的左部构字部件,作为字首,其余作为字尾。包围结构汉字的首尾,按书写顺序划分,先写的构字部件作为字首,其余作为字尾。对于独体字不切分。

  4.数字统一码的取码方法

  41 数字统一码的键盘安排方式
  数字统一码的码元为:“1”“2”“3”“4”“5”“6”“7”“8”“9”,共九个数字键。数字统一码的键盘安排方式,采取汉字的笔画代码与数字键盘数字键位同一对应 ,即:“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”分别对应“横(一)”、 “竖(丨)”、 “撇(丿)”、 “点(丶)”、“折(乙)”、“横交”、 “竖交”、“撇交”、“捺交”。

  42 数字统一码的基本取码方法
  数字统一码规定一个汉字可以取一至六码,允许使用简码和词码,词汇码为等长码。汉字的结构类型决定了汉字的取码方法。对于合体字,字首按笔顺取前一至三码,字尾按笔顺取前一至二码和末笔代码,整字最多取六码。对于独体字,按笔顺,取前一至五码和末笔代码。取码方法举例如下:

  字445556 各3599  们32425  种367257 闻425126 出52752
  庙413251 起612515 进668454  申25667  右689   丰6667

  在输入汉字时,采取逐键提示的方式,每次键入,都有可选汉字提示,使用者即可选字,而不必等到输入全部代码。数字统一码是有重码输入法,与同类输入法相比,重码率低,同组重码字数少,在GB 2312 字符集中,同组重码汉字一般不超过10个,实现了一页提示行显示所有同组重码字。

  5.七巧笔画码的取码方法

5.1 七巧笔画码的基本取码方法

数字统一码改进后称谓七巧笔画码,规定一个汉字可以取一至七码,允许使用简码和词码,词汇码为等长码。汉字的类型决定了汉字的取码方法。对于上下结构、左右结构、包围结构等类型的合体字,字首按笔顺取前一至三码,不足三码以“0”补齐三码,字尾按笔顺取末二至末一码和字尾的前一至二笔代码,不足两码以“0”补齐两码,整字取七码。对于独体字,按笔顺,取前一至三码和末一至末二笔代码,第六和第七码以“0”补齐。取码方法举例如下:

  字4455650 各3595110  们3202540  闻4251612      5275200   6667000

  在输入汉字时,采取逐键提示的方式,每次键入,都有可选汉字提示,使用者即可选字,而不必等到输入全部代码。七巧笔画码是有重码输入法,与同类输入法相比,重码率低,同组重码字数少。

汉字的使用频度是不同的,仅前八个高频字,就占汉字总出现次数的10%。因此,我们对一些常用字,不仅给出全部代码,而且给出简码,简码的长度分别为123码。并且,简码一定是全码的前123码,使用者不必记简码。下面例子给出了等字的简码与全码:

  是2   2513400 在6 6827100  了5  5500000   不1 1324000  和3 3675120
  项121 1213413 我3 3654300   正12 1212100    第31 3146356   中2 2567000

  由于高频字简码和逐键提示相配合,仅输入前3码就可以有效地找需要输入的汉字。因此,使用者只要记住九个数字键位,按笔顺打3键,不必考虑如何切分汉字,也可以使用七巧笔画码。

  5.2七巧笔画码的词汇编码

  词码为等长七码。二字词的编码由前个字编码的第一、二、六码和后字的第一、二、六、七码组成,三字词、四字词以及多字词的编码取第一、二、三字每个字的前二码和末字的第六码。输入时,字词混合输入,不必区分字码和词码。由于七巧笔画码的二字词编码采取字首和字尾分别取码方式,其二字词重码率和综合重码率在同类输入法中应该是比较低的。

   6.七巧笔画码的应用——多语种汉字处理

  汉字不仅在我国使用,而且在日本、韩国等国家与地域的流通使用。由于汉字流通的国家与地域的不同,采用的字型与字符集也不同。而ISO/IEC 10646-1汉字符集正是源于中国的GB标准系列、中国台湾的CNSBig5)标准、日本的JIS标准、韩国的KS C标准汉字符集。

  为支持多语种汉字处理,七巧笔画码对ISO/IEC 10646-12000字符集中的中文、日文、韩文汉字统一编码。按汉字流通的国家与地域的不同,组成七巧笔画码汉字输入法不同的子集,即采取统一码本、分集实施的方法。这些子集包括:中文GBK/GB 2312七巧笔画码汉字输入法,繁体中文Big5七巧笔画码汉字输入法,日文JIS七巧笔画码汉字输入法,韩文KS C七巧笔画码汉字输入法。采取统一码本、分集实施的方法,符合汉字流通使用的实际,同时,也降低汉字编码的重码率和同组重码字数。

  7.结束语

  七巧笔画码具有规范、易学、高效的特点。七巧笔画码编码规则简单,拆字符合中国国家语委制定的汉字部件规范,取码顺序符合中国国家语委制定的汉字笔顺规范,各项技术指标达到中国国内先进水平。七巧笔画码的适用范围广,不仅适合于通常的计算机汉字输入,更适合于移动电话、视频点播、DVD、电子记事本、掌上电脑等输入汉字。既可输入中国 GB 2312_80 /GBK 13000.1字符集汉字,也可输入中国台湾省繁体字符集汉字,也可输入日文、韩文汉字。(作者单位:河南省内黄县田氏镇人民武装部 )

【参考文献】
  [1] 徐万胥,数字统一码汉字输入法及其应用,中国首届手机中文输入大赛论文, 200410
   [2]
中华人民共和国国家标准 GB/T18031-2000,信息技术 数字键盘汉字输入通用要求,标准出版社,20003
  [3]国家语言文字工作委员会,现代汉语通用字笔顺规范,语文出版社,19978
  [4]国家语言文字工作委员会,信息处理用GB130001字符集 汉字部件规范,语文出版社,19984
  [5] 徐万胥,计算机行知码原理与应用,东北师范大学出版社,199710




阅读:
录入:刘学中

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:“祸”岂能“从口入”?

下一篇:实现汉字高效多能的“拼音汉字完善汉字法(PHF)”
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章