阅读文章

汉字形符编码理论与中文拼形输入法

[日期:2014-03-10] 来源:原创  作者: 高国鹫 [字体: ]

 2013419

 退休前我是辽宁省本溪市本钢设计研究院高级工程师,今年67岁。我在1998年开始研究汉字编码,如今已是第十五个年头。这十五年我对汉字编码理论、计算机汉字编码和手机汉字编码的研究从未间断,并在这三个领域均实现了重大突破。

一、创建汉字形符编码理论和中文拼形输入法

 汉字编码理论是汉字输入法的基础。目前汉字编码理论是建立在汉字部件基础之上(拼音除外),从造字源头进行分析,保留造字初期蕴含的字源信息,把汉字拆分成部件。因对汉字拆分有歧义,国家颁布了汉字部件规范,并对每个部件结构做了硬性规定。目前包括五笔字型在内的各种汉字输入法,都是通过各自对汉字部件的编码来实现对汉字的输入。所以说,汉字部件规范对汉字输入乃至计算机在中国推广应用起到了关键性作用,其贡献之巨大是无语言表的。

 汉字部件规范经历了几十年的检验,也暴露出它的一些先天不足。如“我、重、垂、象、熏”都是汉字部件,笔画再多,按字源关系也是不能拆分。对这些字的编码又不可能只给1个码,因此,只有增加码长,补充笔画进行编码。五笔字型输入法对这些字都编4码,即由汉字部件和笔画混合编码。所以,用汉字部件一个元素是不能完成汉字编码任务的,还要用笔画等其它元素配合才能完成,这无形中增加了编码难度,也造成了学习上的难度。

 另外,采用汉字部件编码,一个字的所有编码信息,包括部件及笔画,其笔画总数或大于或小于汉字笔画数,人们把这种编码称做“缺胳膊掉腿”码。因此采用汉字部件编码输入法不能进入中小学。

中文输入法经历了字处理、词处理,现已发展到整句处理。在字、词处理阶段,形码和音码在文字处理能力上几乎旗鼓相当,不分上下。后来,随着计算机文字处理能力的提高,音码中的全拼输入法适应了计算机文字处理需求,把词处理提升到整句处理。而形码仍在词处理阶段徘徊,现已跌到最低谷。而汉语拼音处于顶峰时期,目前90%以上用户都在使用汉语拼音打字。

根据汉字“形、音、义”三要素,汉字以“形”为龙头的表述方法逐渐被边缘化乃至被遗忘,这不利于汉字健康发展与演化。

 笔者根据对码长的研究,即汉字编码的长度,也就是打字按键次数,它等于汉字平均笔画数与汉字构件(汉字部件、汉字形符)平均笔画数之商。汉字编码的难易程度与码长有关,码长越短,编码难度越大;反之,码长越长,编码越简单。汉字构件一旦确定,其码长也随之确定。例如汉字部件其码长为2.8,打字每字不足3键,属于短码。所以采用汉字部件编码的各种输入法都很难掌握,也就难以进入中小学了。而且也难以把词输入提高句输入。因此,汉字部件并非是理想的汉字编码结构。为了获得简单易学的编码方案,只能在汉字部件与笔画之间寻找一种新的汉字构件。

 笔者从信息论出发,为了把汉字拆分成简单易学的汉字构件,应该在汉字拆分中去掉所有字源信息,使之成为一种符号,为此创建了汉字形符。汉字形符是由汉字笔画组合而成,含有拉丁字母信息(约定俗成)的抽象符号,构成汉字的一种辅助工具,把汉字平面结构笔画信息直接转换成线性结构拉丁字母信息。所以形符是连接汉字与字母的桥梁,用于汉字排序与检索、汉字输入法编码等。

 汉字形符采用字母的两个属性,一是用字母的形状确定汉字形符(约定俗成),二是用字母的排列顺序确定拼形规则。如“木”字,参照笔顺规则表,用两个常用笔画结构“十八”或“一小”表示比较合适。那么用哪组呢?在这里“十、八、一、小”的代码分别用字母XVHN表示,那么“十八”的代码是xv,“一小”的代码是hn,在字母排序中xv位于hn的后面,所以“木”代码是xv。在推广应用时是整字识别,用黑、红、绿、紫表示形符的顺序,这时只要记住汉字形符,不用拆分汉字就知道了该字的代码。 

二、中文拼形输入法

中文拼形输入法为112键不等长编码,平均码长4.4。码长与汉字笔画数有关,常用字笔画少,码长一般不超过4,不常用字笔画多,码长为4以上,这有利于分散重码,也符合人们打字习惯。因此中文拼形输入法具有扩展到全字集功能

例如“木”由形符“十人”组成,代码为xv,所以只要键入xv,输入就是“木”字。同理,只要键入xvxv就是“林”字,键入xvxvxv就是“森”字。再如输入“人材”,“人”本身就是形符,代码是v,“才”是由形符“十丿”组成,代码为xj,因此“人材”只要键入vxvxj就完成了。汉字部件与汉字形符对比见表1

1         汉字部件与汉字形符对照表

序号

内容

汉字部件

汉字形符

1

编码特点

汉字拆分与编码分开处理,先由国家颁布汉字部件规范,再由编码人根据自己意愿确定汉字部件代码,即汉字编码。这是三十多年来造成万马奔腾的直接原因。

汉字拆分与代码获取统筹考虑,在汉字拆分过程中创建了汉字形符及代码。采用汉字形符编码只能生成中文拼形输入法,因此能有效扼制持续三十多年的汉字编码大战

2

数量(个)

560

285

3

平均笔画数

4.5

2.9

4

平均码长

2.8

4.4

5

难度系数

1.0

0.6

6

键盘标识

这种键盘是把汉字部件和用于做补码的笔画标注在键盘上,所以在学习前,要先熟悉键盘。

 

在键盘上没有任何标识,相当于把键盘标注在汉字中。如输入“古”字,只要根据象形“十”用x表示,“口”用o表示,那么,“古”的编码就是xo,一字一议。

7

编码元素

2个(汉字部件、笔画)

1个(汉字形符)

8

教学应用

不适用于中小学教学

适用于中小学教学

9

语言处理能力

目前停留在词处理阶段

把形码由词处理提升到整句处理,甚至提升到文章处理,为实现一字一码奠定基础。

10

扩展功能

难度大

简单易学,可扩展到全字集,只要学会7千字的打字方法,就能打7万字库中的80%字。

综上所述,从汉字部件到汉字形符,是沿着简化方向演化,是一种质的突破和创新。 

三、在手机汉字编码领域的创新与突破

    在这一领域我创建了复式数字键盘,见表2

复式数字键盘是为输入英文、汉语拼音和汉字拼形设定的。它们之间关系应首先满足英文输入,其次是汉语拼音输入,最后是中文拼形输入。当然,如若把笔画或汉字部件标注在数字键位上开发传统输入法,也不受影响。 

四、复式数字键盘应用

1、输入字母

采用复式字母输入,每个字母按2键

2、输入英文

3、输入汉语拼音

4输入中文拼形

五、复式数字键盘意义

为英文、汉语拼音、中文拼形提供了数字表达形式,不但用于手机输入英文和汉语,还可用于英文和汉语的数字排序、密码设置、手机互联网域名等领域。

下面介绍在密码设置领域的应用:

如今人们使用信用卡、医保卡、证券卡、网购卡等少则几个多则十几个,这些卡大多以数字密码为主。然而能够提供方便好记、不易被破译的数字密码资源奇缺,往往是用手机号、生日、特殊数字组合设置成密码,因此常发生被破译造成经济损失案件。如果增加密码难度或把密码记在本里,又易遗忘或丢失造成很多麻烦。而目前流行的动态密码,因依托手机、网络、或配备U盾识别等,不但增加成本,使用起来很不方便。

而推广复式数字键盘在学会发送信息的同时,也解决了数字密码的设置问题。因为数字、英文、数字拼音、数字拼形本身就可作为密码使用。这样无论是汉语或英文,输入的都是数字密码,而汉语和英文词汇无穷多,所以很难被破译。

为了增加保密性还可用句子作密码,其密码长度可达十几位甚至更长,码长不固定,也可在密码中间设两位密钥,其中一组与日期有关,另一组与每天取款次数有关,这样设置的密码每次取款都不相同。从长远利益考虑,这种将密码与语言文字有机的联系,会把语言文字应用延伸到新的领域,方便语言文字的传播。

这篇文章拥有专利权保护及著作权保护,任何单位和个人未经许可不得复制或翻印。




阅读:
录入:

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:没设設卡长長天无無反汉漢?

下一篇:中国汉字是音形意相结合约定俗成的产物
相关文章       汉字编码三大定律 
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章