阅读文章

高国鹫:汉字编码三大定律

二 基础码判断准则

[日期:2007-12-13] 来源:原创  作者:高国鹫 [字体: ]

1、基础码判断准则

汉字可以用字形或字音编码,用字形编码的叫形码,用字音编码的叫音码,无论形码还是音码都存在着基础码,分别称作基础形码和基础音码,基础码判断准则如下:

一、是否与国际接轨;

二、是否涵盖所有汉字;

三、是否携带汉字全部信息。

基础码有如下特征:

一、只有基础码才得以普及,而除此之外的所有汉字编码,它们的使用都有局限性,只能在部分人群中推广;

二、基础码并不是输入速度快、重码最少的汉字编码;

三、至少有一种音形码(或形音码),其只携带基础音码和基础形码的主要信息,形成一种简便、高效率、大容量,能被大多数人接受和普及的汉字编码。

2、基础码判断准则的验证

汉语拼音是基础码,输入效率低重码也多却得以普及,而简拼和双拼不是基础码,功能再好也不能得到普及;在形码中,因为五笔字型不是基础码,在初创时期市场占有率只占计算机中文录入人员的百分之五,经过二十多年推广,使用者虽然在不断增多,但市场占有率始终没有多大改变;在音形码(或形音码)中,二笔输入法从2000年初开始全面推广,虽然码长短、重码率低,因为没有基础形码的参与,因此不能被大多数人接受;因为基础形码尚未面世,所以至今也没有哪一种方法能够在汉字输入中独占鳌头。

3、基础形码存在的依据

基础码判断准则是笔者结合中国二十多年汉字编码实践,深入挖掘汉语拼音方案内涵总结出来的,因此汉语拼音是基础音码,这里将汉语拼音基本特征外延,目的是为了寻找基础形码,那么基础形码是否存在呢?我们能够找到基础形码吗?

汉字具有形、音、义三要素,在汉字编码中,采用字形编码与采用字音编码具有等价关系,既然字音与拉丁字母相结合能产生汉语拼音方案,那么字形与拉丁字母相结合就应该能产生汉语拼形方案,根据等价关系还能进一步推测:

1)汉语拼形方案与汉语拼音方案应具有相同的定义,只是所叙述的对象分别在形码领域或音码领域;

2)汉语拼音方案是音码中的基础码,汉语拼形方案就应该是形码中的基础码。

4、汉语拼形方案初探

汉字具有字音及字形,字音与国际接轨采用多字母表示,这就是汉语拼音方案,表明最初汉语拼音与汉字只是近音,后定为标准音,下面试从近音角度为汉语拼音定义:根据近音原理将汉字无调音节分析出的音素用字母A—Z表示,这种字母称作汉语拼音字母,并把汉语拼音字母按先后顺序排列构成的字母组合就称作汉语拼音。根据等价关系,字形也应该能与国际接轨采用多字母表示,这就是汉语拼形方案,下面试从近形角度为汉语拼形定义:根据近形原理将汉字按笔顺规则表分析出的单笔或多笔画结构用字母A—Z表示,这种字母称作汉语拼形字母,并把汉语拼形字母按先后顺序排列构成的字母组合就称作汉语拼形。

汉语拼形方案是根据等价关系从汉语拼音方案推求出来的,因此具有汉语拼音方案的基本特征,下面根据汉语拼音方案来推测汉语拼形方案的基本特征:

1)汉语拼音方案采用拉丁字母和计算机标准键盘,早在1958年就已经与国际接轨;因此汉语拼形方案也是采用拉丁字母和计算机标准键盘。

2)汉语拼音方案涵盖了所有含音字,汉语拼形方案涵盖了所有含形字,它们之间的关系是:后者包括所有方块字,而前者只是其中400多个无调音阶所构成的字(有些字符有形而无音),可见汉语拼形方案复盖面要大于汉语拼音方案。

3)汉语拼音方案是全息码,携带了汉字的全部字音信息,重码多、输入效率也不高;汉语拼形方案也是全息编码,多一笔和少一笔都是不行的,由此可断定直接采用汉语拼形方案输入汉字,重码也要多,输入效率肯定也是不会高的。



上一页 [1] [2] [3] [4] 下一页   
【内容导航】
第1页:前  言
第2页:一 码长定理
第3页:二 基础码判断准则
第4页:三 终结码判断准则


阅读:
录入:

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:再倡世界语-5

下一篇:笔画组合理论与汉语拼形方案
相关文章       汉字 
本文评论
  字形与拉丁字母相结合就应该能产生汉语拼形方案 =====你搞错了,汉字的形状与英文的形状怎么可以做一对一比较,简直是牵强附会的结果。 英汉只是借用26个符号,来表达各自的发音系统。不是26个符号与中文产生什么形状上的相似才使用它们的。 你的高见,可以用在学术上,用在实践上,估计很难推广的。汉字就是汉字,与英文字母很难在形态上相通的。   (木屋 ,2008-07-08 )
  很有发展前景   (路者 ,2008-06-29 )
  我想知道汉字的三大编码是什么   (提问着 ,2008-06-24 )
  终结码特征: 具有汉字输入及排序双重功能,字元平均笔画数3.2笔 ======= 我觉得从数据分析中,似乎可以证明单字平均码长是3.2笔画.3画笔画集不拆的科学依据. 国家的对字根集的规定不科学: 国家规定的500多个部件无法承担易学高效的编码任务,因为它的字元平均笔画数是4.3.高出1.1 ======难怪我觉得国家对部件的规定怎么那么难落实,原来如此!   (林家毅 ,2008-05-09 )
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章