阅读文章

汉语拼形汉字输入法

前言

[日期:2008-04-07] 来源:  作者:高国鹫 [字体: ]

目前汉字编码理论,主要是汉字拆分理论,将汉字按字源关系拆分成基础部件,三十年的汉字编码实践告诉我们,采用基础部件编码是不能为大字符集生僻字(7万字左右)提供简单、易学的汉字输入技术,这是毋庸置疑的,这说明目前汉字编码理论具有局限性,笔者目前已经从理论上证明,汉字拆分理论只是汉字编码理论的一个分支。

笔者1998年春涉足汉字编码,2004年秋着手汉字编码理论体系研究,提出了笔画组合理论,按照汉字笔顺规则表将笔画组合成拼形字元,采用拼形字元编码适宜大字符集生僻字的输入,但是如果将拼形字元直接应用到通用字表(7千字左右)汉字编码,会因输入效率低恐怕就没有人使用这种方法了,这说明笔画组合理论也具有局限性,其实这是汉字编码理论的另一个分支。

由笔者创建的现代汉字编码理论,是将上述两种编码理论融合在一起,形成了一个完整的汉字编码理论。撰写论文有《汉字编码三大定律》、《笔画组合理论与汉语拼形方案》、《数字键盘复码字母键位设定原理》、《挑战天下编码人》等,均发表在语言文字网http://www.yywzw.com),今后还会陆续发表文章进一步阐述自己的汉字编码理论。研制了系列汉字输入技术,包括《汉语拼形方案》、《中值码输入法》、《数字汉语拼形输入法》、《数字汉语拼音输入法》、《数字中值码输入法》及《数字英文输入法》等,与《汉语拼音方案》携手形成计算机字母键盘和手机等数字键盘联袂输入技术,在这里,《汉语拼音方案》和《汉语拼形方案》是最基本的,其余都是在此基础上建立起来的。

《汉语拼形方案》是按照《汉语拼音方案》模式,根据汉字笔顺规则表和近形原理建立起来的,在整字与笔画之间,汉语拼形目前是唯一的长码编码方案,也是全息汉字编码,不但能够为大字符集生僻字提供一种简单、易学的汉字输入技术,而且具有极强的汉字按字形排序功能,这是其它任何汉字编码都不能比拟的。

《汉语拼形输入法》是根据《汉语拼形方案》推出的比较实用的汉字输入技术,这里主要介绍中值码输入法,取名中值码,是笔者在用数学研究汉字编码时,发现了码长曲线,根据拉格郎日(Lagrange)定理,即微分学的中值定理,在码长曲线上找到了中值点,汉语拼形目前是唯一位于码长曲线中值点附近的汉字编码方案,因此具有简单易学的特点,这是三十年来用数学研究汉字编码理论取得的重要成果,故将由《汉语拼音方案》及《汉语拼形方案》创建的音、形码命名为中值码,中值码属简码,适用于不同行业、不同文化层次、不同年龄段人群的计算机中文输入,尤其适用于中老年人和初学计算机中文输入的人群,因此是适宜推广与普及的汉字输入法。

中值码挂接了汉语拼音及汉语拼形,因此是不需要备用字典的汉字输入法,是适用于各种汉字字符集(方块字范畴)的汉字输入法,对于目前流行的五笔字型输入法及各种汉语拼音输入法,前者无论是采用智能还是其它辅助方法,后者无论是采用笔画还是其它辅助方法,都难以解决大字符集生僻字的输入,这里提供的挂接汉语拼形输入法,可能是唯一理想的解决方案,但需要在实践中进行检验。

中值码挂接的汉语拼音及汉语拼形,按不同版本选用标准,汉语拼形选用《信息交换用汉字编码字符集  基本集》(GB231280)标准,含6763个字,筛选出275个拼形字元,并经过大字符集《信息技术中文编码字符集》(GB180302005),含70244个字,逐个进行校核,也就是对于大字符集汉字编码,这些字元都是不变的,当字符集扩展到GB 180302000标准时,汉字由6763个扩充到27533个,字元由275个增加到322个;当字符集扩展到GB 180302005标准时,汉字由27533个扩充到70244个,字元由322个增加到542个。

附录为GB 180302005标准的汉语拼形字元、汉语拼形字母及数字汉语拼形字母(复码数字键盘)对照表,这说明采用汉语拼形系列中文输入技术,不但能够为计算机字母键盘中文录入人员提供一种大字符集生僻字的简便输入方法,还能为手机等数字键盘(复码数字键盘)提供一种相同的大字符集生僻字的简便输入方法,因此能为3G时代应用手机进行银行存储、证券交易、论坛演说、网络浏览、收发电子邮件等业务未来发展奠定基础。

现代汉字编码理论由两个分支组成,一是汉字拆分理论,按字源关系把整字拆分成基础部件,然后再编码,主要代表是五笔字型输入法,采用基础部件编码属于短码,适用于基本字符集汉字编码;二是笔画组合理论,按笔顺规则表把笔画组合成拼形字元,然后再编码,这就是由笔者研发的汉语拼形输入法,采用拼形字元编码属于长码,适用于大字符集汉字编码,下面详细介绍汉语拼形输入法。

汉字由笔画拼成,需要一笔一笔去书写,这是传统的文字信息录入方式,因为汉字平均笔画数12笔,最多达几十笔,录入效率比较低;采用计算机输入汉字,如果像书写那样按笔画输入,每按一次键都只输入一个笔画,效率肯定也是很低的,那么能否找到一种方法,让计算机每按一次键除了能输入一笔画之外,还能同时输入两笔或多笔画呢?答案是肯定的,只要按照笔顺规则表,将不同笔画拼成多笔画(含单笔画)结构,让计算机输入这些笔画结构,那汉字输入效率就能大幅度提高,将单笔画拼接成多笔画结构,会产生很多种方案,采用哪种好呢?因为计算机是通过手指按字母键输入汉字,为了减少记忆量,按照笔顺规则表和近形原理,把笔画拼成与大写字母形体特征相近的笔画结构为最佳方案,把这种笔画结构称为汉语拼形字元,把与汉语拼形字元对应的字母称作汉语拼形字母,把构成汉字或词组的汉语拼形字母组合称作汉语拼形,汉语拼形字元简称为拼形字元或字元,汉语拼形字母简称为拼形字母或字母。

近形原理编码是汉字编码一大流派,最早是上世纪八十年代由旅法学者陈爱文先生发明的表形码,因采用大键盘(包含数字键)编码,违背了计算机文字输入习惯而未能推广,而由笔者本世纪初研发的汉语拼形,是在笔画和表形码基础上发展起来的,是笔画的一种快捷输入方式,是含有字母信息的一种快捷输入方式,是将汉字编码“近形”到底的产物,这里除了采用字母个体具有的形体特征用于确定字元之外,还独创了将字母整体具有的序列特征用于协调编码中产生的歧义性问题。在这里,前者的作用是发现了汉字与字母间存在的内在联系,这种内在联系可将字母直接应用于汉字编码;后者的作用是继续深化,将由笔画拼成的汉字演变成由字母组合成的汉语拼形。

汉字具有字音及字形,字音与国际接轨采用多字母表示,这就是汉语拼音,表明最初汉语拼音与汉字只是近音,后定为标准音,下面试从近音角度为汉语拼音定义:根据近音原理将汉字不标调音节分析出的音素用字母A—Z表示,这种字母称作汉语拼音字母,把汉语拼音字母按先后顺序排列构成的字母组合就称作汉语拼音。根据等价原理,字形是否也能像字音那样与国际接轨采用多字母表示呢?答案是肯定的,这就是汉语拼形,下面试从近形角度为汉语拼形定义:根据近形原理将汉字按笔顺规则表分析出的单笔或多笔画结构用字母AZ表示,这种字母称作汉语拼形字母,把汉语拼形字母按先后顺序排列构成的字母组合就称作汉语拼形。例如“凶”字按近形编码,可把由笔画拼成的“”用字母X表示,“凵”用字母U表示,那么”及“凵”就称作汉语拼形字元,简称为拼形字元或字元;XU称作汉语拼形字母,简称为拼形字母或字母;而汉语拼形字母组合XU就是“凶”字的汉语拼形,汉语拼形也可以用小写字母表示。因为和大写字母R形体相近的字元只有“尺”字,而由“尺”组成的汉字很少,为节省资源,汉语拼形不设字母R,“尺”的汉语拼形可用“尸”对应的字母组合PL表示,字母R留作他用。

本书选用基本字符集《信息交换用汉字编码字符集基本集》(GB 231280)标准,总共收录6763个字,下面对该字符集汉语拼形输入法进一步阐述。



[1] [2] 下一页   
【内容导航】
第1页:前言
第2页:快捷笔画输入技术


阅读:
录入:

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:挑战天下编码人

下一篇:揭开汉字起源之谜
相关文章       汉字 
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章