湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

汉字输入技术与应用研讨会论文集

 

论汉字编码的理论模式

 

李格  石兰

 

【摘  要】本文定义和描述了汉字编码理论模式,并对三种规范编码模式的优缺点进行了分析。本文还对汉字编码的评测提出了新思路,并探讨了汉字编码的发展方向。

 

一、汉字编码的理论模式

 

我们从一个实例中,概括或抽象出汉字编码的理论模式。

0级模式

 

 

Ⅰ级模式

 

 

Ⅱ级模式

 

 

Ⅲ级模式

 

汉字编码4种理论模式的示意性描述

 

 

汉字编码的4种理论模式是存在的,从现有编码来看,拼音码、区位码是0级模式的产品。笔画码如五笔画,是属于Ⅲ级模式的产品。现有的绝大多数形码属Ⅱ级模式,如五笔字型等等。“万码奔腾”就出现在该级模式上,然而Ⅱ级模式是不规范的(它不符合《汉字部件规范》[1])。而Ⅰ级模式的唯一产品是笔者发明的逻辑拼形码,它由中国中文信息学会主持鉴定“在形码整体方案方面处于当前国际领先水平。”[2]需要指出,许多编码方案是介于Ⅱ级与Ⅲ级模式之间的作品,如两笔字型,以及众多的数码汉字输入方案。

需要强调指出,笔者就是在上述理论模式的指导下成功地发明了逻辑拼形码、逻辑二笔码[3]等实用方案。

 

 二、汉字编码模式的定义与描述

 

0级模式的定义:

对汉字整字编码,无需对汉字进行任何拆分的方案。如拼音输入法,区位码输入法都是0级模式的方案。

Ⅰ级模式的定义:

是通过“部首不可拆分、交重结构不可拆分、独体不可拆分”的三条文字学原则有效地控制拆分下限,从而确定部件与部件拆分问题。Ⅰ级模式的部件是:部首、交重结构、独体。

部首是指201部首。

独体以《现代汉语模范字典》[4]定义为准。

Ⅰ级模式是文字学与汉字编码相统一的模式。汉字的音形义主要集中在这一模式的部件上。

部首不可拆分,从《说文解字》开始,在古今中外的汉语辞书中都找不到对部首拆分的任何理据。部首在文字学上的意义主要是充当汉字的“义”符。例如:“爷、爹、爸”中的“父”是义符,而“斧、釜”的“父”是声符,“父”是部首,因此不可拆分,从此例中可看出文字学与编码对汉字的拆分保持了一致。

独体在汉字中主要充当声符、义符。独体不可拆分在文字学中是没有争议的。

交重结构,大多数文字学家将之视为新的独体,同时,交重结构从编码学上看,如果要拆分,就会有二义性。例如:“曲”→“冂、曰‖、口艹、井凵”。另外,交重不可拆分也是《汉字部件规范》的一个原则。

Ⅰ级模式是一个比《汉字部件规范》要求更高的新一代部件输入模式。《汉字部件规范》中规定的不可拆分的基础部件共计560个,而Ⅰ级模式的部件数量却超过了600个。

Ⅱ级模式是指不规范的部件输入模式,不符合《汉字部件规范》的要求。

Ⅲ级模式的定义:

将汉字按笔顺规范[5]拆分至笔画输入的方案。规范的笔画有28[3]

 

三、汉字编码模式的综述:

 

我们把0级模式称为整字输入模式,把Ⅰ级模式称为部件输入模式,把Ⅲ级模式称为笔画输入模式。

1)整字输入模式:

汉字输入要解决三个方面的问题,即单字输入、词组输入、整句输入。任何一个方案都要设法处理字、词、句问题。(键盘输入、手写输入、语音输入都要设法解决这三个问题,否则就是一个不完备的系统)。整字输入模式,以拼音码为代表,困难在于单字输入:一是不认识的字与读不准的字无法输入;二是编码空间太小,只有416个编码空间,重码过多,在处理大字符集如GB18030时,每输入一字,平均就有6627484/416)个重码;三是编码过长效率不高。而拼音输入的优势在于整字输入而无任何拆分,因而较好地解决了词输入,尤其是句输入。例如:智能狂拼。但是处理单字不方便的系统,还不能认为是一个理想系统。

2)部件输入模式:

“汉字的音形义永远是第一位的”[6],由于规范的部件输入法对汉字进行了符合文字学原则的拆分,能有助于更好地理解汉字的音、形、义,因而能与识字教育相互相成。

部件码是单字输入的主导产品,它的优势在于处理单字和词组,它的困难在于句子的处理。另一个困难在于部件的分类与键位的映射。

逻辑拼形码是一个优秀的部件码,它很好地解决了部件的分类与键位映射的问题。

3)笔画输入模式:

笔画输入近年来受到了特别的重视,主要是手机迅速普及所致。

笔画输入的优势在于简单,无需学习和记忆。

笔画输入的困难在于单字输入重码多、词组输入效率低、句子输入则困难。

笔画模式中多采用“札”字法,即把笔画分为横、竖、撇、捺、折。但就中文信息处理而言并不实用,因为空间太小,重码过多。笔者发明了逻辑二笔码[2]很好地克服了这个问题,将28种笔画分为8类基本笔画——横、竖、撇、点、捺、横折、竖折、撇折。这样将编码空间适当扩大,重码方面取得了明显的效果。也使手机上的8键输入更为有效,且与电脑键盘输入完全一致。

近年来也出现了很多将几个常用部件与笔画混合的方案,虽然这些方案有实用性,尤其是重码处理方面所改进(无根本性改进),但却增加了拆字困难,增加了学习与记忆的负担,同时也步入了不规范的歧途。

 

四、汉字编码方案的评测

 

汉字编码方案的评测已有多种方案,也有相关国标。本文关于汉字编码评测的两点建议是:

1)按不同编码模式分别评测。

汉字输入要统一到一种方式上来是不现实的。本文提出的观点是,按三种规范的编码模式分别评测,即整字编码模式方案的评测、部件编码模式方案的评测、笔画编码模式方案的评测。通过评测得到不同模式下的统一方案。

2)评测的重点是方案的字、词、句处理能力。

三种规范编码模式均按处理字、词、句的能力进行评测,评测重点应该是编码方案本身,而不是软件的智能化程度(通用的汉字输入软件智能化平台可专门评测)。

 

 

 

五、汉字编码音形结合的发展方向

 

根据以上分析,三种规范的编码模式都有各自的优缺点。汉字编码正沿着不同模式之间相结合的方向发展,在形式上则表现为音形结合方式,包括音和部件的结合(0级模式与Ⅰ级模式的结合),音和笔画的结合(0级模式与Ⅲ级模式的结合)等。这些方案往往在处理单字时以Ⅰ级或Ⅲ级模式为主,例如“李”的编码为“L木子”或“L一一”[3],处理词时以0级模式为主,例如“计算机”的编码为“JSJ木”或“JSJ”,这样避免了字形的拆分,实现了整字输入。音形结合的方式已成为汉字编码发展的主流。

 

 

参考资料

[1]  GF3001-1997.信息处理用GB13000.1字符集汉字部件规范.1997-12-01发布,1998-05-01
 
实施.

[2]  周文斌.“逻辑拼形码”通过鉴定.北京:光明日报,2001.5.1.

[3]  石兰,李格.论逻辑二笔码的重要进展与突破.

[4]  许嘉璐等.现代汉语模范字典.北京:中国社会科学出版社,2000.

[5]  GF3002-1999. GB13000.1字符集汉字笔顺规范.1999-10-01发布,2000-01-01实施.

[6]  佟乐泉,张一清.小学识字教学研究.广州:广东教育出版社,1999.

 

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有