阅读文章

关于汉字编码第二次整理探讨

[日期:2008-07-06] 来源:原创  作者:高国鹫 [字体: ]

 

 

 一、问题的提出

 

回顾三千年汉字演化史,汉字为适应社会发展的需求,需要不定期进行整理,如果没有从仓颉开始至今的汉字整理,就没有今天至未来傲立于世界民族之林的汉字;汉字编码是汉字的一部分,为了扩大汉字的影响,推动中文信息处理技术深入发展,也需要不定期进行整理。

汉字编码诞生于1978年,经历近二十年发展时间,1997年进行了第一次整理,这次整理颁布了《信息处理用GB 13000.1字符集汉字部件规范》(GF 30011997),把汉字拆分成的不同字根统一到基础部件。

目前,基础部件又经过十年发展时间,并没有遏制住汉字编码的无序蔓延,汉字编码难使用难推广难依旧,因此,人们的眼球逐渐转向并盯住了音码,汉语拼音果不负众望,凭借计算机智能化和大容量的翅膀,不断克服自身缺欠,在中文信息处理领域越飞越高。与汉语拼音形成鲜明反差的是,汉字形码受到空前冷落,正经历着诞生以来最寒冷的冬季,目前这种落差正在影响着规划和制定中的文字规范政策。

为了重振汉字形码雄风,找回自身应用价值,在汉语拼音难以施展的地方展现自我,在中文信息处理领域与汉语拼音比翼双飞,特提出汉字编码第二次整理,包括理论整理、规范整理和方案整理。

 

二、汉字编码理论整理

 

目前汉字编码理论的核心内容是汉字拆分理论,这是一种有理据拆分,从整字入手,根据结构理据所进行的部件拆分,这种理据是字源或参考字源,要从汉字的部件组合中分析出造字意图。

汉字编码理论与实践一脉相承,理论是基础,实践是检验理论的唯一标准,从目前汉字形码发展无序性、编码复杂性、应用局限性、推广艰难性看,说明汉字编码理论还需要不断完善并走向成熟。

笔者在《汉字编码三大定律》等系列文章中,根据对码长和长、短码的分析,提出了现代汉字编码理论,证明了目前汉字拆分理论,因受字源束缚而具有局限性,采用部件编码难以推广和普及,也不能解决大字符集汉字编码问题。

整理建议:用现代汉字编码理论指导汉字编码,这种理论由汉字拆分和笔画组合两部分内容组成,不但能解决通用字、大字符集汉字编码理论问题,还能为寻找适于推广普及的汉字编码方案提供理论依据,为最终解决汉字排序问题奠定基础。

 

三、汉字编码规范整理

 

(一)与汉字编码有关的汉字规范

按使用功能可分成两类。

一是基本规范,这是用于表达汉字之字形和字音的部分,见表1

基本规范(笔者查看到的)                                                                                       1

序号

 

             名称

代号

汉字数量

备注

1

信息交换用汉字编码字符集  基本集

 

GB231280

6763

简称基本字符集

2

信息技术  通用多八位编码字符集(UCS

GB13000.11993

20902

 

3

信息技术 信息交换用汉字编码字符集基本集的扩充

GB180302000

27533

简称大字符集

4

信息技术  中文编码字符集

 

GB180302005

70244

简称大字符集

5

《规范汉字表》

 

20000

制定中

 

6

《汉语拼音方案》

 

 

 

 

 

二是辅助规范,这是为了表达基本规范使用的工具,见表2

辅助规范(笔者查看到的)                                                                                     2

序号

 

            名称

        代号

          备注

1

《汉字笔顺规则表》

 

 

 

2

GB13000.1字符集汉字笔顺规范》

GF 30021999

简称笔顺规范

3

《信息处理用GB 13000.1字符集汉字部件规范》

GF 30011997

简称部件规范

4

 

《信息技术 数字键盘汉字输入通用要求》

GB/T180312000

 

5

 

《信息处理用GB13000.1字符集汉字部件名称规范》

 

征求意见稿

中国语言文字网

 

 

(二)对目前规范制定、修改的整理建议

1GB13000.1字符集汉字笔顺规范(GF 30021999

根据《汉字笔顺规则表》给出了字符集GB13000.11993汉字笔顺规范,其中涵盖了基本字符集GB231280的笔顺规范,目前字符集已经扩展到大字符集GB180302005,最终目标是整个方块字,那么笔顺规则表能否跟进到大字符集乃至整个方块字?如果能够跟进,是否有颁布大字符集笔顺规范时间表?如果不能跟进,那最大适用范围是哪个字符集?

《汉字笔顺规则表》是书写汉字应遵守的规则,在7000个通用字的推广普及中取得了明显成效(见《现代汉语通用字笔顺规范》),对4000多个低频字也能推广使用,这样加上对应的繁体字、异体字等,可以给出两万左右字的笔顺规则,这就是《GB13000.1字符集汉字笔顺规范》(GF 30021999)。

造字之初,汉字并不是沿着笔顺发展的,而是按照图形拼凑的,在汉字演化过程中,甲骨文、金文、篆文等古文字简化成隶书,也把具有图形性质的笔画结构保留下来,这部分带有图形性质的字,集中收在大字符集中,这些字的收集给制定汉字笔顺规范带来一定难度,但这并不意味着不能制定大字符集汉字笔顺规范,这不是难事,而是说这些字比较生僻,平时人们很少接触,即使制定出了相应的笔顺规范,人们也不能用常规方法掌握,需要特殊记忆,因此不具普遍意义。

整理建议:确定《汉字笔顺规则表》适用范围,以两万字左右的字符集为限,就是目前已颁布的《GB13000.1字符集汉字笔顺规范》(GF 30021999),对超过该字符集的大字符集,颁布汉字笔顺规范已经没有普遍意义。

2、提出《汉字编码规则表》

汉字编码规则是汉字编码的重要组成部分,每种编码方案都不尽相同,从这种意义上说,目前还没有建立共同的汉字编码规范。

有人认为现已颁布的部件规范GF 30011997是共同的汉字编码规范,对不按该规范编码的汉字输入法,都归并到不规范的汉字编码行使“一票”否决,实际上,该规范所代表的只是汉字按字形编码的一个系列,并对汉字拆分的方法进行了规范,但这并不代表汉字形码编码的全部内容,例如按近形编码是汉字编码的一个重要分支,就自成独立体系,另外,即使采用部件规范GF 30011997确定的部件个体编码,也不该是随意性的,也应该有法所依。

还有人认为《汉字笔顺规则表》是共同的汉字编码规范,但汉字编码每次并不是单个笔画,而是多笔画结构,因此《汉字笔顺规则表》对汉字编码不能起到规范性作用,例如在部件规范GF 30011997中,对三面包围结构字“区”提取部件“匚”,对四面包围结构字“国”提取部件“囗”,这是把汉字的头几笔和末笔共同组合成一个部件,而绕过中间的某些笔画,这就是与《汉字笔顺规则表》相孛的

为了填补这项空白,让汉字编码都有法可依,这里参照《汉字笔顺规则表》,特提出制定《汉字编码规则表》,内容如下:

一、基本规则

1.从上到下  李(木李)

2.从左到右  仁(亻仁)

3.先外后里  问(门问)

4.先中间后两边   乖(千乖)

二、补充规则

1.点在上边或左上,先编  义(丶义)  为(丶为)

2.点在右上或字里,后编  尤(尢尤)  叉(又叉)

3.两面包围结构的字

1)上左和上右包围结构,先外后里  厅(厂厅)  司(  司)

2)左下包围结构,先里后外   廷(壬廷)

4.三面包围结构的字

1)缺口朝上的,先里后外  凶(乂凶)

2)缺口朝下和朝右的,先外后里  同(冂同)  区(匚区)

5.全包围结构的字,先外后里   国(囗国)

表中基本规则是强制性条款,任何形码编码都应遵守,考虑到汉字编码的复杂性和多样性,不可能制定出涵盖所有的编码规则条款,因此,补充规则是推荐性条款,在实际编码运作中还允许制定特殊规则,但在汉字编码评测中,特殊规则越少越好。

《汉字笔顺规则表》与《汉字编码规则表》的关系,前者是严格的、具有强制性的标准,但对字符集适用范围有限;后者是宽松的,具有指导性的标准,但涵盖面广,适用于所有字符集乃至整个方块字。为把这两个规则表统一起来,在《汉字笔顺规则表》中,如果把基本规则中的126条款移到补充规则中,也不失是一种可行的方法。

3、《信息处理用GB 13000.1字符集汉字部件规范》(GF30011997

给出了字符集GB13000.11993560个基础部件,其中涵盖了基本字符集GB231280506个部件,其余54个部件主要来自港台和日韩用字。

目前字符集已扩展到大字符集,最终目标是整个方块字,那么基础部件能否跟进到大字符集乃至整个方块字?如果能跟进,是否有颁布大字符集部件规范时间表?如果不能跟进,那最大适用范围是哪个字符集?

制定部件规范GF 30011997的初衷,是为了统一计算机输入汉字,因此,该规范虽然可以用于教学,但却是汉字编码的产物,如果计算机输入汉字不需要编码,那肯定不会颁布这一规范。

笔者在《笔画组合理论与汉语拼形方案》文中,根据对码长的分析,提出了基础部件适用于7000个通用字范畴,对应字符集就是基本字符集GB231280,该字符集含有506个基础部件,这是我们应该关切的,而对于超过这一字符集的部件个体,对汉字编码已经没有普遍意义,这在部件规范GF 30011997颁布至今的编码实践中已经得到了证明,例如五笔字型汉字输入法在基本字符集GB231280的应用比较好,但扩展到字符集GB13000.11993,即使采用智能技术,这也不被人们看好,我们应该正视这一现实,既然如此,就不如把基础部件的数量压缩到最小程度。

整理建议:部件规范GF30011997,非但没有必要扩展到大字符集GB180302005,而且还应瘦身到基本字符集GB231280,部件的精减有利于计算机键盘基础部件的键位设定和编码规范化,对于超过基本字符集GB231280的汉字编码,应由其它方法来完成。

4《信息处理用GB13000.1字符集汉字部件名称规范》征求意见稿

这是对基础部件用汉语命名(见中国语言文字网),实际上,基础部件已经够“繁”的了,如果再对基础部件用汉语命名,这又增加了一层难度,违背了汉字编码规律,大多数人是不会接受的。

整理建议:采用汉字编码命名,因为部件具有汉字特征,只要汉字编码问题解决了,基础部件的命名就迎刃而解了。

5、《信息技术 数字键盘汉字输入通用要求》(GB/T180312000

共提出两种设定方法,分别是10键位和8键位汉语拼音字母键位设定,目前流行后一种方法,无论哪一种方法在输入英文字母或专有名词时,每个字母需按14键不等;输入汉语拼音时,每次只能输入单个汉字,不能直接输入汉语词组;对采用近形编码技术的汉字输入根本用不上,这说明目前数字键盘不但文字输入技术落后,应用也具有局限性,与网络时代个人移动信息装置的日新月异发展是极不匹配的,关于这一点,笔者在《数字键盘复码字母键位设定原理》文中已详细论述。

整理建议:扩大设定范围,增加具有我国自主知识产权的汉语拼音字母键位设定方法,让用户拥有更多的选择。

6、关于制定中的《规范汉字表》

网查知该表是集字形、字音、字义、字序、字量于一体的综合性规范表,主体收字约12000个,分三级,一级高频字3500个,二级次高频字4500个,这一、二级字总量为8000个,相当于现代汉语基本用字,三级低频字4000个,姓氏、人名、地名、民族、宗教、科技术语等均在这三级字内解决,把主体12000字加上对应的繁体、异体字在内,《规范汉字表》大约收字约20000个左右。

《规范汉字表》的研制,是人们生活中的一件大事,格外备受关注,多数人期盼早日颁布,这能找到一百个甚至更多理由;也有人困惑不解,看能否找到五十个哪怕几个理由,当然这对《规范汉字表》的如期颁布不会受到任何影响,只希望该表更加完善和减少遗憾,下面冒昧试寻找这种理由供参考:

1)目前在汉字领域还有很多事没能解决好,例如汉字编码理论和实践还需深入探究。

2)在汉字的“四定”中,最难点是汉字的形序排序法,除《规范汉字表》之外,在已颁布的所有字符集中,都是采用汉语拼音和部首两级排序,笔者目前已从理论证明,汉字按字形排序的最终归宿是汉字编码,是位于码长曲线中值点附近的汉字编码,这在不远的将来一定能够寻找到这种编码。

3)在上世纪五十年代兴起的简化字运动中,有系统颁布了两千多个简化字,现条件已经发生了质的变化,由手写演化到计算机输入汉字,目前又是海峡两岸进行汉字交流的绝佳时期,需要对这两千多个简化字达成共识,以便形成两岸共同的简化字方案。

4)对姓氏人名限定在三级低频字4000个范围以内,是否是基于目前计算机打不出字的缘由,如果在不远的将来有一种方法能方便解决这一问题,是否还会这样限定?对港澳台同胞及海外侨胞,他们的名字如果是不规范字,那么想归大陆定居时,是否需要先改名然后才能办手续呢?

5)对汉字的不同解释由来已久,一些出版物可能观点不同但各具特色,人们可根据需要进行选择,《规范汉字表》的颁布,对汉字的解释具有超级固化作用,这是否会影响到对汉字的深入研究?是否会造成书店的某种出版物“清一色”呢?

6)对规范来说,越是基础的修改间隔时间比较长,越是全面、详细的人们很快就会发现问题,规范是条大船不好调头,如果卸载将部分内容由权威部门编译成字典推广,内容不但会更加丰富多彩,推广容易出现异议再版也容易。

 

四、汉字编码方案整理

 

分计算机字母键盘和手机等数字键盘两种:

(一)计算机字母键盘

1、采用笔画编码,这是按照《汉字笔顺规则表》,每键(一笔)对应一个字母,二笔输入法是每两键(二笔)对应一个字母。

2、采用部件编码,如五笔字形,郑码,或将汉字分解成上下、左右两部分。

3、采用近形编码,这是与计算机键位字母有关的编码,早期是表形码用字根编码,现可归并到部件,目前在这一领域已发展成采用字元编码。

以上汉字形码编码的三种类型、或这三种类型之间相互组合、或这三种类型与汉语拼音组合等,基本涵盖了目前所有的汉字形码编码方案,这里用于编码的汉字构件总共有三种,按平均笔画多少降幂排列分别是:部件、字元和笔画,其中字元是根据码长定理推测出来的理论值,其平均笔画数位于码长曲线中值点,具有编码和排序双重功能,采用字元编码不但简便也容易推广普及,是人们多年来一直期盼的汉字编码,因此,目前汉字编码的重要任务之一,就是寻找到实用的、具有字元性能的汉字构件。

从理论上讲,具有字元性能的汉字构件是无穷多的,由笔者研发的拼形字元(见《汉语拼形汉字输入法》),是目前唯一具有字元性能的汉字构件,这是根据近形原理推求出来的。至于采用其它方法,将来也可能研制出这种具有字元性能的汉字构件,但在编码性能上肯定都不及拼形字元,关于这一点笔者以后还要专门论述。

(二)手机等数字键盘

现代数字键盘不只用于打电话,还要传输文字信息,因此需要字母键位设定,从理论上讲,字母键位设定应该能够满足目前所有用于计算机文字输入的方法,在中国大陆主要有如下三种方法:

1、拼音文字的输入,世界通用的是英文,要最大限度满足英文的输入,这是数字键盘字母键位设定首选目标。

2、汉语拼音的输入,要和输入英文不应该有差别,也就是用汉语拼音要能直接输入汉语词组。

3、汉字形码的输入,包括由部件、字元、笔画编码的汉字输入法。

能够满足上述三个条件的是最理想的数字键盘,但目前数字键盘对上述每一条款都存在不同程度的缺陷,那么能满足这三个条件的数字键盘是否存在呢?笔者在《数字键盘复码字母键位设定原理》文中,提出一种复码数字键盘,就完全满足上述三个条件。

 

五、结论

 

在汉字编码演化进程中,变异和固化是一对永恒的矛盾,变异来自民间,固化来自政府,当变异社会化时,需要整理来达到统一目的,整理的结果是固化,这是在原有基础上制定新的规范标准,并对原有规范标准进行修改。

目前,汉字编码又到了关键时刻,各种编码方案轮番登场,这是一种强烈的、社会化的变异意识,是推动汉字编码演化的动力,敦促并预示着汉字编码第二次整理的早日到来,通过这次整理,我们一定会看到汉字形码的第二次腾飞。

中国汉字编码经过三十年艰苦跋涉,不但走到了今天,还要面对明天,目前汉字编码还处于稚嫩期,未来的路还很长,希望我们编码人、网友朋友,陪伴汉字编码走向成熟。

 

 

《汉字近形编码论文之七》

辽宁省/本溪/高国鹫

E-mailhypx8798@yahoo.cn

200876

 




阅读:
录入:

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:汉字编码--未来推动汉字演化的动力

下一篇:人间万岁万岁万万岁
相关文章       汉字  汉字编码三大定律 
本文评论
  基础部件用汉语命名 ---------------------其实如果这类的问题太多,可以将部分少用的字根按它们的笔画顺序命名.或是统一用V键表示.   (木屋 ,2008-07-25 )
  “戴”“戢““截”等字的拆解原则有特例吗,可惜你的文中没有点出。   (木屋 ,2008-07-08 )
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章