湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

汉字输入技术与应用研讨会论文集

  

中文在信息时代的“书同文”

  

——汉字的结构化笔形与“无编码”数字键盘输入

  

黄北成

 

 

【摘  要】迄今为止,统一的输入法只有汉语拼音输入法,它得益于字母化的《汉语拼音方案》,线性组合的拼音字母,可对应字母键盘实现“无编码”输入。同理,统一字形输入法的基础是统一汉字的“拼形方案”,其关键是找到线性表达汉字的“基本单位”。由于汉字不是笔画的线性排列,普通笔画不能表达汉字结构。本文提出以结构化笔形作为汉字数字编码基本单位的新思路。作者通过对GB5个基本笔画赋予相对位置属性,获得了线性描述汉字的基本单位——5对“DNA笔形”(以下简称5D笔形)。5D笔形首次从结构层次上揭示了汉字的内在规律,解析复杂的汉字结构,为统一汉字线性数字编码方案提供了科学理据。

 

 

一、前言

 

电脑终端字符键盘设计面向一维字母文字的输入,使得方块汉字不能直接进行输入,必先经过人工降解为一维代码序列,才能让机器接收处理。从二维到一维信息转变的角度、途径和方法的多样性,导致中文输入“万码奔腾”无法统一。进入互联网络时代,个人性化的信息需求,信息终端输入界面缩小成数字小键盘为主,中文处理遇到了新挑战,也是新机遇。因为字符文字和图形文字都需要通过数字化编码处理得以输入,英文大、小写字母有52个,而汉字基本笔画只有5个。能否统一对汉字线性描述的“拼形方案”是实现信息时代里的“书同文”的关键所在,将汉字转换为数字形态的基础是线性描述单位的标准化。

 

二、温故知新

 

众所周知,每个汉字都具有完整的音、形、义信息。汉字表音和表意都是隐性的,表形则是显性的,字形是汉字的信息载体,凝聚了千古文明。

汉字虽然复杂,笔画却简单,基本笔画仅有五种。汉字是由笔画书写而不是顺序“拼写”而成,简单地按照笔顺输入笔画不能反映汉字真实的面貌,不是正确的“拼形方案”。除了汉字笔划输入繁琐(多达36划)外,同笔不同形字的情况使得笔画输入法重码率高,效率低,显然是没有抓住汉字主要特征信息所至。

从识字开始,老师在黑板上一边示范书写,一边描述笔画的下笔与运笔,结果,汉字写成了,学生听懂了。个中启示:汉字可以书写,也可以描述;笔画是书写的单位,要正确描述汉字,还得包括结合关系。汉字形态丰富,同样笔画在汉字中会有下笔位置、运笔方位和长短等变化,例如:土、士、工中的横与竖笔。可见,汉字的结构属性支配每个笔形,具体的笔形归属于特定的汉字。

 

三、汉字的线性描述

 

汉字的“拼形方案”必须建立在正确的线性表达之上。

1.由普通笔画按笔顺简单排列,编码简单但信息不全面:

汉字≠笔画1笔画2笔画3……笔画n

2.包含了结合关系的组合,编码信息全面但结合关系不简单:

汉字=笔画1结合关系笔画2结合关系笔画3……结合关系笔画n

3.以相对关系简化结合关系:

汉字=笔画1相对关系笔画2相对关系笔画3……相对关系笔画n

4.定义含结构属性的笔画:结构化笔形=相对关系笔画

汉字展开为结构化笔形的线性组合,简单且完备的线性表示:

5.汉字=结构化笔形1结构化笔形2结构化笔形3……结构化笔形n

关键任务是找到汉字中笔画之间的相对关系,以确定标准的结构化笔形。

 

四、回归汉字的笔画——汉字“DNA”笔形

 

具体汉字的笔画是暨定的,笔画的位置也相对确定。从 “人”、“入”和“八”具有相同笔画的简单实例中不难发现,笔画确定后,影响字形结构的关键在于“落笔”。依据这个原理,五个基本笔画在汉字中的表现可归纳为两类:即“落笔”相对“受限”(从属、依连、被包)和相对“无限”(自主、相对自由),分别用数字代码表示为:

 

十键位方案

笔画名称

横一(提)

竖丨(亅)

撇丿

点丶(捺)

折乙乚

受限笔形(从属、依连、被包)代码

1

2

3

4

5

无限笔形(自主、相对自由)代码

9

8

7

6

0

 

由于折笔是汉字中最复杂的笔形,将所有折笔都集中于“5”,成为九键方案,其优点是可降低使用难度,节约了数码资源“0”。

 

 

 

九键位方案

笔画名称

横一(提)

竖丨(亅)

撇丿

点丶(捺)

折乙乚

受限笔形(从属、依连、被包)代码

1

2

3

4

5

无限笔形(自主、相对自由)代码

9

8

7

6

 

标准数字键盘方阵:

 

 

 

 笔形代码按照对称性分布设计是基于GB/T180312000标准和数字键盘方阵上的认知规律。其中15是基本笔形,60是扩展笔形:

基本笔形为受限笔,下笔受约束,简称为“从笔”,分布在15小数码区,在结构中必须区分长短笔画时,自然表示短笔形。

特殊定义“9一”不具贯穿其它笔形能力。

扩展笔形为无限笔,下笔相对自主,简称为“主笔”,分布在690)大数码区,在结构中必须区分长短笔画时,自然表示长笔形。

可以通过以下实例具体理解5D笔形:

         

结构化笔形冲破了汉字结构的束缚,以简单的5D笔形按照笔顺规范可以科学地将二维的汉字转为一维数字形态——汉字的数字编码。编码和描述过程一致,例如“人74”—主撇从捺,“八76”—主撇主捺,“入36”—从撇主捺。自然表达了 “人”、“入”和“八”的本质差异。再看诸如“刀53—力57”,“儿75—几30”,“土189—士981—工929”,“开1932—井1978”可见一斑。5D笔形真实反映了汉字内在结构规律,富于构造活力,不愧有“DNA笔形”之称。

对比检验5D笔形对汉字有精确的解析能力:

 

笔形名称

5D笔形编码

5笔编码

横一

  981

  189

121

竖丨

  92

  98

12

撇丿

  53

  57

53

点丶

  9744

  9746

1344

折乛

  1956

  1906

1154

 

五、笔形数字编码与输入法

 

5D结构化笔形的创新,使简单笔画有了质的飞跃。汉字的“拼形方案”使汉字与数码之间有了严格的对应关系。5D笔形遵循国家相关规范, 5对笔形充分利用09的数字资源,拓展了编码空间,结合软件技术的汉字数字键盘输入法将向“无编码”输入统一。5D笔形是数字输入技术的重大突破:

1、汉字笔形输入具体化,更具规范性,有利于对汉字的认知与语文教学。

2、解决了对汉字的结构性的自然描述,数字编码信息更完整、效率更高。

3、拓展了编码空间(5n10n),足以容纳GBK所有中、韩、日、繁、简2.7万个汉字和任何词组信息编码。以国标规定单字输入平均码长6为例,普通5笔的编码空间仅仅56=1.56万,根本不能容纳GBK大字符集,5D笔形编码空间扩展到106=100万。

4、无须附加规则,遵循国家语委颁布的《现代汉语通用字笔顺规范》进行笔形数字键盘的输入。

5基于效率和GB/T180312000的平均6/字要求,当输入汉字的笔画过多时,可以使用省略码“*”代替。用于教学描述、分类检索和其他信息处理场合,可用实际汉字笔画数等长编码。

65D笔形向下兼容普通5笔画,当忽略结构属性时,笔形60可以还原对应笔画15

 

六、小结

 

1、汉字可有多种形态——二维图形形态、拼音字符形态和笔形数字形态。

汉字适于人与人的沟通,不便与机器交互,为了适应机器,于是就有了众多的输入法。在PC电脑时代,为了适应字母键盘的处理,汉字外延出以拼音为代表的字符形态(亦有放弃汉字,拼音文字化的主张)。进入互联网时代,汉字需要表现为一维数字形态。汉字形态丰富,承载了中华五千年文明,应该深入研究而不是“削足适履”。汉字编码理论必须从结构层面上解决汉字的数字化描述,以适应数字键盘输入和网络信息处理的需要。

2、结构化笔形的出现,使汉字线性数字编码理性化:

简单:编码过程简单,直观对应键盘,符合汉字认知规律;

简洁:数字编码简短,表达汉字信息直接、有效和低冗余;

真实:承载了汉字关键信息,具体准确解析汉字构造规律;

规范:严格遵循国家语言文字规范和相关的信息技术标准。

3、输入法回归“无编码”输入。

中文输入法“乱码奔腾”是人们还没有找到汉字本质规律的结果。众多方法仅从表象去归纳自己的一套规则,将二维汉字转化为一维代码缺少科学与规范性,用户在众多输入法面前无所适从,“书同文”是时代的需要和发展的必然。5D笔形的创新,真正找到了汉字构造本质规律,以最自然简单的方式解析汉字复杂的结构。

4、基于5D笔形的中文数码输入系统实现了易用、高效和规范的统一。

5D结构化笔形与标准数字键盘相吻合,笔形与按键唯一对应。归纳笔形结构属性基于抓主要矛盾,化繁就简的原则。结构化笔形同样适用于电脑字母大键盘,在充裕资源条件下,笔形属性可以进一步细分,得到完全结构化的笔形。

回顾我国信息产业发展历程,每次较大进步都从中文信息处理技术的实现重大突破为起点。中文信息处理技术涉及领域很广,和人文生活息息相关。结构化笔形在数字编码理论上取得的突破,统一“无编码”数字输入技术必将对中文信息处理技术发展产生意义深远的影响。

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有