中文在信息时代的“书同文” ——汉字的结构化笔形与“无编码”数字键盘输入 黄北成 【摘 要】迄今为止,统一的输入法只有汉语拼音输入法,它得益于字母化的《汉语拼音方案》,线性组合的拼音字母,可对应字母键盘实现“无编码”输入。同理,统一字形输入法的基础是统一汉字的“拼形方案”,其关键是找到线性表达汉字的“基本单位”。由于汉字不是笔画的线性排列,普通笔画不能表达汉字结构。本文提出以结构化笔形作为汉字数字编码基本单位的新思路。作者通过对GB5个基本笔画赋予相对位置属性,获得了线性描述汉字的基本单位——5对“DNA笔形”(以下简称5D笔形)。5D笔形首次从结构层次上揭示了汉字的内在规律,解析复杂的汉字结构,为统一汉字线性数字编码方案提供了科学理据。 一、前言 电脑终端字符键盘设计面向一维字母文字的输入,使得方块汉字不能直接进行输入,必先经过人工降解为一维代码序列,才能让机器接收处理。从二维到一维信息转变的角度、途径和方法的多样性,导致中文输入“万码奔腾”无法统一。进入互联网络时代,个人性化的信息需求,信息终端输入界面缩小成数字小键盘为主,中文处理遇到了新挑战,也是新机遇。因为字符文字和图形文字都需要通过数字化编码处理得以输入,英文大、小写字母有52个,而汉字基本笔画只有5个。能否统一对汉字线性描述的“拼形方案”是实现信息时代里的“书同文”的关键所在,将汉字转换为数字形态的基础是线性描述单位的标准化。 二、温故知新 众所周知,每个汉字都具有完整的音、形、义信息。汉字表音和表意都是隐性的,表形则是显性的,字形是汉字的信息载体,凝聚了千古文明。 汉字虽然复杂,笔画却简单,基本笔画仅有五种。汉字是由笔画书写而不是顺序“拼写”而成,简单地按照笔顺输入笔画不能反映汉字真实的面貌,不是正确的“拼形方案”。除了汉字笔划输入繁琐(多达36划)外,同笔不同形字的情况使得笔画输入法重码率高,效率低,显然是没有抓住汉字主要特征信息所至。 从识字开始,老师在黑板上一边示范书写,一边描述笔画的下笔与运笔,结果,汉字写成了,学生听懂了。个中启示:汉字可以书写,也可以描述;笔画是书写的单位,要正确描述汉字,还得包括结合关系。汉字形态丰富,同样笔画在汉字中会有下笔位置、运笔方位和长短等变化,例如:土、士、工中的横与竖笔。可见,汉字的结构属性支配每个笔形,具体的笔形归属于特定的汉字。 三、汉字的线性描述 汉字的“拼形方案”必须建立在正确的线性表达之上。 1.由普通笔画按笔顺简单排列,编码简单但信息不全面: 汉字≠笔画1笔画2笔画3……笔画n 2.包含了结合关系的组合,编码信息全面但结合关系不简单: 汉字=笔画1结合关系笔画2结合关系笔画3……结合关系笔画n 3.以相对关系简化结合关系: 汉字=笔画1相对关系笔画2相对关系笔画3……相对关系笔画n 4.定义含结构属性的笔画:结构化笔形=相对关系笔画 汉字展开为结构化笔形的线性组合,简单且完备的线性表示: 5.汉字=结构化笔形1结构化笔形2结构化笔形3……结构化笔形n 关键任务是找到汉字中笔画之间的相对关系,以确定标准的结构化笔形。 四、回归汉字的笔画——汉字“DNA”笔形 具体汉字的笔画是暨定的,笔画的位置也相对确定。从 “人”、“入”和“八”具有相同笔画的简单实例中不难发现,笔画确定后,影响字形结构的关键在于“落笔”。依据这个原理,五个基本笔画在汉字中的表现可归纳为两类:即“落笔”相对“受限”(从属、依连、被包)和相对“无限”(自主、相对自由),分别用数字代码表示为: 十键位方案 笔画名称 | 横一(提) | 竖丨(亅) | 撇丿 | 点丶(捺) | 折乙乚 | 受限笔形(从属、依连、被包)代码 | 1 | 2 | 3 | 4 | 5 | 无限笔形(自主、相对自由)代码 | 9 | 8 | 7 | 6 | 0 |
由于折笔是汉字中最复杂的笔形,将所有折笔都集中于“5”,成为九键方案,其优点是可降低使用难度,节约了数码资源“0”。 九键位方案 笔画名称 | 横一(提) | 竖丨(亅) | 撇丿 | 点丶(捺) | 折乙乚 | 受限笔形(从属、依连、被包)代码 | 1 | 2 | 3 | 4 | 5 | 无限笔形(自主、相对自由)代码 | 9 | 8 | 7 | 6 |
标准数字键盘方阵: 笔形代码按照对称性分布设计是基于GB/T18031—2000标准和数字键盘方阵上的认知规律。其中1—5是基本笔形,6—0是扩展笔形: 基本笔形为受限笔,下笔受约束,简称为“从笔”,分布在1—5小数码区,在结构中必须区分长短笔画时,自然表示短笔形。 特殊定义“9一”不具贯穿其它笔形能力。 扩展笔形为无限笔,下笔相对自主,简称为“主笔”,分布在6—9(0)大数码区,在结构中必须区分长短笔画时,自然表示长笔形。 可以通过以下实例具体理解5D笔形: 结构化笔形冲破了汉字结构的束缚,以简单的5D笔形按照笔顺规范可以科学地将二维的汉字转为一维数字形态——汉字的数字编码。编码和描述过程一致,例如“人74”—主撇从捺,“八76”—主撇主捺,“入36”—从撇主捺。自然表达了 “人”、“入”和“八”的本质差异。再看诸如“刀53—力57”,“儿75—几30”,“土189—士981—工929”,“开1932—井1978”可见一斑。5D笔形真实反映了汉字内在结构规律,富于构造活力,不愧有“DNA笔形”之称。 对比检验5D笔形对汉字有精确的解析能力: 笔形名称 | 5D笔形编码 | 5笔编码 | 横一 | 士 981 | 土 189 | 121 | 竖丨 | 丁 92 | 十 98 | 12 | 撇丿 | 刀 53 | 力 57 | 53 | 点丶 | 太 9744 | 犬 9746 | 1344 | 折乛 | 云 1956 | 专 1906 | 1154 |
五、笔形数字编码与输入法 5D结构化笔形的创新,使简单笔画有了质的飞跃。汉字的“拼形方案”使汉字与数码之间有了严格的对应关系。5D笔形遵循国家相关规范, 5对笔形充分利用0—9的数字资源,拓展了编码空间,结合软件技术的汉字数字键盘输入法将向“无编码”输入统一。5D笔形是数字输入技术的重大突破: 1、汉字笔形输入具体化,更具规范性,有利于对汉字的认知与语文教学。 2、解决了对汉字的结构性的自然描述,数字编码信息更完整、效率更高。 3、拓展了编码空间(5n→10n),足以容纳GBK所有中、韩、日、繁、简2.7万个汉字和任何词组信息编码。以国标规定单字输入平均码长6为例,普通5笔的编码空间仅仅56=1.56万,根本不能容纳GBK大字符集,5D笔形编码空间扩展到106=100万。 4、无须附加规则,遵循国家语委颁布的《现代汉语通用字笔顺规范》进行笔形数字键盘的输入。 5、基于效率和GB/T18031—2000的平均6码/字要求,当输入汉字的笔画过多时,可以使用省略码“*”代替。用于教学描述、分类检索和其他信息处理场合,可用实际汉字笔画数等长编码。 6、5D笔形向下兼容普通5笔画,当忽略结构属性时,笔形6—0可以还原对应笔画1—5。 六、小结 1、汉字可有多种形态——二维图形形态、拼音字符形态和笔形数字形态。 汉字适于人与人的沟通,不便与机器交互,为了适应机器,于是就有了众多的输入法。在PC电脑时代,为了适应字母键盘的处理,汉字外延出以拼音为代表的字符形态(亦有放弃汉字,拼音文字化的主张)。进入互联网时代,汉字需要表现为一维数字形态。汉字形态丰富,承载了中华五千年文明,应该深入研究而不是“削足适履”。汉字编码理论必须从结构层面上解决汉字的数字化描述,以适应数字键盘输入和网络信息处理的需要。 2、结构化笔形的出现,使汉字线性数字编码理性化: 简单:编码过程简单,直观对应键盘,符合汉字认知规律; 简洁:数字编码简短,表达汉字信息直接、有效和低冗余; 真实:承载了汉字关键信息,具体准确解析汉字构造规律; 规范:严格遵循国家语言文字规范和相关的信息技术标准。 3、输入法回归“无编码”输入。 中文输入法“乱码奔腾”是人们还没有找到汉字本质规律的结果。众多方法仅从表象去归纳自己的一套规则,将二维汉字转化为一维代码缺少科学与规范性,用户在众多输入法面前无所适从,“书同文”是时代的需要和发展的必然。5D笔形的创新,真正找到了汉字构造本质规律,以最自然简单的方式解析汉字复杂的结构。 4、基于5D笔形的中文数码输入系统实现了易用、高效和规范的统一。 5D结构化笔形与标准数字键盘相吻合,笔形与按键唯一对应。归纳笔形结构属性基于抓主要矛盾,化繁就简的原则。结构化笔形同样适用于电脑字母大键盘,在充裕资源条件下,笔形属性可以进一步细分,得到完全结构化的笔形。 回顾我国信息产业发展历程,每次较大进步都从中文信息处理技术的实现重大突破为起点。中文信息处理技术涉及领域很广,和人文生活息息相关。结构化笔形在数字编码理论上取得的突破,统一“无编码”数字输入技术必将对中文信息处理技术发展产生意义深远的影响。 |