浅谈汉字编码的基本原则及重要意义 谭吉运 黄戟 谭红卫 【摘 要】本文认为,汉字编码是“现代汉语”的重要组成部份,因此汉字编码,都应完全贯彻《汉语拼音方案》和《现代汉语通用字笔顺规范》的要求,在一个编码方案的原则下、简便易学、能成为中小学语文的重要的辅助教材及工具,并能够全面进入信息传导等领域,不但编码能在计算机大键盘上使用,也能在小键盘上、电话机、手机上使用,把手写“汉语速记”和计算机速记融为一体并能快速准确的应用,彻底解决“汉语速记”不具有普及性和难学难记的缺点,并且能进行汉字非键盘输入、支持汉字手写识别、大字符集处理平台与应用软件. 一、编码总原则 “现代汉语”通常为口语和书面语,随着现代科学技术的发展,计算机技术的出现,人们使用计算来传递记忆大量的汉语信息, 于是“现代汉语”里出现一个新的家族成员一一汉字编码. 国家颁布的《中华人民共和国国家通用语言文字法》第十五条里明确规定,信息处理和信息技术产品中使用的国家通用语言文字应当符合国家的规范和标准. 汉字编码是现代汉语的家族成员,理所当然应符合国家的规范和标准. 什么是国家的现代汉语规范和标准?简单的说,就是《汉语拼音方案》和《现代汉语通用字笔顺规范》,只有完完全全按照《汉语拼音方案》和《现代汉语通用字笔顺规范》来制定汉字编码方案,才是汉字编码的总原则. 二、根据总原则制定的具体规则 1、汉字编码是汉字的副本,是汉字的另一种表达形式,它应能与语文教学融为一体,是语文教学的重要组成部分。 2、汉字编码与教育达到理论上的统一和教学上的同步,根据教学进度不同、文化程度不同,编码要能分步编码、分步使用,前后紧密结合,互不冲突。这样,编码才能与教学融为一体,才能达到教学与应用的同步。 3、编码的学习,主要是学习《汉语拼音方案》和《现代汉语通用字笔顺规范》;编码的应用主要也是巩固《汉语拼音方案》和《现代汉语通用字笔顺规范》。 4、能够方便快捷的对汉字进行排序检索,同时对各种专业词汇、词条也能排序检索,即编码应具备有序性。 5、编码自身能将汉字快速输入计算机,即使用键要少,键要集中,码要短(这里指的快是指汉字编码自身的快,而不是指以非编码因素的辅助手段来提高输入速度的方法,如:智能输入法和导引输入法的快速输入法等方法)。 6、同一个原理,进行多用途编码.从而达到较大的编码空间,能为邮政、户政、金融等的地名、人名及各种用途提供汉字编码使用。编码的码位分布均匀,支持汉语机器词典,而“机器词典的规模及词条信息的详尽程度将成为衡量一个语言信息处理系统质量的决定性因素。日本政府出资140亿日元来支持本国的电子辞典研究所(EDR),……就是这种共识的一个有力佐证。”(引自侯敏老师的《计算语言学与汉语自动分析》第一章25页,北京广播学院出版社1999年12月第一版) 7、同一编码方案,支持汉字非键盘输入。 8、同一编码方案,支持汉字手写识别、汉语速记。 9、能够使用现有通用标准设备进行输入,而不需专门的设备,这也是编码标准化的一个方面——设备标准化。经过学习之后,不需要专门训练,凡是能够正确书写汉字和正确读音的人,都能够轻松运用。 10、汉字编码要能数字化转换,以便不同用途需要不同编码时相互转换。 11、汉字编码应具备易学、易记、易懂、易推广、易使用。这“五易”也是对汉字编码的基本要求,如果达不到这个要求,那么这种编码也是没有实用价值的。 三、具体实施方法 在遵循汉字编码的总原则及编码具体条件要求下,我们经过十多年的努力,按照汉字的四类编码:形码(笔顺码)、音码、形音码和音形码,研究出汉字编码的具体实施方法。 我们先来了解一下对这四类编码方案的具体要求: 1、形码: 使用编码来全面描述汉字的结构特点及书写规范,其标准应以《现代汉语通用字笔顺规范》为基础,这样的汉字编码称之为汉字的笔顺码,简称形码。 2、音码: 使用编码来全面描述汉字读音及汉语拼音方案,应对声母、韵母(单韵母、复韵母、鼻韵母)及零声母里的韵母、整体认读音节都能分别的给予描述,这样的汉字编码称之为汉字的拼音编码,简称音码。 3、形音码: 在编码过程中,以全面描述汉字的结构特点和书写规范为主,以描述汉字读音和汉语拼音方案为辅的汉字编码,称之为汉字的形音码,简称形音码。 4、音形码:在编码过程中以描述汉字读音和汉语拼音方案为主,以描述汉字的结构特点和书写规范为辅的汉字编码,称为汉字的音形编码,简称音形码。 为了进一步说明每一个编码都应分步编码的可行性及必要性, 以形码为例来进行说明(见副件。说明:副件中有的符号是在本机器设定,可能其它设备不给支持)。 同样如此,音码、形音码、音形码也可以起到分步编码、分步学习、分步使用的目的,更重要的是音形码及形音码对编各种专业码更具有实用性及规律性。 四、这种汉字编码的重要意义 1、实用意义 这种汉字编码不但符合国家的标准要求;而且能分步学习、分步编码、分步使用及拓宽应用领域的要求,具有多种用途;不但能在计算机大键盘上使用,也能在小键盘上、电话机、手机上使用;同时,把“汉语速记”和手写计算机速记融为一体使用,可使用手写速记,用扫描仪使用图形码(即把汉字编码用图形表示)翻译成文章,也可使用计算机手写板直接手写汉字,还可使用专用软件(编码的专用配套软件)将其翻译正规的文章。使用形音码、音形码编码作汉语手写速记法能够在特定的语境中让语言具有语义上的唯一性(即是说该编码具有区别多音字的功能).该汉字编码根植于现实,注重跨专业学科的应用. 同一编码方案,不但支持汉字非键盘输入,而且支持汉字手写识别、汉语速记、支持汉语机器词典的编码。 2社会意义 汉语目前已经成为世界上最主要的语言之一,它的使用人群最广,信息承载量最大。随着信息技术的发展,汉语的重要性日益凸显,对汉字编码的作用和规范都提出了更新、更高的要求。汉字编码不单是把汉字进行计算机录入,更重要的是建立大规模的机器词典,不管采用机器编码还是采用人工编码,都应在符合汉语拼音、书写规范等相关国家标准的要求下,具有规律性,具有上亿特大的编码空间,建筑起一个在各种环境条件下使用的机器词典。 汉语言文字在新时期、新领域得以发扬光大,是汉字编码工作的主要目的,是中文国际化、信息化的必由之路,是我国普及计算机教育、信息处理能力成为世界先进大国的必由之路。 由于时间仓促,水平有限,存在的错误,敬请批评指正,万分感谢。 附件 一、单笔画笔顺码 1-1 按《现代汉语通用字笔顺规范》序号式编码:单笔画笔顺码之一。 一(横)、∣(竖)、丿(撇)、丶(点)、(折), (1、2、3、4、5)是汉字编码笔顺码的基础,全部按笔顺取单笔画前七笔和末笔编成八码。 按笔画顺序取前七笔和末笔共同组成八码制编码,这种编码学习特别简单,特别方便小学生的识字教育,是学习书写规范汉字为主的编码。单笔画序号式编码,主要是把一些笔形、偏旁部首和3500常用单字编在一起,使小学一、二、三年级学生学习后,就能达到会读、会用、会正规书写汉字的目的。同时(均为简单常用的字)编成汉字编码和游戏软件进行教学使用。这样既提高了儿童学习书写规范汉字的兴趣,又提高了儿童对计算机使用的能力。这样就可达到计算机教育和识字教学的同步。即使是小学一、二、三年级学生都可按笔顺进打字。 1-2 按《现代汉语通用字笔顺规范》序号式编码:单笔画笔顺码之二。 儿童在低年级学习(1—1)单笔画笔顺码的基础上,进一步也可按十个 (1、2、3、4、5、6、7、8、9、0)数字进行编码,在汉字中无交叉的笔画按照横、竖、撇、点、折顺序对应1、2、3、4、5进行编码;交叉的笔画按照横、竖、撇、点、折顺序对应6、7、8、9、0进行编码。 同理使用笔顺原则,可按十个(1、2、3、4、5、6、7、8、9、0)数字进行编码时,无交叉的笔画按照横、竖、撇、点、折顺序对应1、3、5、7、9进行编码,交叉的笔画按照横、竖、撇、点、折顺序对应2、4、6、 8、0进行编码。 也可按汉字的间架结构编码。左右结构和左中右结构按单笔画的1、3、5、7、9进行编码,上下结构、上中下结构和其他结构按单笔画的2、4、6、 8、0进行编码.相反, 左右结构和左中右结构按单笔画的2、4、6、 8、0进行编码, 上下结构、上中下结构和其他结构按单笔画的1、3、5、7、9进行编码. 上述三种编码为六码码长,都可以适用于计算机(计算机使用可在大键盘上使用),在大键盘上使用基本键位和下档键位的M,从左至右的按顺序、S、 D、F、、H、J、K、L、M对应就得到目前为l、2、3、4、5、6、7、8、9、0数字的输入,也可直接使用小键盘区的数字键输入以及在手机、电话机上使用了。 以上三种编码方法在手机上使用也很方便,更重要的是通过小学四、五、六年级学习后,就能完全正确的书写规范汉字和能自如的使用计算机输入汉字。 上述编码方法,也可利用手写板使用图形替代数字编码手写输入汉字,让儿童更多的了解汉字的规律及汉字编码多方面应用的技巧。 其方法是: 设置:一(横)和(弧形)两个基本图形,按五种基本笔形符号: 一(横)、∣(竖)、丿(撇)、丶(点)、(捺)、(折)的书写方向作为基本原则进行图形码的书写。代替数字码使用手写方法输入计算机。(横)的基本图形奇数,数字码是1、3、5、7、9编码,(弧)的基本图形偶数,数字码是2、4、6、8、0编码。 手写输入汉字数字编码的对应图形表如下: 汉字笔形 | 横 | 竖 | 撇 | 点 | 折 | 笔形序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 0 | 手写图形 | | | | | | | | | | |
1-3 以单笔为主,部件为辅的汉字编码:在前面学习的基础上,为了减少重码,使用部件参加编码,提高汉字输入速度。 1-3-1 以单笔为主,部件为辅的笔顺编码。 多笔部件是由单笔画部件按笔顺组成,因此所有选用的部件都应是符合国家《现代汉语通用字笔顺规范》规定的偏旁部首,在拆分汉字时,所拆分的部件必须与选定的部件笔顺相同、笔画数相等、笔形一致,才能作为汉字编码的部件。同时也是学习笔顺码过渡到应用笔顺码的编码。 部件选择:部件选择即为常用的偏旁部首(共计93个)。 始笔为横笔类(一):不交叉部件: 二、石、工、页 交叉部件:十、王、干、土、士、扌、走、艹、廾、木、大、尢、 疒、革、丰、西、耳、雨、木 始笔为竖笔类(丨):不交叉部件: 小、卜、冂、山、口、曰、日、止、皿、目、骨 交叉部件: 田、中、虫 始笔为撇笔类(丿):不交叉部件: 八、人、入、月、斤、气、彳、亻、爪、夕、饣 交叉部件: 夂、鱼、钅、犭、矢、缶、攵、牛 始笔为点笔类():不交叉部件: 、冫、氵、亠、讠、冖、宀、礻、衤、忄、辶、门、 广、火、立、疒、方 交叉部件: 斗、米 始笔为折笔类():不交叉部件:纟、幺、卩、阝、了、刀、厶、弓 交叉部件: 力、女、聿、子、孑、又 1-3-2 特殊规定艹,廾编码编为(0); 1-3-3 这种编码方案使用部件编码时,只看首部件是否构成部件,除第一码外,第二、第三码及末码按照单笔画部件进行拆分,按笔顺使用单笔画部件,而不再作为多笔部件处理。 l-3-4 独体字全部按单笔部件进行拆分。 1-3-5 多笔部件不管其笔画数多少,统一按首笔形编码。部件里有笔画交叉的按交叉的单笔画处理。 1-3-6 汉字只有两个多笔部件或成字部件时,后一个部件按照单笔画部件拆分,分别取二、三两码及末码。 1-3-7 编码后若在计算机大键盘上使用时,为进一步的减少重码。可以按多笔部件里是否有交叉笔画和单笔画是否由交叉笔画拆出的,统称交叉部件,交叉部件在大键盘的上档键位输入。汉字同样与单笔画笔顺码之二的编码方法一样,交叉部件按始笔形一(横)、︱(竖)、/(撇)、丶(点)、乛(折),按顺序对应1、3、5、7、9编码;非交叉部件按始笔型一(横)、︱(竖)、/(撇)、丶(点)、乛(折),按顺序对应2、4、6、8、0编码。这样重码率基本上又减少了一半,就可采用4码码长编码。 同理也可用1-2的手写输入方法输入计算机. 二、应用笔顺码: 以应用为主的笔顺码分为初级笔顺码、中级笔顺码、高级笔顺码。 2-1部件的选择。部件的选择完全符合国家选用《国家信息处理用B 1300-.1字符集汉字部件规范》。 2-2部件及分类按部件笔画数的奇、偶数,分为奇数(单数)和偶数(双数)笔画,及部件中有无笔画交叉。 部件及分类见附表一。 2-3,按笔画是否交叉,分为有交叉笔画部件和无交叉笔画部件。有交叉则在部件的编码下加横,如1、2、3、4、5、6、7、8、9、0,无交叉笔画部件编码不变。 调整部件及编码:“艹、廾”部件,按前面所述规定,其编码应为“1”,但为了减少重码,特规定该部件编码调整为“0”。 2-4,特种部件。为了减少重码,提出以下两类为特种部件, 2-4-1,笔画全交叉的有:十、大、木、禾、、艹、廾、 扌 2-4-2,不交叉的有:、亠、讠、辶、马、饣、亻、为特种部件。并在其编码下加点,如1、2、3、4、5、6、7、8、9、0。 2-5,其它 内涵部件:在一个多笔画部件中,包涵着两个以上的部件成份,这个部件称之为内涵部件。 使用内涵部件,使编码更具有灵活性、规律性,可大量的减少重码。其用法如“晶”字,“日”字是一个编码为“4”的部件,按通常的拆分办法则是拆为三个“日”字,编成三码,而在编码时由该汉字的最后一个部件所决定,不足四码的,最后一个部件能拆分成多个部件的就应该拆分编成四码,因此,末部件“日”就要拆分成两个部件,即“冂”和“二”编成四码。如“日”作单字编码时就应该拆分成三个部件“冂”、“一”、“一”编成三码。 三、汉字的拆分及其编码 3-1,按笔顺进行拆分部件及组合,其规则为: 3-2,按汉字书写规范:国家《现代汉语通用字笔顺规范》的规定笔顺进行拆分。 3-3,汉字的编码以四码为限。 3-4,汉字拆分部件超过4个,则按笔顺,顺取前三个部件和最后一个部件编成四码。 3-5,拆分部件少于4个,则按笔顺顺序直接编码。 3-6,在汉字拆分时第一部件不拆分,只有两个多笔部件时,第二个部件按内涵部件拆分,有三个部件时,第三部件按内涵部件拆分。 3-7,在部件拆分时注意拆分的部件,必须与选定的部件笔画数相等、笔形相同、笔顺一致.交叉与不交叉相同。 四、初级笔顺码的编码 4-1、初级笔顺码的编码:初级笔笔顺码的编码,部件分类只是按照奇偶数分类,奇数部件按照笔形顺序对应l、3、5、7、9编码;偶数部件按照笔形顺序对应2、4、6、8、0编码。初级笔顺码使用十个数字键或字母键进行输入。 4-2、中级笔顺码的编码:中级笔顺码的编码与初级笔顺码不同的是对部件增加了交叉与不交叉的分类方法。使用二十个键输入、交叉部件在上档键位输入:不交叉部件在中档键位(基本键位)输入。 4-3,高级笔顺码:高级笔顺码是在中级笔顺码的编码的基础上,增加了特种部件并在下档键位输入,编码时在编码下面打点表示。 笔顺码编码方案,所编成各种不同的编码,相互关系紧密,适应于各种不同的人员使用,也适用于不同的微型电脑使用。 4-4, 初级笔顺码、中级笔顺码、高级笔顺码同样的可以使手写图形符号输入,这里以高级笔顺码为例. 4-4-1,为了扩大编码空间,容纳更多的字符,基本上消除重码,手写输入时,再把汉字按左右和左中右结构和上下和其余结构分为两类得到高速地手写输入汉字。 4-4-2,其方法是: 设置:一(横)和(弧形)两个基本图形,按五种基本笔形符号: 一(横)、 ∣(竖)、丿(撇)、丶(点)、(捺)、(折)的书写方向作为基本原则进行图形码的书写。代替左右和左中右结构的汉字使用编码图形数字码使用手写方法输入计算机。(横) 的基本图形奇数,数字码是1、3、5、7、9编码;(弧形) 的基本图形偶数,数字码是2、4、6、8、0编码。 设置:1、2、3、4、5、6、7、8、9、0、作为基本原则进行图形码的书写,代替上下和其余结构的汉字使用编码图形数字码进行手写方法输入计算机。 4-4-3,上述使用的图形码是代表基本键位(不交叉部件) 图形码,上档键位的(交叉部件)的图形码在基本键位图形码末端写提(∕)表示,下档键位(重点部件) 的图形码在基本键位图形码末端写捺(﹨)表示。如下表: 图形码编码顺序 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 0 | 左右和左中右结构的汉字使用编码图形 | 交叉部件图形码 | | | | | | | | | | | 不交叉部件图形码 | | | | | | | | | | | 重点部件图形码 | | | | | | | | | | | 上下和其余结构的汉字使用编码图形 | 交叉部件图形码 | 1 | 2 | | | | 6 | 7 | | | 0 | 不交叉部件图形码 | 1 | 2 | | | | 6 | 7 | | | 0 | 重点部件图形码 | 1 | 2 | | | | 6 | 7 | | | 0 |
4-4-4,本手写输入只确认图形码和规范书写的汉字;不确认倒笔画及错别字。 4-4-5,手写输入设置一级简码字样60个,如下表: 图形码编码顺序 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 0 | 左右和左中右结构的汉字使用编码图形 | 交叉部件图形码 | | | | | | | | | | | 一级简码字 | 地 | 都 | 眼 | 虫 | 知 | 物 | 情 | 数 | 好 | 对 | 不交叉部件图形码 | | | | | | | | | | | 一级简码字 | 到 | 比 | 路 | 此 | 的 | 所 | 部 | 将 | 以 | 能 | 重点部件图形码 | | | | | | | | | | | 一级简码字 | 把 | 样 | 吃 | 时 | 和 | 们 | 活 | 就 | 他 | 你 | 上下和其余结构的汉字使用编码图画形 | 交叉部件图形码 | 1 | 2 | | | | 6 | 7 | | | 0 | 一级简码字 | 来 | 有 | 男 | 贵 | 各 | 用 | 病 | 着 | 发 | 圣 | 不交叉部件图形码 | 1 | 2 | | | | 6 | 7 | | | 0 | 一级简码字 | 下 | 三 | 中 | 国 | 我 | 全 | 为 | 道 | 子 | 民 | 重点部件图形码 | 1 | 2 | | | | 6 | 7 | | | 0 | 一级简码字 | 奇 | 土 | 员 | 是 | 委 | 华 | 家 | 这 | 汉 | 共 |
|