最短的汉字编码方案 杨士辉 杨松 2009.1.4
现在的字典,大多数都是按照汉语拼音音节表的次序来排列的。使用音节表查字,首先要知道待查字的汉语拼音。为了弥补音序法的不足,我们可以采用‘笔画笔顺法’列出一张笔画检字表。笔画少的字排列在前面,笔画多的字排列在后面;笔画相同的字,按照笔形的横、竖、撇、点、折排序。
我们采用下述方法对笔画检字表中的汉字进行编码,每个汉字只用2~3个字符来代表。
我们用9个阿拉伯数字1~9和25个拉丁字母a~k和m~z ,字母‘l’不用,因为它与数字‘1’容易混淆,总共用34个字符。
编码方法如下:第一个字符用来表示汉字的笔画数;第二和第三个字符用来表示笔画数相同的汉字按笔顺排列的序数。34*34=1056,两位数可以表示1056个字。常用汉字中,9画,10画的字最多,但是都小于1000.
用这种方法对汉字进行编码,每个汉字只需要2~3个字符,而且没有重码,这是最短的汉字编码。
编码举例如下:一(11),乙(12),二(21),十(22),三(31),干(32),丰(41),王(42),玉(51),刊(52),匡(61),耒(62),寿(71),玕(72),奉(81),玩(82),砉(91),耔(92),耕(a1),耘(a2),慧(b1),耜(b2),耠(c1),琫(c2),耢(d1),瑟(d2),耥(e1),璈(e2),慧(f1),耦(f2),耩(g1),耨(g2),璨(h1),璩(h2),鏊(i1),鳌(i2),鬏(j1),攉(j2),瓒(k1),鬓(k2),耰(m1),蠢(m2),耲(n1),耱(n2),鬟(o1),趱(o2),矗(p1)。
参考文献
苏培成《现代汉字学纲要》。北京大学出版社2001年12月第二版
苏培成选编《现代汉字学参考资料》。北京大学出版社2001年12月第一版
王开扬《汉字现代化研究》齐鲁书社2004年8月第一版
张普 著《汉字编码键盘输入文集》中国标准出版社1997年第一版
李公宜主编《汉字信息字典》科学出版社1988年第一版
e-mail:zgsyysh@163.com