论逻辑二笔码的重要进展与突破 石兰 李格 【摘 要】本文介绍了一种能为千百万人所使用的全民普及型汉字编码——逻辑二笔码。描述了它在学习和使用效率上的明显优势以及功能上的突破,提出了字、词处理到句处理的终极目标与方向,阐明了逻辑二笔“取码最简单、笔画最科学、学习记忆量最小”的设计思想与原则。 一、逻辑二笔码介绍 逻辑二笔码是逻辑拼形码[1](部件码)发明人李格先生的又一力作。具有十分易学、易用,记忆量极少的鲜明特色。一般人5分钟左右就能掌握。逻辑二笔码是基于字、词频技术开发的实用专利产品。打单字码短,选字不需翻屏,打文章效果则更好,能使手机上与电脑键盘上的输入方法保持一致。此方案能解决大部分中国人汉字输入问题,一经推出,马上形成大批用户。特别适合于大规模,大面积地推广,是汉字输入扫盲的首选方案。 1.逻辑二笔码键位安排: 名称 | 横 | 竖 | 撇 | 点 | 捺 | 横折 | 竖折 | 撇折 | 键位 | H | S | P | D | N | Z | L | K | 首笔示例 | 王 | 中非 | 九 | 门 | | 飞马阶乃 | | 红女台 | 末笔示例 | 国 | 刘 | 万 | 贝武 | 文还 | 几 | 化区民 | |
注:HSPDN为音托键位,ZLK为形托键位。 2.汉字结构: 上下(S)、左右(Z)、包围(B)、独体(D)、特殊(T),例如:“坐、褒”等。 3.单字输入规则: 音+首笔画+末笔画+(结构) 例:长CP(ND)、沙SD(PZ)、字ZDH(S)、海HD(DZ)、软RH(NZ)、件JPS(Z)。 其中“音”指汉字读音的首字母,“结构”为识别码,通常可以不输。 4.词组输入规则: 2字词:音1+音2+字2首笔画+字2末笔画 例:中国ZG(SH) 3字词:音1+音2+音3+U 例:计算机JSJ(U) 4字词:音1+音2+音3+音4 例:科学技术KXJ(S) 4字以上词:音1+音2+音3+音末 例:中华人民共和国ZHR(G) * 输完音后+‘-’(减号)则出词。 例:马上MS- 二、逻辑二笔码的鲜明特色 逻辑二笔码追求的目标是成为一种比拼音码还要普及的编码。它有如下鲜明的特点: 1、几乎不要学习。规则十分简单,拼音首字母、首末笔画、笔顺规范[2]以及汉字的基本结构几乎是全社会已经掌握了的东西,因而不需要重新学习,对于稍会拼音的人来说,几乎没有要记忆的东西。 2、几乎不会遗忘。因为不需记住什么,也就不会遗忘什么。 3、选重码不需翻屏。由于取码科学,加上字频技术,较好地解决了重码问题,能做到选字不翻屏,明显优于拼音方案,对绝大多数非专业打字人员来说是非常实用的。 4、词组输入极为方便。对于3字及3字以上词组,只需输声母。有望结合智能化实现只输声母的句输入。 5、码短,效率高。逻辑二笔码最多不超过4码,较之拼音和五笔画有明显的优势。 6、能使电脑键盘输入与手机输入统一(这是一个新目标)。当前除了拼音输入外,其他编码都未能做到这一点。 逻辑二笔码具有强大的社会基础,是一种普及型的编码,能像拼音码一样为千百万人所使用,它克服了拼音码拼不准、重码高、击键多的缺陷,吸收了拼音码无需拆分的整字输入优点,是一种比拼音更简单,更高效,更有广泛社会基础的实际而理想的系统。 三、逻辑二笔码的主要突破 1、一级简码的突破 逻辑二笔码在每个键位上都安排了10个一级简码。 其中第一个字是通常意义下的一级简码,另外9个则安排了对应声母开头的百家姓。这种安排有很大的实用价值,有207(23×9)个百家姓可以在一键下出字,可覆盖常用姓氏,也无须记忆。 例如,输入L,则有: 1 .了2.李3.林4.刘5.龙6.罗7.鲁8.吕9.梁0.陆 |
这样,既不破坏原有的一级简码,也可在一键之下输入绝大多数姓氏,大大利用了编码空间,极大地提高了人名输入效率。 2、重码方面的突破 重码问题与编码的理论空间以及空间的有效利用程度有关。 逻辑二笔码的理论空间为5888(23×8×8×4); 五笔画的理论空间为3125(5×5×5×5×5); 拼音码的理论空间仅为416(汉字共有416种读音)。 可见,逻辑二笔码在码短的前提下有很大的空间优势。同样在空间的利用效率上也明显优于其它笔画编码。 例如:五笔画(横、竖、撇、捺、折),根据1、2、3、4、末笔的取码原则,空间的有效利用并不大,前四笔通常只能表示部首,如“王”、“木”等。而一半左右的汉字,其部首的笔画超过4笔,如“石、虫、鸟…”等等。 以“王”旁为例,在《新华字典》上,以“王”归部的汉字有157个,假设前4笔能把含有其它部首的字都滤掉,选出157个含“王”旁的汉字,此时仅剩下1位编码来选出目标汉字,其平均重码就有31.4(157/5)个。以“木”字为部首的汉字则多达455个,平均重码为91(455/5)个。 而逻辑二笔码则是综合了拼音码和笔画码的优点,每一位取码都有很高的效率。有效地克服了拼音码和笔画码重码多的缺点。是一个非常巧妙和实用的系统。 3、词处理的突破 笔画码是很难处理词组的,例如五笔画采用了8键输入一词的规则,拆字麻烦,击键次数太多,效率很低,逻辑二笔码则采取了4键一词的规则,实现了整字声母输入,避免了汉字拆分,如二字词中,有一字需要笔画拆分(往往仅需拆分首笔),三字和三字以上词则完全输入声母(读音的首字母),如“计算机”只需输“JSJ”等等,使词组输入非常方便,脱离了其他笔画码处理词组的通常模式。其编码空间也很充分,分别为: 二字词:23×23×8×8=33856 三字词:23×23×23=12176(空间效率很高,音1+音2+音3+U的方式能屏蔽掉三字词以外的字和词) 四字及以上字词:23×23×23×23=279841 4、句处理的探讨 逻辑二笔码词组的定义方式是很有特色的,尤其是二字词组,例如“计算(JSPS)”的前二码为拼音首字母,这样使逻辑二笔码向声母化的句处理迈进了一大步。 例如:“领导(LD)我们(WM)事业(SY)的(D)核心(HX)力量(LL)是(S)中国共产党(ZGGD),指导(ZD)我们(WM)思想(SX)的(D)理论(LL)基础(JC)是(S)马克思列宁主义(MKSY)。”这句话,我们用逻辑二笔码,只输入声母(每字一键),通过选词是完全可行的。由此可见,逻辑二笔码加上一定的基于理解的智能化处理,只输声母的句输入是可能的。这为句处理指出了一个方向:声母输入。这是键盘输入的一种理想状态。 另外,用声母输入句子,有很大的空间,如5个字(5个音首字母)的句子,就有6436343(23×23×23×23×23)个,即6百多万个。这样,大型语料库及统计语言模型将使这种方案成为可能。 这样,逻辑二笔码就有了字、词、句的处理能力,因而是一个完备系统。 5、不认识字的输入 逻辑二笔码采用了音形结合的办法,当输入不会读音的字时,用“I”来代替音,即采用“I+首笔画+末笔画+结构”的规则输入汉字。虽然空间较小,只有256(8×8×4),按一屏显示10个汉字,则共可不翻屏选择2560个字,逻辑二笔码在这个空间上将生僻字排在前面,即按字频的逆序排,可减少一些选字负担。这样弥补和克服了拼音码不认识的字无法输入的缺陷。 四、逻辑二笔码的设计原则 1、取码尽量简单 逻辑二笔码结合了拼音码和笔画码的优点,既不需要准确严格的拼音(仅取字音首字母),也无需对汉字进行太多的拆分(仅取汉字的首末笔画)。采取“字音首字母+字形的首笔画+字形的末笔画+(字结构)”的单字输入规则,而字结构只起识别作用。因此无论从音或形的角度来说都是最简单的形式了。这种取码规则的简单性是其它笔画编码方案难以逾越的。 2、笔画分类尽量科学 汉字的笔画有28种 [3],如何对笔画进行科学的分类,是笔画码的关键所在。一般将笔画分为5类,即横、竖、撇、捺、折。 而逻辑二笔码将点、捺分开,把“折”细分为横折、竖折、撇折,共分8个笔画:横、竖、撇、点、捺、横折、竖折、撇折。 后三者很容易从笔画名称中抽象出来: 横折:横折、横折提、横折弯、横折钩、横折弯钩、横折折撇、横折折折钩、横撇、横撇弯钩等。 竖折:竖折、竖折撇、竖折折钩、竖弯、竖弯钩、竖提、斜钩、卧钩等。 撇折:撇折、撇点等。 这样分类既符合文字学笔画原则,又能增加编码空间,使重码减少。同时,手机上的8键正好与此吻合,这样就实现了信息处理用的科学的笔画分类原则。 下面是国标6763个汉字的首末笔的分类统计: 笔画名称 代码 出现次数 占总次数的百分比 横 H 3919 28.98 竖 S 2130 15.75 撇 P 1873 13.85 点 D 2974 21.99 捺 N 1244 9.20 横折 Z 440 3.25 竖折 L 647 4.78 撇折 K 294 2.17 13525 100 3、学习记忆量最少原则 在键盘映射上,5个采用音托的方式:横(H)、竖(S)、撇(P)、点(D)、捺(N);3个采用形托的方式:横折(Z)、竖折(L)、撇折(K)。 这种笔画名称与键盘代码有很好的关联性,因此记忆量很少,且不易遗忘。大量的实践表明,有少量拼音基础的人(成年人、学生),对8个笔画及代码,一般都能在1~2分钟内记住,没有任何记忆负担或心理障碍,故它实现了学习与记忆量最少的原则。 五、结束语 电脑的普及正以加速度的方式进行着,在电脑汉字键盘输入方面,普及率最高的还是拼音输入法,但拼音输入法的缺陷也是明显的,拼不准、重码高、击键多是突出的缺陷。 手机在中国普及的速度则更为惊人,手机上的输入主要是笔画码,而短信息输入,Email输入都要求有一定的速度,笔画码的效率不高问题已日显突出。 逻辑二笔码能集电脑键盘输入与手机输入为一体,克服了拼音输入与笔画输入的缺陷。成为比拼音码、比笔画码更优的普及型编码。 寻找一种为千百万人所使用的比拼音码、笔画码更优的普及型编码是汉字键盘输入领域的理想,而逻辑二笔码正是这种理想的普及型编码。 逻辑二笔码适合于大规模的成人电脑汉字输入的“扫盲”推广。它的字、词甚至句处理能力,以及众多突出而明显的优势,将使这种编码获得比拼音码还要广泛的社会基础,因而有更为远大的前程与未来。 参考资料 [1] 周文斌.“逻辑拼形码”通过鉴定.北京:光明日报,2001.5.1. [2] 国家语言文字工作委员会标准化工作委员会.现代汉语通用字笔顺规范.北京:语文出版社,1997. [3] 许嘉璐等.现代汉语模范字典.北京:中国社会科学出版社,2000. |