部首号码法的技术与应用 陈培基 福建人民出版社 【摘 要】部首号码法根据汉字是用笔画写成的特点,把5种基本笔画形成含有大量复笔的全套笔形,以“单奇复偶”方式,用1~9九个数码予以代表,使全套笔形的次序与基本笔画的次序相一致。用于查字法时,实行以位于起笔部位的字片为部首,使方块形、结构复杂的汉字,按照基本笔画的次序,排成既分部集中,而又互相连贯的字序。用看笔形就能知道各字的次序和位置,使查检大为方便。用于输入方案时,成功地实现用数码法和小键盘进行输入汉字。新版的部首码,无论简化字或是繁体字,所有通用单字和数万条词语,最多只用5个数码就能输入,而且全不同码,使汉字能适用手机、信息电话进行传输,成为比拼音文字更加简便、快捷的文字。在全球化时代,汉字又能与时俱进,依靠自身条件把输入计算机成为轻松愉快的事。部首号码输入法将与汉语拼音输入法一同为使用汉字的人们服务。 信息时代的大事 当今是信息网络时代和经济全球化时代,要适应当代生活,必须使本民族的语言文字能以电子计算机作为载体进行传输,而且,务必成为简便快捷的事。因此,能不能使汉字简便快捷输入计算机,是使用汉字的中国人能不能轻松愉快地适应当代生活的大事,也是中国的现代化建设能不能更加迅猛发展而又少付人力、物力的大事。 汉字的特点与输入方案的产生根据 汉字的纲领是部首,几千几万的汉字,按部首归纳起来,只有一两百个部首。汉字的基础是笔画,所有汉字都是一笔一画写成的。汉字的笔画只有十几种,其中横、竖、撇、点、折最重要,使用频率最高,是基本笔画。 计算机键盘有26个字母键和两组十进制的数码键。汉字不是拼音文字,不能直接使用字母键进行输入。现行的许多方案,是用每个字母代表若干“部首(字根)”,让26个字母,代表200 多个部首,把它们记住了,才能进行输入。要做到这点,并非易事。因此,除了专职人员,是不乐意下工夫学它的。字根编码的方案虽然能把汉字输入计算机,但是不能把汉字输入计算机成为轻松愉快的事,因此,不能被广大群众所接受。 能不能以笔画为依据,运用十进制的数码键把汉字输入计算机,而且成为轻松愉快的事呢?能,我走的就是这条道路。 我走的是数码化道路 数码法是检索和传输最简便快捷的方法。首先成功使用数码法对汉字进行查检的是王云五发明的“四角号码查字法”。王先生选用十种笔形,根据汉字是方块形的特点,按左上、右上、左下、右下的次序,各取一个号码,把汉字按照四角的号码,由低而高进行排列和查检。这种方法免掉数笔画的麻烦,是很方便快捷的。但是,把同部首的字打乱了,不符合汉字的结构规律。1956年,我把四角号码查字法的取码规则改为以“部首”的中心,使汉字既可按部首分部排列,又可用数码法进行查检,因此,称之为“部首号码查字法”。1960年讨论汉字查字法问题时,“部首号码查字法”被选为推荐方案,刊载于1962年七、八期合刊的《文字改革》上。1976年,我看了《文汇报》对支秉彝“见字识码”方案的报道,又想到以双拼为基本,用四角号码的笔形代号取1~2个数码的方法,来区别同音字,从而推出“拼音附号式中文字码”。1985年拼音附号式中文字码由苏武荣同志编成软件,参加全国文化成果展览会后,被新闻出版署评为科学技术进步奖。1956年搞的“部首号码查字法”和1976年推出的 “拼音附号中文字码”是我走数码法道路的两次尝试。 部首号码法的技术与在查字方面的应用 1989年,中央电化教育馆和高等教育出版社组成的电教联合公司要求我把部首号码查字法改编为部首号码输入法,经过长时间深入研究,我明确地认识到:要科学合理地运用数码法解决汉字的查检与输入计算机的问题,一、笔形的筛选和代号的规定必须符合汉字的书写情况和笔画规则;二、取码规则必须符合汉字的结构规律和书写规律。 根据汉字是用笔画写成,而基本笔画只有5种:横、竖、撇、点、折,我用5个奇数:1、3、5、7、9予以代表;另外用4个偶数:2、4、6、8分别代表由横、竖、撇、点构成的复笔。即:横和竖构成的十,和有笔画穿过的横,用2代表;竖和折构成的冂 、口和冖,用4代表;撇和捺构成的八、人、ㄨ,撇和折构成的 、勹、 ,都用6代表;点和点构成的羊、米、忄、火的前两笔,点和折构成的讠、礻、衤、辶,都用8代表。这样的一套笔形,包含了所有基本笔画和由基本笔画构成的大量复笔,不仅复盖面大,效率高,而且按单笔带复笔的原则,以“单奇复偶”的方式确定代号,使全套笔形的次序与基本笔画的次序相一致,正如拼音文字的字母按字母表进行排列一样。笔形号码法的关键在于笔形的筛选和代号的确定,因此,这是部首号码法最重要的技术。新版部首码做到所有通用的单字和数万条词语全不同码,可以充分证明这套笔形的优越性。 全套笔形的次序与基本笔画的次序相一致的做法有什么好处?最大的好处是:用于排序时,能使所有排列的字,形成按基本笔画的次序而互相连贯的系列,像一条龙似的。如果再实行这样一条规定:部首一概以位于起笔部位的字片为准,于是,就能使方块形、结构复杂的汉字,按照基本笔画的次序排成既分部集中,又互相连贯的字序。查找时,只要记住9种笔形代号和同代号的若干复笔的次序,用看笔形的方法,就知道各字的次序和位置,这是多么方便的事。《部首号码多用词典》就是按上述方法排检的,是部首号码法在查字方面运用的样本。请有兴趣的专家学者们多多指正! 部首号码输入法与拼音号码输入法 部首号码法是查字与输入计算机基本一致,两者通用的方案。由于查字法与输入法的任务毕竟有所不同。因此,用于输入计算机时,为了降低平均码长和同码率,需要增加一些笔形。我的做法是:一、增加一种复笔亠,代号与丶相同,也是7;二、根据起笔的不同,折可分为横起折、撇起折和竖起折。横起折和撇起折的代号还是9,把竖起折的代号改为8;三、把横被两竖穿过的艹、廿、甘、其等笔形,从2系列分离出来,代号分别定为3、32、33、34。至于取码规则,为了符合汉字的结构规律和书写规律,最初的规定是:独体字按笔顺取,合体字先部首,后偏旁,部首取前两个笔形为代码,偏旁按笔顺取1~3笔形为代码。实践证明,对于部首号码输入法,一、二年级的小学生和六、七十岁的离退休人员,都能很快学会。因为它既不必死记一、二百个字根用什么字母代表,也不必了解26个字母的键位在哪里。“单奇复偶”的笔形代号和与语文知识相一致的取码规则,一讲也就明白。 但是,这套笔形代号和取码规则,我却是经过六个寒暑的努力,才搞出来。通过专家评审后,我向国家语委汇报。国家语委在1995年3月27日给我复信,除了对部首号码查字法的特色和部首号码输入法的优点给予适当肯定与热情鼓励外,特别指示我拼音输入法的重要意义。因此,我把1976年搞的“拼音附号中文字码”,改为拼音号码输入法,以“部首号码输入法兼拼音号码输入法”的名称,参加1995年7月中国专利局在北京举办的第三届中国专利技术博览会,结果荣获金奖。后来又参加96福建科技成果展示交易会,也获金奖。1997年由福建省教育学会计算机研究会主持,在福州市部分中小学试教,效果优良,被评为适宜中小学教学的优秀输入法;担任试教的福州师范第二附小教师高雪琴的总结《小学生为什么喜欢部首号码输入法》也被评为优秀论文。 这里把“拼音附号中文字码”,改为“拼音号码输入法”的情况说明一下。除了把区别同音字的方法由用四角号码的笔形代号改为用部首号码的笔形代号外,还把笔形的键位由数字键改为安排在字母键的中排,横、竖、撇、点、折的代号分别置于G、F、D、S、A的键上,横、竖、撇、点的复笔代号分别置于H、J、K、L的键上,使击打较为方便。在拼音方面,拼音附号中文字码是采用以“声韵双拼”为基本;而拼音号码输入法则只用声母或单韵母。同音者:单字取1~3个笔形进行区别;如:现X/g 代D/d 化h/d 。两字词语取1~2个笔形进行区别,如:现代XD/gd;三字词语取1个笔形进行区别,如:现代化XDH/g。由上可知,运用汉字的笔形来区别同音的字和词语,可使其输入变得更简单方便。因此,2000年在济南举行“信息网络时代中日韩语文现代化国际学术研讨会”时,再次在研讨会上介绍。 总之,部首号码输入法和拼音号码输入法是部首号码法在输入计算机方面的应用。前者是我国首次成功使用数码法和小键盘进行输入汉字而获奖的方案,开创了汉字输入法的新纪元。由于符合汉字规律,与语文基础知识相一致,以0~9为码元,用小的数码键盘输入,无论是一、二年级小学生或是离退休人员,都能很快学会,因此,肯定会受到广大使用汉字者的欢迎。拼音号码输入法利用汉字笔形简单的优点来解决汉语同音字多的难题,而且对词语的输入采用缩略式,能提高效率,也有可能被使用拼音输入法的人们所接受。 新版部首码将使汉字成为传输最简便快捷的文字 我在福建省科技馆多次举办讲座,都很受欢迎。但我并不满足,仍继续努力优化。最新版本的部首码,规则更简单,处理更高明 。单字只取1~3个笔形;词语每字取2个笔形,三字以上的,再从末字加取1个笔形。以上处理,最大码长还是5位数,却做到了GB2312-80全部字符和数万条词语(可增至八、九万条)全不同码。下面举些例子看看: 中3 华55 中华3055 中华民族30557 中华人民共和国30554 福814 建992 省384 福建8199 福建省81993 福建省人民政府81997 信57 息548 信息5754 信息处理57541 信息产业57543 信息产业部57547 信息中心57548 信息网络57549 联想1824 希望6276 方正76131 实达78826 西门子14739 爱立信50786 摩托罗拉72253 诺基亚83341 奥地利54295 俄国5541 俄罗斯55433 印尼5991 印度尼西亚59731 法国72412 法兰西72811 澳大利亚75261 意大利78265 美国81411 加拿大94612 先进的拼音文字能用数码如此简便、快捷地输入计算机吗?那是很难的。 当前手机是很普遍了,信息电话正在出现,如果厂家把部首码嵌装进去,一定会受到广大用户的欢迎,让大家感受感受古老汉字的传输比先进的拼音文字更加简便快捷的感觉。将来还可能生产携带更加方便的十个数键的中文计算机,那更是令西方人羡慕不已。 十个数键中文计算机的构想 1995年,我以“部首号码输入法兼拼音号码输入法”的项目参加第三届中国专利技术博览会时,在参展资料《答记者问》中,就说:“我相信会有厂家采用部首码生产64开本字 典式十个数键的中文计算机“。我以为,生产这种计算机时,关于拉丁字母的配置,必须根据汉语的特点,把1、2,4、5,7、8,0等键定为声母区,把3、6、9等键定为韵母区。其先后次序依据本人在中国信息学会汉字编码专业委员会第三次学术年会发表的论文《汉语拼音键盘的设计》中的数据进行排列,高频的在前,低频的在后。具体情况,参见下列右图,左图为部首码使用小键盘的键位图。 部首码笔形键位图 十个数键中文计算机键位图 键位如上安排的十个数键的中文计算机,既适合于部首号码输入法的使用,也适合于汉语拼音输入法的使用。由于声母与韵母分区和按照使用频度的高低进行安排,不仅键位容易掌握,而且效率高,能减少击键的平均次数。 港澳台地区也能享受部首码的好处 由于汉字难写,人民政府在1956年开始大力推广简化字。从《简化字表》看来,一共简化了2338个字,约占现代汉语通用字的三分之一。在简化前,那些字的平均笔画是13画左右,简化后,只有9画左右,书写时,大约可节省三分之一的时间。由于众所周知的原因,香港、澳门和台湾地区没有实行汉字简化,为了满足上述地区同胞的需要,新版的部首码有繁体字版本。在繁体字版本里,笔画再多繁体字,每个词语的代码也都是4~5个数码。例如:“台湾”一词,简化字是17画,代码为9777,而繁体字是39画,代码是2179;又如:“科学技术”这个词组,简化字一共28画,代码为58852;而繁体字一共45画,代码为58565。若是“科学技术是第一生产力”这个短语,两者的代码则分别为:58859和58569。总之,从写字的角度来说,新版部首码把汉字的书写变成十分简单,不论是简化字或是繁体字,每个词、词组以至短语,只要“写”它前面两字和末后一字的5个笔形就行了。有了繁体字版本,港、澳、台地区也能享受部首码的好处。 汉字又能与时俱进 汉字是有着三千多年的历史,虽然不是世界最古老的文字,但是,比汉字更古老的文字都早已消亡了,是硕果仅存非拼音的文字。在突飞猛进的全球化时代里,许多传统的、未能与时俱进的事物,迅速地被先进的、新生的事物所替代。古老的汉字能继续存在吗? 前面说过,各种以部首(字根)进行编码的输入法,虽然能把汉字输入计算机,但是,由于难学,不易被广泛接受。如果不能出现符合汉字特点,而又简单好用的方案,广大使用汉字的人唯有采用汉语拼音输入法。汉语拼音输入法是根据《汉语拼音方案》,把每个词语的拼写字母全部敲进去,由计算机智能地转换为汉字。它是比字根编码输入法优越得多,有如其他拼音文字输入计算机那样简便快捷,而且有促进普通话的推广和最后形成汉语拼音字的作用。不过,这样一来,汉字迟早要被汉语拼音字所替代。这是不为人们的意志所转移的。因为,这样的事实表明汉字不能凭着自己的条件而简便快捷地输入计算机。要简便快捷地输入计算机必须通过汉语拼音和依靠计算机的智能转换。换句话说,它不能适应时代的要求了,最终必将退出历史舞台;而替代者理所当然的是汉语拼音字。 现在,好了。成功实现用数码法和小键盘进行输入的部首码推出新版,常用字,只要敲1~3个数键,而词语,包括十多个字的词组或短语,最多只敲5个数键,而且所有通用字和数万条词语,全不同码。特别是:能够直接运用手机、信息电话进行传输,比起拼音文字还更简便快捷。因此,可以相信,汉字又能与时俱进,在全球化时代的激烈竞争中,不会被替代了。 部首号码输入法与汉语拼音输入法将如同鸟的双翼、车的双轮,相辅相成,一同为十三亿中国人和越来越多需要使用汉字的外国人服务,一同帮助大家轻松 愉快地通过先进的科学技术运用汉字进行各种交流。 |