汉字部件系统研究 接上一页 十二、部件类的编码(映射)方法分析 (一)部件类的最佳映射方法 编码方法就是映射方法。由于键少部件多,编码方法也就成为归类方法。 徐火辉先生谈部件类的映射,已经为编码方法做了较好的总结:“按照单笔画原理,作为部件的归类方式是可取的。它具备心理现实性依据。但如前所述,单笔画归类法,技术上效率太低。 按照笔画组合原理,作为部件归类的基本方式,一般是不妥当的。它缺乏心理现实性依据。…… 按照发音归类原理,作为部件归类的基本方式,一般是不妥当的。它缺乏心理现实性依据。并且有可能混淆汉字编码中两个不同的映射过程。 按照形态近似性原理,作为部件归类的基本方式,是合理的,有大量的心理实验数据和常识事实的支持。但应当避免把编码归类中的两个不同的映射过程相互混淆,不能把外文字母或数字的形态特点,作为汉字形态系统归类的基本框架,而应当按汉字部件自身的形态特点进行归类。⒂ 按上所述,最佳的映射过程是按照部件自身的形态特点进行归类。表形码之所以成功,正是按照自身笔画结构的特点,进行分型之后,再按形态近似性的特点集合,使之具有相同的特征归类。并按其特征与键盘符号的近似性实现映射。不过,它又突破了徐火辉先生的局限。徐先生认为“用于键盘输入的形态编码,存在两个映射过程。第一个是从单个部件(或更一般的形态元素)到部件类的映射过程,即部件归类。第二个是从部件类到键盘键位的映射过程,即部件类的键盘键位安排。这两个映射过程在本质上是不相同的,是相互独立的,两者不存在内在的必然的联系,不应当把它们相互混淆。”此话只说对了一半。“这两个映射过程在本质上是不相同的,是相互独立的。”“不应当把它们混淆”,说对了;然而,“两者不存在内在的必然的联系”此说似需商榷;如果此两者不存在内在的必然的联系,它们就无法构成一个完整的部件系统。表形码利用笔画结构进行分型,利用笔画结构特征进行分类同时建立映射关系,足以证明这两种映射关系“存在内在的必然的联系”。这种内在的必然的联系,能够使我们看到任何一个已知或未知的部件时,只要联想起它属于哪种笔画结构,归属哪种特征,就可以知道它的代码。 (二)最佳编码方法的判定 全国已有一千多种汉字编码方案,给部件编代码的方法只有四种。 1.用笔画加数字(或单用笔画,如郑码),如五笔字型; 2.用音,如见字识码; 3.用形,如表形码; 4.无理,如钱码。 编码方法就是给部件类找代码(映射)的方法。上述四种方法,哪种方法最佳?无理编码的随意性太强,应该首先排除;笔画加数字的方法是一种间接联系的方法。部件本身与键符不能产生直接的联系,转换速度太慢,难学易忘,也应该排除。只有第二和第三两种方法可以采用。 陈代于先生说:“有多种编码法,这里讨论会的主要有三种:取与部件最象形的英文字母或数字;取部件读音声母;取部件前两笔画的代号。我们认为判定部件编码法的优劣的标准至少有三条。 1.部件编码必须是根据部件自身固有的、隐含的信息制定的,二者有内在联系,否则难以记忆。…… 2.作为编码依据的、部件自身固有的信息必须确切,最好唯一。…… 3.编码必须易得。……读音就是基本编码,不要轻易舍‘基本码’而求他。”⒃陈爱文先生也认为“设计字形编码没有必要完全摒弃字音信息。”⒄表形码采用以形为主,以音为辅的编码方法,无疑是一种最佳的选择。因为尽管英文字母和汉字都有一字多形的特点,要使每个小类都能用形对应还是有困难的。 有的专家认为编码的方法有音托和形托,用音就应该统统用音,用形就应该统统用形,这个提法实际是把手段当成目的。编码的目的是使汉字转换为代码,用什么方法并不重要,重要的是它使学习的人记忆方便。有的人批评表形码,说它大部分都用形转换,但却有少数几个用音转换,造成使用者无所适从。好像编码的目的不是为了好学好记,而是为了音托或形托的纯化。我们认为,纯化当然是好,但键盘上的拉丁字母不是按汉字部件类的特征造出来的,无法就不能强求。把部件分为类这个类中的部件,它们的基本特征是不是一致,它们的代码是不是可以解释(即有理化),这是最主要的。把“木”解释为三条腿与“M”近似,或解释“木”的声母为“M”,这里有一个权衡的问题。因为,用三条腿来解释是很勉强的,不利于认知心理上的接受;用读音来解释却是有利记忆的,强求形托的纯度对记忆并无好处。 有的专家认为用音映射自然,用形映射有的很像,有的过于牵强。其实,利用形象上的近似性作为映射方法比之用音有一定优势。因为,字形不受方言的局限,也不受时间的局限。搞拼音码或音形码的人总强调音托比形托好,不知道全国知识界年龄大的这个层次,大多数人未学过拉丁字母的汉语拼音读法。有的人认为由于软件技术的进步,全拼输入已不再有速度上的问题了。这种想法,一、是以为将来大家都讲普通话,用拼音输入自然毫无问题;其二、将来大家都用计算机了,我们就不需要专业输入。其实,这个想法的缺陷有三: 1.尽管将来大家都能使用计算机输入中文,但不是不可能存在专业输入这个职业,将来还是需要一批专业输入员的。就如大家都能用笔写字,但仍然需要速记员一样。不过我们希望专业输入和一般输入都能使用相同的方法,以便于“从娃娃抓起”。 2.客观发展已经可以看出,计算机中文应用的普及速度,不可能等待拼音化的实现,这是拼音化时间的局限。 3.形码发展到表形码这个阶段,已经证明它有拼音输入不可替代的巨大的优势。 把部件按形的特征归于一类,如本部件清单的竖式多交叉类,特征是“中间一竖,两头穿通,至少有两个以上横笔交叉的”,这26个部件的总特征是两横一竖,以英文字母的“F”作代码。“F”当然不是两横一竖的交叉,但授课时进行这样的解释来帮助记忆并不是牵强附会。有的专家认为表形码用“S”代表双竖交叉类是杜撰臆造。我们认为,为部件类取代码,进行有联系的解释,不能要求做到如数学上的一一对应一样。形象有很相似的,也会有稍相似的,不可能绝对一样,毕竟只是“相似”,而不是相同。只要是直接对应的,用音用形都可斟酌。例如我们把双竖交叉类用“S”作代码解释时说这个像“”,抽掉两个竖笔即是“S”;也可把“H”作代码,解释时说这一类都有两个竖笔。这种代码方法称之为有理化,即它们的联系有道理可以解释。至于用什么好,要作全面的分析。在一个编码系统中,部件类的代码方法,用形用音各有优劣,可以用统计记忆量的方法进行比较,决定取舍,不要依凭主观判断;用“S”或“H”作代码,可以对它们记忆所需的记忆量、分类系统的整体性、分类方法的科学性和部件结构的一致性,进行有依据的评估。形象映射例字和说明见附录。 (三)随时可变的编码方法 上面所述,已可以说明一个方案,可以产生多个版本的编码方法。编码方法被误认为“发明”,造成了“编码污染”,现在我们不得不把这个“发明”剖析一下,说明这个“发明”并不困难,并不神秘,如果您有兴趣,明天就可以成为几个新编码的发明人,请看下表: 名称 | 部件 | 代码 | 理由 | 代码 | 理由 | 代码 | 理由 | 横 | 一 | A | 形义均同 | 1 | 按笔形序 | H | 笔形声母 | 竖 | 丨 | I | 形状近似 | 2 | 按笔形序 | S | 笔形声母 | 撇 | 丿 | J | 形状近似 | 3 | 按笔形序 | P | 笔形声母 | 捺 | | N | 读音声母 | 4 | 按笔形序 | N | 笔形声母 | 点 | 丶 | D | 读音声母 | 5 | 按笔形序 | D | 笔形声母 | 竖折 | 乚 | L | 形状近似 | 6 | 按笔形序 | S | 笔形声母 | 横折 | 乙 | Z | 形状近似 | 7 | 按笔形序 | H | 笔形声母 |
上面表中列出了七种笔形的三种编码方法。第一种是以形状近似为主,以读音为辅;第二种以笔形序代以数目字;第三种以笔形序数的读音声母为主,辅以与序数形状近似的拉丁字母。这三种方法还可以相互揉合,也可以把“捺、点”“竖折、横折”合并,都可以出新的编码方案。又如表形码 的1-5个数字代码,也可以改成“ABCDE”,也可以按形似和读音改为拉丁字母。以上所述的七种笔形三种代码方法就可以组合出不少的编码方案。我们还可以把以上部件清单中各个部件类中的某些部件重新安排。因为,有的部件有两三种特征,例如“、”,既可说是四个分离的笔画。代码为“D”,也可以说它们是两个对称相离的笔画结构块,代码为“X”。又如斜钩相交的“”类,现用“S”为代码,解释时说,“戈”的草书与“&”形似,反过来,与“S”手写体形似。用“X”为代码也可以说得通,因为,“”是个单交叉,像“X”;如“”既可用“I”为代码,也可以用“j”为代码。这些对应方法再加上没有定数的部件(字根、部首),一个“万码奔腾”的局面自然形成。由是可知,鼓吹编码方法的“百花齐放”,授予编码方法以“专利发明”,只能使编码方案越来越多,导致无法遏止的编码大潮。说穿了,编码根本不是技术,不是发明,是学术界把它们弄错了。 为部件类设置代码的优劣,主要标准是映射关系的直接性和代码自身的系统性,这两者都可以使部件代码实现易学易记。例如上述“ABCDE”置换“12345”,记忆感觉同样方便,假如一个一个地拆散置换,记忆就不方便。这就是系统性对记忆的影响。又如表形码使用字形对应设置代码,思维转换感觉就快,“五笔”用笔画转换为数字,数字再转换为键盘符号,头脑中转弯多,感觉就慢。这就是直接转换与间接转换的优劣比较。 十三、一级字库中二部件字的重码分析 重码率曾一度成为编码方案优劣的一种测定依据。许多方案设计者和一些信息专家都认为重码对输入速度产生负作用。有的专家曾经为了减少一二个重码,不惜日夜操劳,重新统计方案中的数据,其敬业精神固然可嘉,但却劳而无功。笔者将表形码的31个码元,改为26码元,用“ABCDE”取代“12345”,有人就怀疑这么做是否会增加重码率?它对输入速度会产生何种影响?为此,笔者将汉字拼形字母系统的重码,作了一次认真的分析。为了节约篇幅,本文只对国标一级汉字库中的629个二码字(即二部件字)作出分析。因为,二码字是整个部件系统中重码最多的一部分,有代表性。三码字、四码字以上,重码越来越少,分析的机理一样,因此可以类推。 二码字即只含有二个部件的汉字,自身只能产生二个代码。26个码元如按两码组合,最多也只能产生676个不重码的汉字。由于部件相拼组字的不均匀性,它们自然就会产生许多重码。尽管在一级汉字库中二部件字仅628个,重码字竟多达410个。重码,也有人称之为部件同码,因为只有部件相同,再加上区别码是可以大大降低其中重码的。我们认为,这些重码,对输入速度不会产生很大的影响。其理由是: (一)使用频度差异很大,这对重码率来说,是决定性的。因使用频度的差异,重码中属于一级字库的字数就不会占很多,一般不会超过4-5个,在熟练使用的过程中很容易记住,同样可以实现盲打。因此,不能构成对输入速度的影响。此即谓“重码的可容忍性”。即使都是一级字库的字,也有使用频度的不同,差别也很大,有的很高,有的很低,真正使用的人,才会体会这种“可容忍性”与输入速度的关系。所以,一些专家,自己没有使用电脑输入的经验,体会不到这种“可容忍性”的存在,在重码这个问题上,往往以讹传误,鹤唳风声,苛求低重码方案,引错方向。某些设计者也因扩大字符集而害怕重码过多,把每字的码位拉长至五码,也是犯了无视重码的“可容忍性”之错。因为,除一级字库之外的字,它们的使用频度极低,即使偶然用到,花一二秒钟时间看一下屏幕,影响不了总体的输入速度的。 本表的字级统计是根据蒋文钦先生主编的《表形码编排汉语字典》得到的。分为四个级次,即:1.常用字2500个,2.次常用字1000个,3.一般通用字2500个,4.四级罕用字1133个。汉字由于使用频度高低相差悬殊,有一百个高频字就占使用频度48%,2500个一级字则己占使用频度的99.1277%,1000个次常用字占使用频度的0.74%,其余的字仅占0.132%。(引自北京语言学院出版社《现代汉语频度词典.汉字频率表》1300页)它们的级次使用频度相差如此悬殊,故作为重码,只要让高频字先上,一点也不影响输入。因此现在的任何方案的输入软件,都有简码和高频先上两种功能。 (二)读音不同。《二部件重码字使用级次、读音分析表》(见附录)说明一级字库中的628个二部件字,作单字输入时,1对1的有104组,除去字级差异的78个重码字,同一字级的用这些字的读音声母第一个字母补足到四个代码(即使用读音作区别码),余下三对(之字、艺孕、抽扯)不能用字级和读音作区别的重码字。这些重码字根据情况可以采用简码出字、组成词组和记忆解决。 (三)记忆区别。一组重码字,如果字数只有二三个,完全可以在输入学习时记住。计算机在输入时遇到重码,有音响提示,新手输入或非专业输入者,经几次提示后,即可自然记住,待作职业输入(即要求有速度)时,这些重码,对他们已如数家珍,不需看屏选字了。除输入者自己记忆外,现在的输入软件,也有自动记忆功能,能把重码字中的字记住,让它优先上屏。 (四)词组区别。我们在计算机上写文章,百分之五十可以使用简码打进去,即一键一空格出一个字。百分之四十五以上是词组出字的。单字组成词组,代码重新组合,编码设计者还可以主动利用简码和自定义词组消灭绝对重码。由此可知,单字重码对输入速度来说几等于零。 二部件字在输入时只要打两键,再打一空格(相当于半键),增加一个数字选择键,省打两个拼音区别码,也只要三个半键。由于各人的专业不同,所写的文章常用词组各有不同,软件的记忆功能可以根据各自的需要让高频词组或高频字先上。可节省时间,提高输入速度。 现在还有一些新的编码“发明”人在宣传自己所创的新码的重码率是如何之低,输入速度是如何之快。这是因为信息界某些权威,并未完全理解86年的评测,把重码率和输入速度作为重要指标,混淆了汉字编码和汉字键盘输入法两个不同的概念所致。有人习惯于“肯定成绩,指出缺点”的思维程序,似乎不讲成绩,就是与他们过不去。我们认为,成绩是客观存在的,是过去的,没有必要多提。因为,躺在成绩上就不能前进。缺点是现在的,因为不知道缺点,就不能知道前进的方向。汉字编码方案的设计是一门学科。新学科需要建立新概念。这些新概念对于我们任何一个人都是陌生的,混淆或者疏忽难以避免,当然也谈不上失面子。 就是最近,有人还没有摆脱编码设计初期的思维方式。那时输入软件只打单字,重码对输入速度影响确实很大。但随着编码方法和输入法的进步,重码对输入速度基本不起作用了,心态却没有平静下来,还滞留在“一朝被蛇咬,三年怕草绳”的状态里。有的人还没有理解未成熟形码的重码,完全可以用无理编码来消除的,因此,可以判定:形码的重码率作为测定汉字编码优劣的依据,是不准确的。理由是: (一)由于汉字的使用频度差异太大,同样的重码率有完全不同的结果。例如在表形码中“无、兀”,代码都是“1W”,“无”是常用的,而“兀”,有的人一辈子也用不到,对他们来说,这样的重码,有多少都不足道。 (二)通常我们讲的重码率都是静态重码。既然测定的数据是静态编码的重码率而输入时则是动态的,所以,静态重码无法准确测定动态的输入。而且,静态重码还可以通过输入法而消除。例如表形码的“人、入”是绝对重码。但在输入时,“人”属高频汉字,用简码输入了,余下的“入”,也就不存在重码了。 (三)不成熟的编码以无理编码方式增加某些人为规定解决重码,它的重码统计是不能作准的。 十四、部件类和部件的排序 上面部件清单中的部件类,在其结构类型中的每个类和每个类中的部件,都已经排好了序位,各位一看就会明白。少数类别的部件数量不多,大多数类的部件,都在五个以上,最多达 26个。但要把369个部件统统记住,还是比较困难的。有的部件使用频度组字频度都不高,更容易忘记。如果我们能利用系统记忆的方法,先记住分类系统的七个型,再记每个型的特征类和部件数,就比较容易了。全国几百个形码方案,除陈爱文先生的表形码外,没有一个编码方案能够拿出一张部件清单来的。其原因在于部件没有定义,或者,设计者无法使定义与拆分、分类联系起来。 部件以其特征归类,特征一致,只是字形稍有变异。同时,由于采用形象对应配置部件类代码,记住部件类特征,也就等于记住了代码。因此,我们记住部件的分类系统之后,接着就必须记每个类的类的部件。如果我们能够给每个部件类的部件排序,使其有一定的序位,前后有一定的关联,就可以减少记忆量。记住每个部件类的部件和特征,看到任何一个字,就可以很快编出它们的代码,不会再存在拆分或编代码时的二义性了。这就是部件的可预知性。 排序的方法可以由少到多,由多到少;由小至大,由大至小,使其左右部件,构成相互联系,从而带来联想。 部件类以字形特征得以集合,部件以字形变化得以区别,因此,我们称利用这种变化关系来排序的方法,叫做形变序。产生形变序的原因有以下几种: 1.笔画数:如“大、夫、”,“大”字上的横笔递增; 2.方向:如“冫”上下左右的方向发生了变化; 3.笔形:如“十力”,竖、撇、折,笔形发生了变化; 4.笔形量:如“、目、且”,笔画数相同,笔画长度递次增长; 5.字形:如“刀、乃”,单折变复折;又如“、口”,三面包围变四面包围; 6. 交叉:“皿、田”里面都是两笔,由分离变交叉。 笔画数的多少是可以明白的;方向没有多少和大小的区分,一般都对称出现,可按上、下、左、右排列;其余的按下面方法确定区别顺序: 笔形:按横<竖<撇<捺<横折<竖折排列; 笔形量:按短<长,即“<目<且”; 字形:平笔(横、竖、撇、捺点)<单折<复折<半包围<全包围; 交叉:无交<有交,即“皿<田”框里面都是两笔,一为无交叉,一为有交叉。 还应规定笔形量的长短变化<笔形的改变<笔画数的增加,即“女<夂<及<攵” 横笔改为撇笔等是笔形的改变,三笔变为四笔,是笔画数的增加。 经以上排序后,学习部件类,利于联想,不仅会降低记忆量,而且可以加深理解汉字的结构规律。另外还有一些部件不能归入以上排序方法的,它们有对称性的变化:(1)笔画互换,如“、”,(2)方向互换,如“小、⺌”,序位成对安排;有的只能利用上下位安排,记一等于记二,也可以减少记忆量。总之,部件的变化复杂,无法用一种方法勉强统一。排序的目的是为减轻记忆负担,只要能够减轻记忆量,就不应当拘泥于某一种方法。有的类别中有个别部件不能入类,作为附带,放在最后。有的类利用关系字组成有意义的语句,记住一句话,把部件记住。但这种方法,只适宜用于有理解能力的高年级学生或成年人,不宜在低年级教学。 部件类按型分开后,也按上法排序: 单笔型六个类按笔形排序:“横、竖、撇、捺(点)、竖折、横折”; 相离型六个类先按笔画数:“2、3、4、5”排成四类,再把“对称、点竖相离形(i形)”排在后面; 相交型七个类按:“单交叉、多交叉(横、竖、折)、混合交叉”排成:“单交叉、横式多交叉、竖式多交叉、双竖交叉、横折交叉、竖折交叉、斜笔交叉”; 四面包围型六个类按包围框中的笔画数排成:“当中空、当中有一横、当中有二横、当中有竖笔、框左一笔下垂、包围框不规则”; 三面包围型八个类按开口方向:“上、下、左、右、斜”,排了五类,余“中夹一笔、D形框内封闭、G形框内封闭”; 相接型七个类按拉丁字母的序,为了押韵,稍加变动:“J形、K形、Q形、V形、W形、S形、Z形”,利于背诵; 字架型八个类分为两部分:左右配对“大、木、虫、儿”,中间加上“头里有”,即成了“大木头里有虫儿”;字架型第二部分以通挡排序,即“上挡下通、下挡上通、两头挡住,两头俱通。”每个类中的部件按字形变化排序表如下(即部件序列表): 相交型部件类序列表 单交叉类部件:X 部件序 | 乂 | 十 | | | | 力 | | 九 | 说明 | 原形 | 竖 | 竖钩 | 撇 | 横折 | 竖折 | 横折钩 |
横式多交叉类:H 部件序 | 艹 | 廾 | 廿 | 甘 | 卅 | 世 | | 册 | 说明(笔数) | 2笔 | 3笔 | 4笔 | 注 | 以竖笔数为序 |
十五、部件的归并——原形部件和变形部件 字音和字义都是不能拆分的。把“吕”拆为两个“口”。不是字义的拆分,也不是字音的拆分,而是字形在拆分,所以,这种拆分不存在理据问题。这两个“口”,从字形上说它们是由三个笔画相接而成的、一个方形的书面符号——部件;它们不再是有读音的“口(kou)”;也不是有字义的“口”。就好比“昌”,拆为两个“曰”。你说它是“日(ri)”?或是“曰(yue)”?我们认为都不是,只是个由笔画构成的方框,中加一个横笔的书面符号而已。 我们曾在《汉字编码设计学》的第100页,以现代部首检索中的一些实例说明“部首检索正在向字形检索演变”。其主要例子有二:一是指以笔画数给部首分类,二是指以字形相似的进行合并,此二者与许慎本旨已大相径庭。但是,这种改变却能使部首检索更容易使用。这个问题给我们两个经验:一是文字研究以使用的方便为目的,笔画数分类和按字形归并,减少了汉字检索的麻烦。从字形出发,进行研究汉字的有序化,的确是一个有效的途径。 汉字有形、音、义三个部分,义即是信息,是它的核心;形、音是它的外壳,是表达义的物质形式。由于汉字的单音节性以及常用字的局限,我们无法使用汉字的读音实现汉字的有序性,因此才有了字形编码(拆分汉字)的实践热潮;因为字形编码需要拆分汉字,因此,才有了部件这个新概念的出现。 我们还曾在《汉字编码设计学》的第114页对“部件”这个命名的现实意义作了说明,其中指出:“它摆脱了字义、字音整体性的干扰”。这表明汉字的形、音、义的研究应各自独立。当前的部件的研究,就是“独立的”、纯字形性质的研究。 同样,书写笔顺、字型结构、部件笔画结构、部首归并等等,都属于纯字形的范畴。过去我们利用字形信息在实际应用上做了一些工作,却没有在理论上加以归纳,加以研究,只知道应该这么做,却不知道为什么要这么做。所以,对上述这些问题的研究,都是零零碎碎的,仅仅是方法上的,例如部首的归并。因为本文着重讲的是部件的归并,才特举费锦昌、黄佑源、张静贤等三先生编著的《汉字写法规范字典》一书的部首归并为例。此书与《新华字典》所采用的归并方法大同小异。《汉字写法规范字典》共使用了253个部首,其中归并的25项,含有31个部首。从方法来说,可以分为按字形归并和按字义归并,如下: 按字形归并 按字义归并(括号内是被归并的部首) () 讠(言) 乙(⺄) 刀(⺈) 卜() 饣(食) 冂() 纟(糸) 八(丷) 爪(爫) 人(入) 钅(金) 几() 羊(⺶⺷) 土(士) 丬(爿) 彐() 己(巳) 小(⺌) 天(夭) 廿() 日(曰) 肀(聿) 田(由申) (亦) 从以上归并中可以看出,把“”归在“”部,把“”归在“彐”部等,在字形上或字义上都无理可讲。说明这种部首归并法,没有任何规则为依据,不仅混乱不堪,而且,还自相矛盾,例如左右两个“阝”,形状完全一样,反而分为两部,虽有字理为据,但检字者有几人是知道字理的? 在《汉字编码设计学》一书中,根据国标二级字库所列出的6763个汉字,我们拆出了368个部件(已归并为352个),并分成七个结构型和48个特征类。在这样一张部件清单中,许多形似的部件仍然可以归并。部件拼成汉字时,由于它们在汉字中所处的位置不同,或者因所拼合的部件数量的不同,它们的形体,会发生某种改变。但这种变化,不超过人们认知能力的限度,使人们在心理上依然能够视两个不同形态的部件为同一部件,在转换为代码时仍然给它们以相同的代码。因此,我们可以把部件分为原形部件和变形部件。原形部件是该部件的“原状”;变形部件是该部件由于在拼合其他汉字时,所处的具体位置和空间的不同,而产生形体的“异变”,但其基本结构没有发生改变。这种情况,可理解为“同构异形”,即结构是相同的,但形状发生了改变。基本上有如下三类: (一)形状拉长:“木”是原形部件,“”是“木”在作部件时,给拼在某字的左边,所给的空间只是原字的一半,其形状不再是方正的,而给拉长了;其最后一个捺笔,也缩成了点笔,但谁都可以理解,它本来就是“木”。 (二)形状压扁:“十”是原形部件,它拼成“古”,其形状就成为“”;拼成“鄙”,其形状为“”,更小而扁。而在“协”中,因其右旁占去了一半以上,其横笔自然缩短,而成“”形。 (三)个别的笔形有所改变:如“艹”(草头),因其在字的上部,两个交叉在横笔上的都是竖笔;“廾”(异字底),因其在下,为保持均衡匀称和美观,左侧的竖笔异变为撇笔(如奔、升等)。 综上所述,在原形部件和变形部件之中,怎么确定原形部件与变形部件呢?可以这么说,它们是相对的、相互依存的两个概念。那一方都可称之为原形部件或变形部件。有的部件,它不存在变形部件这个对立面,它也就不能称之为原形部件了。但是,为了有利于研究和使用,我们必须能使它们之间有个固定的名称。因此,在原形部件和变形部件之间,凡成字部件,与其他部件形成上述关系时,以成字部件为原形部件反之为变形部件。例如“十”(成字,有读音)为原形部件,“”(协左旁)为变形部件;凡有读音的“部首部件”与暂时还没有读音的部件(以后我们应该给每个部件以命名)形成上述关系时,以前者为原形部件,后者为变形部件;再如“艹”(草头)为原形部件,“廾”(异字底)为变形部件。 提出原形部件和变形部件这两概念,目的不仅是为减少原部件表中的部件数,同时也有利于减少我们在拆分某些汉字,碰到一些不为部件表中的部件所覆盖的“同构异形”的结构块时,容易产生的“编码误读症”。因为,部件表的部件只是在结构上涵盖汉字所拆出来的部件,而不能涵盖它们的大小形状,或某些因构字时而发生的形状改变。另外,尽管有一些部件结构相同,它们却不能被视为同构异形: (一)方向不同:例如“冈、凶、区”,都是三面包围的结构,“冂、凵、匚”,中间都有一个“乂”,但不同的三个方向,区别出来三个字,如果把它们视为原形部件和变形部件,我们就违背了汉字的区别律了。再如“丷”与“八”,历来的部首检字法,都把它们合并在一起,这两个部件,它们不仅构成的笔形不同,前者第一个笔形是点,第二个笔形是撇;后者第一个笔形是撇,第二个笔形是捺,而且,它们的方向有向上、向下的区别。 (二)结构变化,笔画书写顺序不同:例如“⺌”与“”,“”是两个点笔向右斜,一个点笔向左撇,写字时由左向右;“⺌”是中间一个竖笔,两个点笔一左一右向中斜,写字时先写中间的竖笔。这样的部件就不能把它们视作原形部件和变形部件。 据上所述,我们就可以从拼形字母系统的部件表的368个部件,找出其中的同构异形部件实行合并,裁减冗余部件,实现减少部件总数的目的。现根据各类型分别列出其中的两类部件: 原形部件和变形部件的提出,还有一个最重要的作用是为部件库的具体运作打下了基础。在部件清单中,除极少数部件外(只能拼一次的),绝大多数部件都多次数拼字。因此,它们之中,每一个部件都会有一个常数和多个变数。常数即原形部件的点阵;变数即变形部件的点阵。只要把八万个汉字中的部件的定量搞清楚,并把这些部件的常数和变数搞清楚,我们就能研制一个部件库,利用它来拼合汉字。这个方法,可以避免因计算机应用范围不断扩大,机内汉字库因装容的汉字不够使用而不断扩容,导致人力、财力的浪费。 还有一个需要讨论的部件是“”。这是“延”字去掉撇笔和“廴”,与“止”字十分相似。“”由三个笔画构成,末笔是竖折笔;“止”由四个笔画构成,末笔是横笔。这两个部件是否可以合并,从区别的角度来看,它们极易混淆,合并有利。 十六、部件的书写笔顺 有了部件的笔顺教学,可以为儿童节约许多时间。因为,过去我们教儿童书写笔顺,有许多地方重复。费锦昌、黄佑源、张静贤三先生编著的《汉字写法规范字典》(以下简称《写法字典》),此书实际已为部件书写教学作了启蒙。《写法字典》里把已经教过的部件省略,不再重复。但由于缺乏理论指导,这本字典,收字810个,可以说大多数是重复的。减少重复,也就等于节约学习时间。例如“句、夕”既已教过,“多、够”就不需要再重复。 对照《写法字典》,我们发现许多矛盾之处。是对是错,请费先生和关注文字研究的专家共同讨论。 《写法字典》里的“里”(第362页),写了“曰”就加竖笔成为“甲”,然后再写下面两横完成“里”是不对的。它与书中的“单”有矛盾。“单”下面的“”,并不是先写“甲”,后再用一横完成的。而是应该先写好“旦”,最后才来一竖。由此可知,“里”也应该先写“旦”,再一竖成为“”,最后封底。除“里”字外,“重、垂、勤(左旁)、熏”诸字,都要这样。因为,在所有的汉字中,凡是横笔与竖笔交叉的,都是先横后竖的,例如“土、王、拜、善”等等。 这些矛盾的成因,来自“先上后下,先横后竖”这种笼统的讲法。因为,汉字的书写,不是这么几句话就能概括得了的。我认为,横与竖的关系,应具体到直接对应。直接对应是指这两种笔画因不能被一句“先横后竖”所概括,是因为它们的具体对应不同,先后也会不同。它们的对应可分如下几种: 横笔中与竖笔的顶端相接:先横后竖,例如“下”; 横笔与竖笔交叉:先横后竖,例如“十”; 竖笔与横笔左端相接:先竖后横,例如“上”; 竖笔下端与横笔相接:先竖后横,例如“止”。 《写法字典》里的“万”(第2页),其写法是“一、、万”,按“先上后下,先左后右”,都应先写撇笔。其正确写法应该是:“一、丆、万”。 《写法字典》里的“乃”字,是先写折笔,后写撇笔;而“及”字,却是先写撇笔,后写折笔。两个字的处理是矛盾的,应一致起来。如果两个字中的撇与折(横复折笔),无上下之分,是同一高度,两个笔端相接,都应先撇后折;如果大家都认为“乃、及”撇笔的笔端,在“、”这两个笔画始横时的中,就应先写“、”,后写撇笔。 《写法字典》里的“为”,中间有个“力”(第9页),规定先写撇后写折。这与《字典》里的“力”字(第76页),却是先折后撇,形象完全一样,为什么处理不一样?当然,“为”字先写一个点笔定了位,接着写撇笔就有了从左向右的意思。但是我们如果把“为”字中间的“力”拆作部件,确定部件书写规范,总不能这么说:“凡‘为’字中拆出的‘力’,应先撇后折;‘功’字的‘力’,应先折后撇。”从纯字形的角度来看,这个说法不能成立。 纯字形的意思是指汉字书写笔顺,专门从字形出发,不考虑字义或构字理据,同样的字形不应有不同的写法。因此,“为”的四个笔画应写作以下顺序:“”。如果大家认为“为”应保留原来的写法,那么,“力”的写法就应改为“丿、力”,以免自相矛盾。 笔者认为,解决以上矛盾,也应将撇笔与横折(包括横笔)的关系,以一一对应的方法处理: 横折中与撇笔的顶端相接,先横折后撇; 横折与撇笔交叉:先横折后撇; 撇笔与横折左端相接,先撇后横折。 据上所述,《写法字典》里的“毋”与“毌(贯字头)” “毋”的原写法是:“”, 应改为:“”。 “毌”的原写法是:“”,应改为:“”。 只要把部件书写顺序搞清楚,汉字的书写顺序也就自然清楚了。在中小学里,在教识部件的同时,把笔顺教学、计算机输入连在一起,既有利于提高识字教育的兴趣,也有利于汉字书写规范。 注:笔者用的《汉字写法规范字典》系1992年12月由上海辞书出版社出版,1994年第二次印刷的版本。本文提到的只是几个重点问题,要想全部解决,仍须深入研究。 十七、部件与正字 计算机教育必将在全国范围内全面普及,其最始阶段离不开汉字输入的教育。现在由于“万码奔腾”,人们不知道该如何选择编码,教育部门出于无奈,也只能由“五笔字型”一码独奔,让它自然孳长。作家韶华有个很形象的比喻,说五笔字型是高速公路上的手拉车。它不仅影响我国的信息化进程,同时也会造成识字规范教育的损害。笔者相信,汉字编码必然统一,而且一定以部件研究为基础。只有这样的基础,才是坚实的。 部件之所以能够使汉字产生序性:其一,汉字是部件拼成的,部件则以英文字母为代码;部件借用了英文字母的序性来弥补汉字所不具备的序性,因而使汉字也有序化了。部件在汉字中的序则是由部件的始笔来决定的。例如“可”,其部件排列为“丁、口”,代码为“TO”;“叮”,其部件排列为“口、丁”,代码为“OT”。有人曾经认为,汉字中的部件,应该严格按笔画顺序拆分出来。这个意见在实践中容易碰壁。按这个意见,“可”就要拆为“一、口、亅”,它影响了汉字拆分的可接受性。笔画构成部件,部件拼成汉字,不都完全是按笔画顺序来完成的。就好比零件构成部件,部件组装成整机,不一定是一个一个部件完完整整地一起安装的。有时候一个部件要分开完成——要安装好这个部件中的某个零件后,先安装另一个部件,再把这个部件的其他零件安装完成。这样的事例我们在实践中是常常碰到的。所以,部件与整机的组合关系,不是完全按照零件装配的顺序;部件与汉字的拼合关系,也不应该完全按照笔画的先后,主要的根据是直观。直观的意思是指一眼看去就分得清楚的意思。当然,绝大多数成字中的部件拼合,与笔画顺序是一致的。一个部件分为两份,当中夹着另一个部件,在相离型部件中最为多见。例如“夹、平、来、乘、舆……”等,但这些字数量极少,可以在教学中挑出来作为特例点到。 国家教委曾多次指示全国的教育部门消灭错别字,但收效甚微,其原因在于缺乏一种可以作为规范的工具。使用这个工具,不应该加重学生的学习负担。现在,“汉字拼形字母系统”的部件清单,正就是这种最好的正字工具。它与汉字的序性教育相结合,作为计算机汉字输入不可或缺的课程进入教室,具有很强的可接受性,即使仅仅作为一种输入法的教育,也能为学生节省大量学习时间。王筠先生说“拆一字为数字,则点画必不可缺……”就是这个意思。学习部件清单,不仅仅只学会了汉字的序性,还能纠正一切错别字,实现字体规范。现在再加上汉字输入这一项,可谓一石三鸟了。 学习部件清单,很容易知道普遍流行的错别字,也就很容易纠正它们。笔者现把最常出错的字并根据出错的原因分类罗列于下: (一)部件的结构与错别字 部件清单之所以能够纠错,因为出错别字的原因大多数都是把部件弄错。例如“黄”,正确的写法是“、由、”。可是一些人把中间的“由”错成“田”,中间的竖笔不出头了。笔画完全一样,只是结构不一样。部件与部件的差别很多不在笔画,而在结构。例如“日”与“曰”:一个是竖长方形的,念“ri”;一个是横长方形的,念“yue”。 根据部件清单,我们把最容易弄错的部件和相关字例说明于后: “巿”,为相交型竖式多交叉类,其写法是“一”。中间一个两头穿通的竖笔最后完成。它是“肺、沛”的右旁,容易被误为“市”。而“市”的写法是先写最高处的点笔,后写横笔,完成部件“亠”,再在它的下面写个“巾”。这个部件产生错误的原因主要是形状相似,看不清楚。 “肀”,为相交型竖式多交叉类,其中间是一个两头穿通的竖笔,在“唐”的中间部位,容易被误为“”,即中间竖笔没有穿通。在汉字书写的规律中,中间竖笔如没有穿通的,都必须在最下面的底横笔未写之前,先写好竖笔,然后用横笔封底。这个部件产生错误的原因来自《柳公权字帖》。《字帖》里的中间部件,其中间竖笔没有穿通底横笔,而成为“”形。如果是这样的形状,竖笔必须写在底横笔之前;如果是穿通的,竖笔是最后写的。 与“唐”一样易出错的是“害”字。一些人常常把“害”字中间的部件“丰”,写成没有出头的“”(青字头)。 “”,为字架型上通下挡类,是妻的上半部,其正确写法应该是“”,最后完成的是下面的底横笔。出现的错误是把最后的底横笔先写,把竖笔放在最后完成,这就使得中间的竖笔两头穿通了。其原因在于许多人为贪图书写的方便,把竖笔放在最后是使其与下面的“女”连起来一起完成。 (二)汉字的结构与错别字 “”,为“善”的中间部件,因为夹带着“丷”,容易被误为与下面的横笔交叉在一起的“艹”,因而误“”为“王”,就错误地写“善”为“”。这个错误,根据笔者了解,几乎绝大多数语文教师都犯了。温州市中小学在教学楼前有几个一米见方的大字,其中写着“善学”的“善”,就出了这样的错。学校里出来的学生如果今后当了教师,自然也会出错的。老师错了学生错,学生做了老师就一代一代地扩散了。与“善”形状相似的“喜、嘉”都是“吉”下面写好两点“”,再写一横,许多人也容易把它们误成“艹”。 “奂”本是由“⺈、冂、大”三个部件拼成的,一些人往往把它看成是“⺈、央”两个部件,问题是“大”本来没有出头,一出头便成了“央”,不好拆分了。如果把“奂”字弄错了,必将影响到“唤、焕、换、痪……”等以“奂”为边旁拼出来的一些字。 (三)笔画的顺序与错别字 部件结构出错是错别字的主流,有的字则是由于不知道笔画顺序容易弄错。例如: “长”,它的书写顺序本应是“丿长”,有的人却误为“长”,把本应在第一笔的撇笔写为第三笔了。 “义”,它的书写顺序本应是先写点笔,后写交叉,即“丶义”,有人却误为“乂义”。 繁体“象”是由“⺈、、乑”三个部件拼成的,简体“象”,是由“⺈、、”三个部件拼成的,简化使“象”字减少了一个笔画,即把 部件“”与下面的撇笔连在一起成为“”,使原来的“乑,少了一个笔画成为“”。简化使容易拆分的繁体,变成了难以拆分的简体,还增加两个组字率极低的部件“、”。 (四)部件的形似与错别字 部件“⺋”与“已”相似,容易弄错。“已”是由“、乚”两个部件拼成,而“⺋”,只是由“、乚”两个笔画构成的部件。“⺋”是参与“范、怨、宛、仓、抢、卷、圈……”等字的拼合;“已”则参与了“巷、港、杞、纪……”等字的拼合。 “”与“”相似,容易弄错。“”是“年”下面的部件,由四个笔画构成,左侧是个短竖笔;“”是“降”的最后一个部件,由三个笔画构成,左侧是个竖折笔。我们不注意时,容易把它也看成是一个短竖笔和横笔。 “”与“止”相似,容易弄错。“”的末笔是竖折笔,是“延”的中间折掉撇笔形成的;“止”是个成字部件,末笔是横笔。 结束语 部件的研究,是一种纯字形的研究,它与字音研究,字义研究,构成了汉字研究的三个侧面。 汉字的形音义三个方面的研究,字形研究是个大空门。汉字的拆分是一种字形的拆分,是纯字形方面的研究,与构字理据根本无关。自古以来,文字学界只有纯字义(训诂学和各种字典)和纯字音(音韵学)的研究,却从无纯字形的研究。自有汉字字形编码以来,汉字需要拆分了。人们寄希望于语言学家,语言学家却大谈构字理据。其结果是文不对题。这是一个世纪以来汉字落后论造成的必然恶果,现在是他们在自食其果。《汉字部件规范》是一次具体的体现。 本文的部件清单是以表形码的部件清单作基础的。如果没有表形码,也就没有本人的研究,也就没有这张部件清单。在应用上,我为了使它与表形码有所区别,而且也是为了使它更有使用价值,将31码元改成了26码元。想搞编码“发明”的人,还可以改成30码元、29、28等等码元的。也可以将其中的一些部件换换类,方法请看本文第十二节,就能够再“发明”出多个方案来。 我认为本文有以下几个方面的进展: (一)对部件的命名,提出新的见解。这个见解解决了为什么大家觉得把汉字编码的基本单元称为“字根、字元、字素”等,都不合适,唯称为“部件”最合适的理由。 (二)提出字形编码设计的思想和以设计的客观要求作为设计部件定义的前提条件的新见解; (三)提出“先有部件定义,后有部件清单,再有拆分规则”的新见解; (四)运用编码方法分析,具体说明汉字编码不是技术,不是“发明”的原理; (五)运用拆分分析论证“拼形文字”的新概念和把“笔画结构块”定为部件的合理性,同时论证制订运用间隙拆分原则的正确性; (六)澄清了拆分和取码两个概念; (七)运用重码分析,提出关于重码的六个新概念,解决了人们对重码的疑惑,具体说明重码对输入速度的影响; (八)开创以部件的本质属性,来证明确定部件的合理性和合法性。 (九)提出了“形变序”、“笔形量”的新概念,并运用于部件类和部件类中部件的排序,使之有利教学、有利记忆。 (十)提出了原形部件和变形部件两个概念,为研制部件库建设奠定基础。 (十一)对一汉字书写笔顺,提出了新的更具体的研究方法。 (十二)利用部件正字法,只需要少量的教学时间,就可以一下子解决全国的书写规范问题的新探索。 本文前十四节完成于1995年,第十五节《部件的归并——原形部件和变形部件》、第十六节——《部件的书写笔顺》、第十七节——《部件与正字》,都是新近添加的。在第十五节又提出了两个新概念:原形部件和变形部件。由于有了这两个概念,我们就可以将清单中的形似部件进行合并,并使我们建立部件库有了理论依据。部件库可以取代计算机里的汉字库,今后我们就可以用部件来生成汉字,而不需要经常觉得汉字不够用而不断地建新字库了。在第十六节里,我们提出了更加具体的解决和落实部件笔顺规范的新方法。问题在于费锦昌的《汉字书写规范字典》与我们还有一些矛盾,需要学术界共同探讨,所以无法也不再继续下去。第十七节,我们认为运用部件教学可以结合书写规范,把汉字序性(输入只是序性中要解决的一个部分)和字形规范一起解决了。这是一举两得的大好事。 据《当代中国的文字改革》载(159页),“1982年1月23日,胡乔木在中国文字改革委员会主任会议上作了关于当前文字改革工作的重要讲话。讲话中提到,现在,汉字的整理和简化工作,为了适应新的形势的需要,特别是为了汉字信息处理和机械化的需要,应该在总结过去简化汉字工作的基础上,根据下面的原则和方法进行:1.应该减少汉字的结构单位,也就是减少汉字的部件,并尽可能使汉字的部件独立成字;不能独立成字的部件,也要能够通用,并便于称说。这同减少笔画比较起来,可能更为重要,至少应该是同样重要。2.要减少汉字的结构方式。汉字的结构方式是非常繁多,非常复杂的。过去我们没有注意,更没有人研究过这个问题。3.要减少汉字的笔形。汉字的笔形也很复杂,非常不利于汉字的机械化应用。4.要尽量使得汉字可以分解和容易分解。我们应该合并的形状相近的字或结构单位,有的字增加一笔既易分解又便于称说,还是增加一笔更符合简化的原则。5.要减少难认难写的字,尤其是那些容易读错、写错的字。……”“现在的汉字既不是拼音的文字,也不是拼形的文字。如果我们首先把现在汉字的字形改造成为许多可以独立的结构组合的字,也就是先把汉字改造成为拼形的文字,既便于进行教学,又便于汉字的信息处理和机械化,这将是一个重要的进步。”根据笔者研究,汉字本来就是一种拼形的文字。只是因为历史的发展,其中夹杂着许多人为的因素,它变得模糊。经过众多形码方案的实践,它又逐渐清晰起来了。汉字编码设计的道路,原来就是一条寻找汉字拆分为部件的道路。 部件是汉字字形编码的根本,钱伟长、傅永和、张普、郑易里、陈爱文、陈代于、徐火辉等先生都有很有见地的著述和独到的见解。我只是综其所述,参以己见归成此系统研究,发表出来。旨在抛砖引玉。 本文系统地、简单地勾画出部件研究的轮廓,大家可以从这个轮廓中看出汉字的形码已不再具有任何秘密,统一汉字编码的捷径已呈现在我们的面前: 第一步,组织部件定义的研讨,统一部件的定义; 第二步,组织部件清单的研讨,逐个审查部件的合格性,通过审查并确定清单; 第三步,组织部件分类的研讨,逐类逐个确定部件的分类和归类; 第四步,组织部件代码确定的研讨,逐类研究确定代码。 我们认为,这四步走完,一个统一的方案就出来了。这个工作,就是汉字形码的规范工作。现在我们不应该高声呼喊“规范”,而应该实实在在地提出并实实在在地把它解决好。光响空雷不下雨的原因就在于有权的、有影响力的人只在想搞一个具体的方案,而不重视基础理论的研究。对于键盘输入,它也是一个系统的问题,它的功能已经基本趋于统一,让软件编程专家们去研究,语言学家就不必越俎代庖了。说句不客气的话,现在的“WPS”和“windows”中的汉字处理,都不是几个什么“语言信息处理研究所”能够有能力搞起来的。他们能够处理出来的无非是几个可使用的词组。我认为,这应该属于语言学研究的范畴,不应该挂“信息处理”的牌子。科学只能老老实实,不能赶时髦。我并不是说,词组处理不重要,它们在现阶段,确实是配合当前信息应用的大事,但概念不能弄错,差之毫厘,失之千里呀! 笔者坚信,只要大家共同努力,不断切磋,不要搞什么专利保密,对汉字部件进行系统而不是零星的研究,一个对得起祖先、对得起汉字、对得起子孙的统一的方案,必将如旭日,在东方地平线上冉冉升起! 注 释 ⑴ “合龙”的意思是指使汉字“易学、有序、规范”三个要求,一次性完成。见潘德孚:《汉字要走出编码时代》第六章,电子工业出版社,1994年11月。 ⑵汤华:《透过五笔字型专利纠纷的思索》,载1995年第3期《了望》杂志。 ⑶张普:《汉字部件分析的方法和理论》,载《中文信息处理国际研讨会论文集》第三集。 ⑷陈爱文等:《汉字编码的理论与实践》,学林出版社1986年8月。 ⑸陈爱文等:《表形码和电脑操作》,电子工业出版社1994年10月。 ⑹张普:《汉字部件分析的方法和理论》,载《中文信息处理国际研讨会论文集》第三集。 ⑺陈代于等:《汉字音形码原理探讨》,载1991年《中文信息通联世界论文集》第108页。 ⑻陈爱文等:《汉字编码的理论与实践》,学林出版社1986年8月。 ⑼陈代于等:《汉字音形码原理探讨》,载1991年《中文信息通联世界论文集》第108页。 ⑽潘德孚:《汉字要走出编码时代》第25页。电子工业出版社,1994年11月。 ⑾1995年文改会和武汉大学合作的《汉字末级部件频度表》的统计结果。 ⑿支秉彝:《见字识码汉字编码方法》载1994年第6期《中文信息》。 ⒀陈爱文等:《汉字编码的理论与实践》,学林出版社1986年8月。 ⒁张普:《汉字部件分析的方法和理论》,载《中文信息处理国际研讨会论文集》第三集。 ⒂徐火辉:《汉字形态编码的认知心理规律》,载1994年第6期《中文信息》。 ⒃陈代于等:《汉字音形码原理探讨》,载1991年《中文信息通联世界论文集》第108页。 ⒄陈爱文等:《汉字编码的理论与实践》,学林出版社1986年8月。 此文由本人主笔,詹振权先生负责修改和文章的润饰。詹先生原为温州师范学院副院长、教育心理学教授。他虽然轻我几岁,但他的学识和为学的态度,都值得我尊敬。我这个人是个马大哈,为人、写文章很草率,小处不细心,都亏他认真琢磨,才有现在这个样子。我认为自己是个开拓性很强的人,但我性格上的马大哈往往会把好事办坏。一篇好文章往往会几句话把它讲坏了。现在能拿得出去,没有詹先生的付出是不可能的。 我在1995年写好《汉字部件简论》后,得到温州市新华支社社长张和平先生的支持,印刷了一部分,我们本着学术研究不得自秘的精神,分发给一些朋友和单位,也同时寄给了国家语委的一些领导同志,但始终没有回音。后来又知道了王宁教授在研究汉字部件,我们觉得这是一件大事,就寄了一份给王宁教授。我希望他能在我的基础上进一步推敲,把《汉字部件规范》搞得更好。使我失望的是他不仅连个回信也没有,却搞出这么个不成样子的东西来。 本文写好后,中南财经大学计算机教研室全体老师和温州师范学院向国家教委、语委为我们的《汉字部件简论》写了推荐信,但没有收到回复。上述二信附录于后。 1998年,国家语委发布《汉字部件规范》,我看了报导后,即知道这是一个伪劣成果,后来在《计算机世界》上看到由《汉字部件规范》研制组王宁、陈一凡两教授署名发表的《关于〈汉字部件规范〉的若干问题》一文,和另一些有关的文章,才知道其中的具体内容。于是就写成《〈汉字部件规范〉评析》。恰逢黑龙江大学要开全国第二届语言文字应用学术会议,我就将《评析》的一部分寄给了会务组并得到邀请。我于当年8月16日飞赴哈尔滨参加会议。我找了好几位到会的头头面谈,得到的回话都是“不内行,不熟悉”。我曾要求大会发言,某会议主持人以“没有时间”拒绝了。我回到温州后,收到大会发起人戴昭铭教授的一封信,说自己问讯于语委研究员冯先生,他认为我的“研究成果比国家语委的部件规范更好”,算是使我得到一些安慰。现亦附录于后。 偌大的国家语文界,竟然没有人知道汉字部件研究的重要,免不了使人失望。虽然我现在能够凭行医来支持我的研究和生活,而且收入也没有比一个研究员差;尽管我有时候也觉得这样过日子并不比作研究员不如意,全家欢叙一堂足可消磨馀生。但有时候还是有不能尽意研究的遗憾。遗憾尽管是遗憾,研究还是要研究。人生总是不能尽意的。 我从研究汉字编码到研究汉字,我发现,汉字编码这门科学,实际就是研究汉字拆分的科学。中国人为拆分汉字努力了几千年,现在却没人重视。于是我再研究汉字文化,又研究汉字文化人,自己觉得有不少收获,同时知道了其中的奥秘。我的这本书,就是剖露这些奥秘的。这些收获,不仅仅是得之于他人,而且也有别于他人,这就是我参进了自己的见解,而不是拾人牙慧。尽管它没有什么经济效益,自己却从中得到很多的乐趣。既然我已经开始,这条路还是要走下去。我相信人们早晚会发现部件研究的重要。 附录一: 《汉字部件简论》开创了 统一汉字编码基础研究的新天地 国家教委、语委: 最近,我们欣喜地读到潘德孚等著写的《汉字部件简论》论文(以下简称《简论》),认为它秉承了钱学森同志早年关于统一“中文信息处理”中的诸多编码,开展有关基础科学研究的指示精神;回应了以韶华、马识途诸位代表的全社会舆论,表达了公众对电脑输入码规范统一的热切期望;为配合国家语委成立中文信息司,“拔乱反正”,领导制订语言文字规范标准,切合时宜地提供了一个较高起点和坚实的基础。 早在1984年我们中就有人曾帮助过比较著名的两位编码前辈黄美陶、原益中工作过。从1989年起,我们注意到“表形码”以汉语文字学为基础,建立“拼形字母”谱系的工作。1993年在潘德孚酝酿、主持中央有教育科学研究所、中国青少年发展基金会汉字字形编码研究课题时期,我们多有交流,了解他排难解纷、勤学乐问、孜孜不倦、刻苦攻关的全过程,深深感到在全国第一流的专家帮助下,他的学术水平有一个飞跃。随着他1994年11月电子社《汉字要走出编码时代》专著的出版、言论在多种报刊上发表,逐渐成为现时全国“统一码家军”呼声最高的“主将”。 我们认为《简论》抓住了“牛鼻子”:汉字输入码的音码、形码、混合三个类型中特别关键而有生气的是形码;形码中以声母为主要特征、以笔画派生坐标布键和以象形为主要特征的三种次类中有优势的是形托码;形托码中设计拆分规则、依规则拆分汉字,将拆下的部件归并分类和为部件类选择键盘符号对应等环节中关键在定义并筛选部件。而部件组合,组合件的形义、对称、依傍、照应、步趋、取弃等特征的发掘、运用,应立于部件基础之上;至于词组、句段、联想、参照、转义、跳脱就有更多的软件功能成分,要另作项目研究,而需要一个规范去界定则是毫无疑义的了。 《简论》吸纳了各家之言,考察了多种输入码方案,坚持彻底地以汉字自身固有的规律特性和显隐信息为根据,对“编码方案”是“发明”提出了异议,力排众议主张“重码率”不能作为衡量编码质量的尺度,既承认“最佳映射过程是按部件自身形态特点进行的归类”,又指出“部件归类”和“形象取键”要同时考虑的新见解。并在上述观点指导下做了实施,提出了一张7个笔画结构型、48个特征类、368个部件的清单。 这张清单建立在部件的严格定义和两万汉字拆分的初步实证基础之上,得到了系统而科学的拼形字母谱系,就象拼音字母可以表达一切汉字的读音一样,这套拼形字母,可以表述一切汉字,甚至可扩充表示中、日、韩等国家和地区所有现成象形文字。这样,它不仅适用于电脑汉字输入,还可以用于象形文字的基础教育,促进汉字语言文学构建现代化、国际化的工程。 比较潘德孚过去的言论,我们注意到,由于,《简论》新近提出“形变序”、“笔形量”等概念,使部件类中的部件也有了序性,使型、类的序性一直贯串到底,既利于教学识记,又利于信息分类和提取。特别是《简论》提出的谱系,各层之间分布均衡,6763个汉字部件共七个型,平均每型七个部件类,每类的部件数在6至8个之间,扩充到20902个象形文字后,平均每类部件数只增加到9个,即文字增加三倍,每类部件仅增加一又三分之一个。 当然,由于时间和条件的限制,《简论》的工作还有待完善和深化,而且,在后P24,作者们揭示了无法证明的六个部件,所用反证法的逻辑性尚欠完善。比如我们不能因为“肀”已是部件而可“反证”“”笔画块应拆分为“肀、用”。又如P43的表和P12的表稍有不一致。在P13说到,“个别部件的处理,可让全国专家公开讨论定夺。”这既表现了作者们的态度是严肃的,作风是求实的,思维是科学的;又表达了希望国家有关领导部门组织专业会议开展学术研讨的迫切心情。 总之,我们有了一个难能可贵的讨论基础。恳切地希望国家教委、语委关注这项研究成果,召集全国会议来组织专题研讨,为统一汉字输入码迈开第一步。 中南财经大学计算机应用教研室 钱进 计算中心常务站长 教研室主任 副教授 刘粹玉 计算中心原微机室主任 高工 徐竹青 计算中心原系统室主任 高工 徐永涛 《电脑报》 武汉通联总站 站长助理 一九九五年十二月二日 附录二 推荐《汉字部件简论》 国家教委、语委: 随着计算机中文应用由专业打字转向普及使用,不规范的汉字编码借助先入为主和市场惯性的优势逐步进入基础教育系统。人们特别关注全面进入中小学课堂的“五笔字型”对汉字规范的损害感到忧心忡忡。有人企图以研制新码来抗衡,然而由于对编码设计缺乏系统认识,新方案并不能克服编码设计中的种种困难与问题;同时研制者缺乏市场头脑,新编码难以进入市场而导致经济亏损。而由此引发的编码泛滥不仅造成汉字使用的混乱,模糊了对编码规律的进一步认识,而且给汉字编码的统一设置了人为的障碍。文字应用的约定俗成的严峻形势迫使我们只能有两个选择:要么立即进行行政干预,制止不符合识字教育规范的编码进入基础教育的课堂(但这样做显然是不可能的,因为,已经在社会上使用的东西,若加禁止没有替代就不能兑现);要么接受对汉字规律、规范的损害,并同时接受随之而来的巨大的、祸及子孙的经济损失。 设计编码困难,辨识编码更加困难,所以,1986年的编码评测,才会走进误区。解决这个困难的方法不能再走研制新编码的老路,而是要从基础理论研究做起。潘德孚先生多年从事汉字编码的基础理论研究,针对编码学术界的理论观点和实践弊端,在《中国教育报》、《教育研究》、《中文信息》、《电脑教育报》、《中小学计算机教育》、《语文与信息》等多种报刊上发表文章。并于1994年出版汉字编码方法论专著《汉字要走出编码时代》,又发表《汉字编码方向论》,对汉字编码中几个比较大的理论导向问题,提出了系统和颇具新意的见解,受到了理论界的极大关注。 最近由潘德孚、詹振权、潘骑三人联合完成的《汉字部件简论》(其中部分章节已在《中文信息》、《语文与信息》、《温州师院学报》上发表),对汉字形码的基础——部件,进行了严谨、系统、科学的分析,公开了汉字形码“发明”的秘密,阐明了汉字形码设计的内容和步骤,提出了一个分步讨论的计划,全方位地研究了汉字现代应用的全部难题,并为解决这些问题提供了有益的思路。我们认为该文有可能为专家攻关铺平道路;为统一汉字形码奠定了理论基础;为实现“计算机从娃娃抓起”、为计算机中文应用进入基础教育课堂、为因计算机教育而来的全国教育变革提供基础条件。 该文提出了一张只有七个笔画结构型、48个特征类、368个部件的清单。根据这张清单,不仅能拆分所有的汉字,它的特征也能覆盖一切已知未知的部件,据我们的研究,这个汉字拼形字母系统用于基础教育,可以提高识字速度,统一书写规范,甚至低年级儿童也能据此直接翻页检字,同时进行电脑输入。因此,如果在中小学中普遍推广拼音字母和拼形字母的同步教育,我们就有可能较完满地解决汉字现代应用的四大难题。让汉字走出因多种编码社会使用而造成的误区。 据此,我们建议国家教委、语委关注汉字部件清单的研究,召集有关的专家,开展专题研讨,使汉字编码的统一从基础研究做起,从部件做起。 如有不当,请指正。 温州师范学院教育研究室 附录三 黑龙江大学中文系戴昭铭教授来信 潘德孚先生: 大作收到。上月光临会议,有幸相识。可惜由于会务繁忙,未能详叙。汉字编码事关重大,先生潜心研究不仅精神可嘉,而且成果卓著,十分令人钦佩。据闻您本行中医,业余从事这方面研究,倘非有高度责任心,岂能坚持至今,更难有如此成就。中国的知识界实在需要如您老先生这样一批只求真理不计功利的献身者。我对汉字编码缺乏研究,难以提出具体意见。但会议结束后,因留冯志伟在此讲学,与他谈起,他说您的研究成果比国家语委公布的部件规范更好,可惜国家标准刚刚公布,恐怕一时难以更改。我相信他的评价。国家语委中缺少老冯这样的高人,倒是庸人太多,与所处地位不相称,容易误事。90年代初我曾与其中几位因规范理论问题在《语文建设》上笔战,深有此感。现在部件规范不知是否已付诸实行?其中不合理部分不知是否尚能修正?尊见不知是否能获他们的重视?我虽关心,但因向无研究,眼下亦抽不出时间作比较研究,恐难提出有分量的意见,只能表示对您的研究和坚持的见解持支持态度,并期望您的合理意见和方案能受到有关方面的重视和采纳。另外我可以提供一点信息:我系李先耕教授在这方面留意较多,前些日子还曾写过一文拟立项研究汉字生成系统,后因已有人捷足先登而作罢。现附寄上他这篇文章供阅,目的不是说这个设想仍有价值,而是说您可以把您的大著寄给他请他作一个与国颁规范相比较的研究,然后写一有分量的评论,以引起注意。不知尊意以为可否?匆匆草此,余言再叙。即颂 雅安 戴昭铭上 1998年9月29日 |