第五章 部件定义研究 编码的统一,首先是部件的统一;部件的统一,首先是部件定义的统一;部件定义的统一在于提示部件的本质属性。 §5.1 部件的命名和定义的意义 一、部件的命名 汉字部件的命名至于字形编码。曾有许多专家探讨过,有的称部件为字根、字元、部首等,许多人觉得称“部件”比较合适,但是没有统一。 汉字合形、音、义为一体。字音可以分解为元素——拼音字母,它们能够拼出所有汉字的读音。利用拼音输入,社会上已经有了好多的方案。但拼音输入有语音的局限,与字形输入不一样,大量的同音字、同音词以及方言(读不准)、不常用字(读不出),必然影响字音编码使用普及的广度和深度。随着计算机中文应用的逐步铺开,一个全社会、全方位迅速统一使用汉字编码的前景已经明朗。字形编码的实践,证明了它的可行性,即它可以毫无障碍地在全社会、全方位地普及使用。字形编码需要拆分汉字,以得到形码方案的基本材料。这个基本材料,必须有比较准确的命名。所谓名不正,则言不顺。于是,“部件”这一新概念的语词载体应运而生。 我们认为,“部件”这个命名之所以确切,是因为: ① 它是中间层次; ② 它是可拆卸的; ③ 它是相对独立的; ④ 它表明“拆——拼”应该是可逆的; ⑤ 它摆脱了字义、字音整体性的干扰,有利于拆分。 这五种属性,正是我们设计字形编码所需要的。有人曾断言汉字不能适应机械化、信息化的要求,但是,我们却从机械学中把“部件”这个名称移植过来,使汉字适应了机械化、信息化的应用要求。 有人认为汉字的基本单元应该是笔画而不是部件。关于这个问题,曾经有过激烈的争论。我们认为,把汉字的基本单元定为部件或定为笔画,都不是目的,而是手段。字形编码的实践已经说明定为部件比定为笔画好,而且也更有客观的依据。 其一,古人以“文”造“字”,不是以笔画造字的。“文”就是简单的象形文字。我们的祖先先把它们作为部件,造出了一批指事、会意字。然后这些字和象形字一起作为声旁或形旁又繁衍、发展了许许多多的字。 其二,有一些复杂的象形字由于规范的需要发生“裂变”,产生了一些没有字义的笔画结构块,这些“块”也参与造字,也成为部件。 其三,汉字的发展,为了简易化,结构逐渐变得简单,简单的结构又为了区别,加上了一些单个笔画,这些笔画也就成为部件。 二、部件定义的意义 (一)给部件定义是迈出科学设计编码的第一步 历史永远在前进,历史的经验和教训却需要时时回顾。就是说,我们办事的原则要往前走,头要向后看。拆分汉字,得到部件清单是前人没有做过的事,没有往前走的精神无法使汉字适应信息应用;不回顾历史,不遵循汉字的造字原理和造字方法,是瞎子跑路,看不见明确的目标。 在汉字学中,“部件”这个命名脱颖而出之后,第一个碰到的难题是定义。汉字字形编码之所以千变万化,层出不穷,皆由部件定义的不统一所致。 所有的形码方案,除表形码外,几乎都采用“优选”部件的方法来确定采用部件的数量。最近出来的两个“926工程”课题码——认知码和规范X码,仍然照样画葫芦。所谓“优选”,就是象五笔字型一样,主观地确定使用部件的数量。这种做法就会使编码数量无限增多。国家教委立课题选码的目的是打算统一汉字编码,课题组做的是制造更多的编码。因为,谁能在中小学中推广,谁就能占领全国最大的市场。国家教委的选择,可以决定某个方案真正命运,使它成为汉字的副体,为中华民族子子孙孙世代使用。“926选码工程”专家组的专家,之所以敢于改变国家教委的决定不外于两个原因:一是选码需要的基础理论还没有建立,困难实在太大了;二是自己研制一个方案实在是太方便了,趁大家都还不明白谁好谁坏的时候,以教委的课题组名义推荐新方案,有名又有利。名利确实有它的积极意义,但想获取的人首先应立足于艰苦的研究,敢于创新并取得突破,而不是依靠“近水楼台”。但在表形码已经拿出部件清单之后,还要使用“优选”的方法来确定使用部件数量,这种做法显然是落后了。文改会有的648个末级部件,《汉语大字典》的有201个部首,《新华字典》有189个部首,在这些部件、部首中“优选”,十几岁的杜冰蟾都会。“优选”部件是字形编码设计的主要“症结”,不是设计的成果。它提示了汉字拆为部件的困难,给我们知道就行了,何必再一次又一次不断重复呢? 克服将汉字拆为部件的困难,唯一的办法是给部件定义。但许多设计者害怕给部件定义。因为,绝大多数的设计者不是文字研究者,有一种“隔行”的心理畏惧。这个部件的名词又是随着编码设计而到来的,它应该归属汉字的结构研究,许多文字研究者远离编码设计的具体实践,没有认真分析部件的属性,也不理解编码设计的内涵和外延;又囿于“独体为文”的构字理据,就产生了陌生的感觉,难以拿出比较合理的定义。然而要设计编码,定义这一关不能不过。“优选”部件的方法确实可以使编码设计不用过定义这一关,但也同样使它永远不能成熟。 现在有的人还不理解部件这个命名确立的目的,就是要用它来取代“独体”的。所以他们一提到拆分原则,马上扯起“字源原则”的大旗来。一讲部件就拿独体字来套。他们不理解“独体字王国”已经“改朝换代”为“部件王国”了;“六书”的原理和原则已经换为“拼形”的原理和原则了。 如果我们认为任何人不能也无权随意拆分汉字,就应该首先统一部件的定义。在统一部件定义的基础上,整理出一个指定字符集中的所有部件,构成一张能拼出这个字符集中全部汉字的清单,汉字的拆分规范就可以确定下来;同时也可以归纳出汉字的拆分规则,解决了拆分的困难。 陈代于等认为:“有了汉字部件定义,汉字拆分规则自然就是:从部件边界拆分。”⑴因此,部件定义的实质是为了确定部件在汉字中的边界,以便于统一分解汉字。 有的专家认为每个形码方案的设计人,都有自己的部件定义。即认为大家都可以按自己的思想给部件下定义,或者认为现在给部件下定义是多余之举。这种思想,实质是否认部件存在的客观性(它导致部件产生可以“因人而异”的设计思想)。也就是说,他们认为汉字拆为部件是可以主观随意的。 部件找设计形码方案的基本材料,如果不能定性定量,设计就无据可依。作为设计方案的基本材料,如果没有定义,就没有办法分解一个指定字符集的全部汉字。部件的定义,就是定性;部件的清单,就是定量。有定义,才会有清单。给部件定义是迈出科学地设计编码方案的第一步;部件定义是编码方案设计的核心,这个问题不解决好,任何设计都是不完善的。 综上所述,我们认为: 1.部件定义是客观存在的,它是设计编码的核心; 2.部件和它的数量是客观存在的; 3.汉字的拆分规则是从部件清单中归纳出来的,不是随意制订出来的; 4.产生部件清单的前提是组合部件定义。 有人认为,文改会648个部件的清单之所以在实践中不好用,就是因为部件定义定不好。这个看法是很中肯的。千里之行,始于足下。下“足”之先,先辨方向。给部件定义是科学地设计编码方案的始点,这第一步假使错了,就会一错到底。 (二)部件定义是为了完全分解汉字取得部件清单 汉字既然是一种拼形文字,现在要把汉字拆分为部件,那么汉字部件的拆——拼过程,就应该是分解——合成的过程,汉字部件的拆字法就应该是造字法的逆顺序。这个公式得以成立的首要条件是必须有一张覆盖全部汉字的部件清单。 部件的命名虽然是从机械方面引用的,但汉字部件与机械部件是两种性质完全不同的部件,有它们完全不同的属性,不能死搬硬套完全按照机械学上的名词定义来解释它。它们各自有着完全不同的客观情况和客观要求。定义的不可与否,可以用符合不符合客观情况和客观要求来测定:符合——定义正确;不符合——定义错误。 拿出正确的定义来确定部件清单,就可以杜绝编码设计者自由“优选”和决定部件使用的数量,就能为统一编码奠定良好的基础。部件清单的条件是: 1. 必须覆盖指定字符集的全部汉字; 2. 必须形成一个完整的分类体系; 3. 必须有利于应用的要求。 许多人不理解汉字编码的目标,以为只是为中文输入;有的人则认为可以藉此实现拼音化。误解造成了误导,误导造成了学术研究思想的混乱。 我们认为,汉字编码的目标就是要取得部件清单,并为它分类和确定序性符号,使汉字序性化。序性化了的汉字,首先可用于直接排序。汉字能直接排序,必然可以直接输入,同时,也可以直接翻页检索,更为重要的是它能密切配合基础教育,提高识字效率,统一书写规范。 (三)部件定义是为了统一汉字编码 统一汉字编码,首在统一部件的定义。只要部件的定义能够统一,统一部件清单就不在话下。有了这个基础,就可以具体讨论分类和代码。至于输入法,现在的“WINDOWS”95”已经做出了一个样子了。他们提供了一个通用接口,可以挂接任何编码。最近,又看到1996年的第6期《中文信息》的《利用UCDOS开放性的汉字输入法》一文,也可以使任何编码设计者把码表装进即可做输入工作。这正说明“汉字编码评测专家”们所提出的“汉字编码键盘输入法”是一个彻底错误的概念。编码设计者、文字学界、计算机界,以及专利主管部门都上了这个概念的当。当然我来信这些专家也不是不意来欺骗社会,而是一念之差。我们来信不久的将来,象西山DOS、笔神系统、北大方正等汉字工作系统都可能设计外挂的编码接口,让所有的编码都能自己挂接,让所有的编码设计者都成为自己的推销员。这是输入法的商品性能决定的,因为只有这样,才能争取更多的用户。文字学家们要而当前的应用为重,要认识汉字编码应用即汉字的应用,必然需要统一,需要规范,而且首先是字形上的。不要又拼音化寄以过多的希望。即使拼音化在几百年后是可行的,现在它仍然还是“远水”,救不了计算机中文应用即将普及的“近火”。我们现在只能把精力用在刀口上,这个刀口,就是部件的定义和清单。 我们在上面的文章里已经把所有编码方案的不同,归纳为五大差别,核心是部件的处理。而部件处理的核心则是定义。许多专家不愿意讨论部件的定义,一是因为这个定义也确定难下,描述它有多个角度,公说公有理,争不清楚;二是文字学界和信息学界有几位权威已经有了有关的定义。惮于他们的权威,人们对为部件另下定义似乎都会谈“义”色变。其实这种顾虑是多余的。因为,我们现在给部件下定义是为了编码的设计,既不是文字学的,也不是信息学的,而是汉字编码设计学。 汉字编码设计学是一个正在创建中的学科,它还没有完全形成,为众所公认,所以也就没有专家,没有权威。在探索一门新学科的道路上,大家都会有所发现,大家都会犯错误。因此,走这条道路,应该首先确定方向、建立原则,并能时时回顾,走错了要立即掉转头来,不能一误再误。探索的道路,对专家、权威和一般的探索都一视同仁,没有专与不专之别。 正因为“专家”们不统一,才有这么多的定义,才引来了这么多的编码“发明”。我们认为,现在的这些定义,都只是从某个角度描述部件的某些特性,而末曾从字形编码设计的角度来作系统的描述。字形编码设计是以部件定义为核心的,本书已在第四章里作过具体的论述。部件的定义、编码设计中的汉字拆分、部件定量和部件分类的关系是一种相互依存、制约的关系。给部件定义必须首先理解这些关系的内涵和外延。为了统一编码设计,我们必须统一部件的定义。 三、部件定义的困难 “独体为文,合体为字”论断:“文”,就是“字”的基本单元(即独体字就是部件),由它筑成的构字理据,在文字学界统治了近两千年。字形编码要把整字拆分为部件,第一个难题就是是否要遵循这个古代的构字原则?一般来说,尽管我们用的是现代汉字,有许多字已经根本找不到古代的构字踪迹了,而文字学家们总还是要求遵循这个古老的原则。编码设计者处于两难的地位,一方面认为无法照这个原则办事,一方面又畏惧文字学界的权威,因为要编码就离不开汉字,而文字学界是最有发言权的。 “部件”这个命名是现代因字形编码设计需要而出现的概念,符合当前汉字拆分的实际。而“独体为文”是古代文字学家研究汉字成因的一种见解,不是为现代汉字拆为部件而确定的原则。老规矩束缚新概念,这是部件定义的最大困难。 |