应从工程学角度来认识汉字的字元结构体系 胡敬禹 一 21世纪,大家最关注的已不是汉字从何处来,而是向何处去的问题。 汉字结构的分析,原本是语文教学的一块传统领地,现在却成了计算机课的入门知识。夺回这块领地是我们的神圣职责,也是本文的写作初衷。 汉字演变的脚步时快时慢却从未停止过,特别是当它必须适应信息技术(书写工具、文字载体)的发展时,汉字从来都进行了相应的变革。今天人类已经迈进信息社会的门槛,汉字作为一种信息载体,在技术应用中遇到了不少困难,最突出的是在汉字信息处理方面,已经到了非“主动”改革不可的地步。为了满足计算机的要求,这种改革是仅仅作字体上的创新,还是要进一步使方块形的平面文字线性化?抑或汉字根本就无需改变,需要改变的却是我们对汉字的认识角度。传统的汉字理论无法回答这个问题,根本满足不了现实的需要。 众所周知,汉字“隶变”以后,形体逐渐由图形化走向符号化,特别是大规模简化后,结构方面又出现了新的情况,已经很难用六书理论去解释了。尤为重要的是,六书理论无法从工程学的角度来深入研究现代汉字的内部结构体系,对于汉字今后规整化、信息化的发展趋势并没有明确的指导意义。 我们希望汉字保持长期的稳定,但是汉字总在发展,变化是绝对的,不变是相对的。从三千多年前的甲骨文进化到今天的楷书,汉字大多已经面目全非,图画性早已荡然无存,符号性逐渐得到增强,但是并没有发生过本质上的根本变化,字形仍是文字的根本。汉字怎样由它的成形线条构成部件,又怎样由部件构成数以万计的各不相同的形体,这就需要对字形的结构单位、结构层次、结构关系和结构模式进行分析。许多学者为此进行了有益的探索并且作出了可喜的成绩,汉字的结构方式已经到了可以重新认识并作出科学概括的阶段。 二 我们可以把汉字当作一种纯粹的符号和工具,通过研究汉字的基础理论,把汉字改革和汉字处理两项工作结合起来,有利于促进汉字的规范化和标准化,有利于解决汉字在信息时代所面临的难题。笔者根据信息时代的需要,总结了前人的一些研究成果,找到了汉字的形符——字元,并且从工程学的角度来认识汉字内部存在着的字元结构体系,使得每个汉字的结构图形能够转换成一串有序的线性的字元集合。 事实上,汉字的形符是客观存在的,字元作为汉字的拼形字母,只是长期以来没有被人发觉。在这里,本文将首先对汉字的形符——字元作些简单的介绍。 字元由汉字“田”蜕变而来,即汉字“田”上各直线段在不同取舍情形下的各种组合单元,例如:一、丨、二、三、十、干、土、工、王、匚、凵、口、日、田(这里用形状相近的汉字描述)。 研究表明,字元按一定的规则可繁衍出一系列自相似层次嵌套结构,成千上万的汉字及其构件与这些结构相同或相近。 (1) 一级衍生:字元上的正笔被某一字元取代,产生一级衍生字符。例如: 十→丰巾中申甘井 工→正 王→里缶 土→出击 (2) 二级衍生:一级衍生字符上一阶字元的正笔被某一字元取代,产生二级衍生字符。例如: 十→廾→册 十→→串 依次类推,字元通过衍生可产生一系列衍生字符,笔者将字元(元形字符)及其衍生字符统称为字元字符。 下面根据汉字的实际情况对汉字构件与字元间的关系作些简单分析。 零件是指构成汉字的可离析的、最小的、独立的笔画组合单元。 零件可以按其字元特征分为如下2类: (1) 元形零件 这类零件与字元形状相同或相近,同元异形零件可据此进行归类。例如: 二:二冫 三:三彡氵 干:干千 土:土士 王:王壬 日:日曰 (2) 衍生零件 这类零件与衍生字符相近,同元衍生零件具有相同的字元特征,可据此进行归类。例如: 干:午天开年 十:丰中巾甘井串册 工:正西酉 王:里五重 土:出击生 日:目 据笔者初步统计,GB2310-80中6763个汉字中共有零件333种,其中元形零件93个,衍生零件240个(一、二、三级衍生零件分别为159、69、12个),大都具有简单清晰的字元特征。 块件是指构成汉字的彼此分隔、相对独立的笔画结构块,它包括独个的零件和零件非线性组合块等汉字构件单元。本文将块件划分为如下两个大类: (1) 独体块件 即独个的零件,例如:冫、三、氵、川、厂、尸、丁、甲、申、由、曲、串、年、于、出、工、正、月、刀、目、田。 (2) 组合块件 即若干零件的非线性组合块,指一个或多个小零件分布在一个大零件的域内或周边,共同构成一个独立的方块整体。 组合块件又可细分为四种类型: a、包围型:同、周、凶、冈、区、围、囚 b、夹附型:斗、半、寸、夹、求、玉、噩、平 c、依附型:才、尺、木、未、末、本、飞、广 d、混合型:国、勾、疾、病、困、米、柬、鬼 我们通常将下列构件当作一个整体单元来看待:钅、纟、鱼、革、羊、竹。这些构件可以称作块件组合,即若干块件呈上下或左右关系的组合单元,简称块组。 在信息时代,部件的规范是汉字规范的一个有机的组成部分,现代汉字部件规范化已经刻不容缓,制订规范已经成为大家共同的要求,具有广泛的社会基础。近几十年来,国内外汉字构件研究者对汉字字形进行分析后,获得的构件(部件、字根)数就有惊人的差异:105、128、160、166、177、205、250、255、256、297、300、320、344、370、496、500、504、512、588、686,等等。在GB2310-80中笔者找到的零件只有333种左右,为什么会有这么大的差异呢?原因是多方面的,其中一个重要的原因还是,在不同的选取准则下,有的不仅挑选了一些零件,还选取了组合块件,甚至块件组合,有的则是先硬性确定了一些“优选”构件,对其它构件进行了人为处理。本文给出了零件严格的定义,实现了零件的定性、定量和定序。因此按照首尾一贯、既科学又方便的原则来分解汉字,笔者认为选取零件作为汉字处理的基本构件比较合理。在此基础上,我们可以期望汉字的部件达成更为广泛的共识。 综上所述,本文比较深入地探讨了汉字的结构层次,给出了汉字各级构件明确的定义和分类,建立起零件、块件、块组等完整的构件系统,从而实现了各级构件确定和归类的系统性、客观性。对于汉字处理,笔者认为如果汉字客观存在着一套形符,有助于汉字构件的命名、称读和进一步规范,有助于汉字的研究和教学,有助于汉字的排序和检索,汉字的键盘输入也可以像打英文单词一样轻松自如。 三 汉字发展到今天,作很大改动的可能性已经很小,对个别构件按确定的标准作进一步规范还是必要的。现在常常提到“汉字的规范化和标准化”,我希望拙文能提供一点参考意见就知足了。我相信,汉字要改革的话,一定要走世界文字共同的字母方向。汉字要实现与国际接轨,要实现信息化甚至字母化,从工程学的角度来认识汉字的内部结构体系无疑是一条崭新的思路。笔者衷心希望汉字不仅可以借助汉语拼音符号,而且凭借自已的拼形符号,展开双翼,迎接信息时代的到来。笔者的这些尝试,希望能起到抛砖引玉的作用,同时盼望继续得到专家学者和社会各界的支持和理解。 (湖南湘潭市建城路 45号,411100) 注释: ①高家莺、范可育、费锦昌《现代汉字学》,高等教育出版社,1993年。 ②张普《汉字部件分析的方法和理论》,(《语文研究》,1984年第1期。) |