语言文字网(YYWZW.COM)>>>专题文集>>>论汉文字改革
论信息时代的汉文字改革
陈
明
然
“第七次汉字书同文学术研讨会”2004年8月16日
中国
上海
四、汉文字的结构
4.1 汉文字的三个结构层次──画、文、字。
画,即笔画。在用笔作为汉语言的记录工具时,每个汉字都是一笔一笔地写出来的,但是,笔画并不是单个汉字的基本结构单位,而只是单个汉字的书写单位。也可以说,笔画是单个汉字的最小“构成单位”,它只是在整个汉文字即汉语言记录符号发展演变的历史长河中,“笔”作为汉语言主要记录工具这一特定历史阶段中产生和存在的一个概念。
张普先生说:最初的独体的文是象形的,它的结构和笔画并没有一定之规,而是随物体本身的曲线来象,与图形更接近。直到隶书出现,笔画才大大改观,真正形成平直方正,便于书写的笔画系统了(张普P147)。
一个单字,分解到笔画后,还能不能再分解呢?显然,不能再分解了。因此,笔画是单字结构上的最小元素。
本文把笔画称为字素。
定义4.1:字素是用笔作为汉语言记录工具书写楷体汉字时,每一次从落笔到提笔这段时间里,笔端在汉语言记录介质上的运动轨迹[14]
。
字素是单个汉文字的最小结构单位。
文,是指独体的用象形法和指事法造出来的汉语言记录符号。
清代王筠说:人之不识字也,病於不能分。苟能分一字为数字,则点画必不可以增减且易记而难忘矣。苟于童蒙时,先令知某为象形,某为指事,而会意字即合此二者以成之,形声字即合此三者以成之,岂非执简而御繁之法乎?(王筠 清
《文字蒙求·自序》)
王筠这里讲的是汉文字的教学法,但也说明了造字法。根据王筠的观点,最早的汉文字只有用象形法和指事法造出来的汉语言记录符号,后来为了适应社会发展所带来的语言表达的需要,人们在已有的这一类符号的基础上用会意法又造了许多新符号,如:上“小”下“大”为“尖”;“不”“好”为“孬”等等。再往后,人们的语汇愈加丰富,要求有更多的符号来记录它。会意法不够用了,又用了形声法。如:“鱼”原来是象形字,它只是鱼类的总称。随着对客观事物认识的不断深化,为了能够准确地表述不同种类的鱼,人们又用了“里”、“连”、“昌”……等和“鱼”组合,造出了“鲤”、“鲢”、“鲳”……等一批符号来。
以上所述构成“尖”的“小”和“大”、构成“孬”的“不”、“女”和“子”等已是独体的汉语言记录符号了。古人把这类独体的用象形法和指事法造出来的汉语言记录符号称为“文”。
字,由“文”经会意、形声等方法造出来的合体的汉语言记录符号称为“字”。
4.2 字元
4.2.1.字元
通过4.1节的讨论可知,“文”是介于“字”与“画”之间的一个中间层次上的构字单位,但是“文”还不是构成单字的基本单位。如前面提到过的“孬”字,是用“不”和“好”两字组成的会意字。组成“孬”的基本单位是“不”(文)和“好”(字),而不是“不”、“女”、“子”三个“文”。把“孬”字分析为由“不”、“女”、“子”组成,不但不符合这个字构成的事实,就是在字义上也说不通。
为了解决构成汉字的基本单位这一问题,我们引入“字元”这一概念。
定义4.2:参与构造一个单字,在该字中起表音或表义作用,且本身具有完整的音节、明确的意义,结构规模小于且仅小于所参与构造的单字的汉语言记录符号,称做这个单字的字元。
所有的汉字,都是由字元构成的。对于合体字来说,每个字总是由两个或多个结构单位组成,这些结构单位就是字元;对于文(独体字)来说,我们可以把它看作是由单个字元组成的字,这个字元就是这个文(独体字)本身。
参与构字的字元,在其所参与构造的单字中,总是起一定的作用的。它们在该单字中或表音,或表义。如“花”字,其中的“艹”表义、“化”表音。前已提到过的“孬”字,其中的“不”和“好”合起来表示“不好”的意思,都是表义的。
“艹”、“化”、“不”、“好”等都具有完整的音节(“艹”即“艸”,念cǎo)和明确的字义[15]
。
应该说明的是:“亻”和“
”以及“女”和“子”也都有完整的音节和明确的字义(“亻”是“人”的变形,可以认为具有和“人”相同的字音和字义。“
”音huà,“变化”
义),但它们不是“花”或“孬”的基本构成单位。“亻”和“
”的结构规模比“化”小,“女”和“子”的结构规模比“好”小,它们都不符合字元定义中“结构规模小于且仅小于其参与构造的单字”这一条件。“亻”和“
”是“化”的字元,而不是“花”的字元;同理,“女”和“子”是“好”的字元,而不是“孬”的字元。
类似上述“花”、“孬”两字的例子,在汉字中是举不胜举的。由于汉文字中形声字和会意字二者合起来占汉文字总数的95%以上,而形声字和会意字均由二个或二个以上的字元构成,所以以上分析方法是不失一般性的。
4.2.2“字元”与“文”,原始字元
字元并不等同于独体的“文”,这在对“花”和“孬”两字的分析中已经得到了说明。毫无疑问,所有的“文”,都是参与构造汉字集的元素,也即“字元”,但不是每一个字都以“文”为基本单位构成。借用数学上的术语来说,这是一个充分条件而不是必要条件。
“文”是所有字元中最活跃的因素,它们具有非常强的构字能力。
定义4.3:所有由用象形法和指事法构造的记录符号演变而来的独体的“文”,称为原始字元。
由于汉文字长期演变的结果,一些原来独体的“文”变成了合体的“字”;一些原来合体的“字”变成了独体的“文”。例如“黾”字,原为青蛙形,现在可以分解为“口、电”;“吕”字,小篆为脊梁骨形,现在可以分解为“口、口”。又如“及”,甲骨文从“又”、从“人”,表示“追及”的意思,会意。“书”字,小篆从“聿”、“者”声,为形声字,现在“及、书”都是独体字。(孙钧锡 1991:P316)我们前面讲的“原始字元”,不包括这一类字在内。
4.2.3.单体字元和复合字元
定义4.4:参与构字的独体的“文”,称为单体字元。
单体字元在形、音、义上是不可分解的整体。
定义4.5:参与构字的合体字称为复合字元。
定义4.6:义元——起表义作用的字元称为义元。
定义4.7:音元——起表音作用的字元称为音元。
这四个定义的含义很清楚,就不一一举例说明了。
为了便于讨论,我们在广义上把每个单字本身也看作字元,正如数学上把一个数本身看作它的约数一样。
4.2.4.字元之间的亲缘关系和字元分代
参与构造同一个单字的若干字元之间存在着亲缘关系。还以“花”字为例。我们已经知道,“花”字由“艹”和“化”构成,“化”又由“亻和“
”构成。显然,“艹”和“化”的产生在“花”之前;而“亻”和“
”的产生又在“化”之前。我们可以这样说:“亻”和“
”的结合产生了“化”(此时“亻”是义元,“
”为义元兼声元);而“艹”与“化”的结合又产生了“花”(此时“艹”是义元,“化”是声元)。如果把汉文字人格化,就可以说:“亻”和“
”是“化”的父母,而“艹”和“化”又是“花”的父母。这是一个祖孙三代的字元家族。如果把“亻”和“
”作为父辈,那么“化”就是子辈,而“花”则是孙辈。如果从“花”出发,上溯寻祖,那么“艹”和“化”是“花”的父母,而“亻”和“
”是“花”的祖父母。
本文把当前需要处理(书写或输入)的单字称为当代字元;把作为构成当代字元的基本单位的字元称为该单字的父代字元;把作为构成父代字元的基本单位的字元称为该单字的祖代字元。
根据以上讨论,我们把定义4.2调整为定义4.8:
定义4.8:字元——具有完整的字形和音节,并有明确的字义的汉语言记录符号。
又有:
定义4.9:当代字元——当前需处理(输入或书写)的单个汉语言记录符号。
定义4.10:父代字元——参与构造一个当代字元,在其中起表音或表义作用,结构规模小于且仅小于该当代字元的字元。
定义4.11:祖代字元——参与构造一个父代字元,在其中起表音或表义作用,结构规模小于且仅小于该父代字元的字元。
4.2.5 原形字元和变形字元
汉文字中的字元,存在着一元多形的情况。如“人”作为父代或祖代字元处于其下一代字元左边时,其形往往为“亻”;“手”作为父代或祖代字元处于其下一代字元左边时,其形往往为“扌”;“刀”作为父代或祖代字元处于其下一代字元的右边时,其形往往为“刂”。平常大家习惯把“亻”、“扌”、“刂”等字元称为“部首”。“部首”这个概念是许慎编《说文解字》时为把含有相同字元的字进行归类以便于检索而提出来的。笔者认为结合造字法和信息时代的特点,还是用一元多形来解释为好。
字元的一元多形,在1956年公布(1986年重新公布)的《简化字总表》和1965年公布的《印刷通用汉字字形表》中也有明确的规定。
《简化字总表》规定:第一表的350个简化字不得作简化偏旁用。也就是说,这些字元作当代字元(单字)用时,要用简化的字形;作为父代字元或祖代字元用时,仍用繁体字形。
《简化字总表》第二表中规定十四个简化字元(偏旁),作父代或祖代字元(偏旁)用时,字形於以简化。如“言”要用“讠”;“金”要用“钅”等等。但作为当代字元(单字)用时,不简化。
又如《印刷通用汉字字形表》规定:“土”、“工”、“立”、“王”、“子”、“止”、“牛”、“足”、“车”、“马”、“鱼”、“血”等原始字元作为父代字元(偏旁)处于字的左边时,末笔的横均变形为提,如“地”、“功”、“竭”、“琼”、“孙”、“歧”、“物”、“路”、“轩”、“骆”、“鲜”、“衅”等。“手”、“辛”、“半”、“羊”等作为父代字元(偏旁)处于字的左边时,末笔的竖均变形为撇,如“拜”、“辣”、“叛”、“羚”等。“衣”、“禾”、“米”、“耒”、“夋”等作为父代字元处于字的左边时,末笔的捺变形为点,如“袖”、“稗”、“粮”、“耕”、“皴”等。“己”、“先”、“光”、“七”等作为字元处于下代字元的左边时,末笔都变形为竖提。如“改”、“赞”、“辉”、“切”等等。
在《新华字典》和《汉语大字典》中,都把“爪”和“爫”归为同一部;把“犬”和“犭”归为同一部等等,也说明了“爫”是“爪”的变形;“犭”是“犬”的变形。
定义4.12:一元多形的字元,其作为当代字元使用时的几何形状为这个字元的原形。使用原形的字元称为原形字元。其作为父代字元或祖代字元使用时与原形相异的几何形状为这个字元的变形,使用变形的字元称为变形字元。
变形字元所携带的音、义信息与其对应的原形字元相同。许慎在《说文解字》中把以“扌”为父代字元的字均解为“从手”;把以“犭”为父代字元的字均解为“从犬”等等,就是证明。
4.2.6 省形字元
历代辞书,对某些字都有“某省形”、“某省声”的分析。“省形”是指省略某个字的形(义)元;省声是指省略某个字的声元。例如《说文》对“秦”字的分析是“从禾,舂省”。意指“”为“舂”的省形字元。徐锴繫传曰:“舂禾为秦,会意字也”。说明“”虽然只是“舂”的局部,但在“秦”字中仍然起表达“舂”字整体信息的作用。应该说,这里除了“形”这一因素,在“音”、“义”两方面“”都等同于“舂”。又,“甤(音ruí)”字被分析为“从生,豨省声”。不管是“省形”还是“省声”,都是在字形上省略了部分字元。
定义4.13:作为父代字元或祖代字元使用时,省略了部分上代字元的字元称为省形字元。对应的省略前的字元称作该省形字元的原形字元。
省形字元是携带其原形字元的音、义信息参与构字的,所以,它是原形字元的等价字元。省形字元携带的音、义信息均与其对应的原形字元相同。
由于省形字元比之原形字元缺省了部分上代字元,所以造成了这类字元在字形上的模糊性,而字形上的模糊又带来了这类字元音、义上的模糊性。
省形字元同变形字元都在字形上与原形字元存在差异。二者的区别是:省形字元省略的往往是其整个上代字元,且在省略部分字元以后,余下部分的几何形状与原形字元中相应部分的几何形状仍然相同。变形字元改变的是字素的形状,变形后内部有一个或多个字素甚至全部字素的几何形状与原形字元不同,有些变形字元的字素数量也和其原形字元的字素数量不相等。
4.2.7 多音字元
汉文字集合中存在一个子集——多音字集。多音字集中的元素在不同的语言环境中有时取不同的读音。类似地,多音字集中的元素作为父代或祖代字元参与构造下一代字元时,在不同的构字环境中所取的读音有时也不相同。
如“句”有两个读音jù
和gōu。在“够”、“狗”、“苟”等字中,它是以gōu音作为音元参与构字的;而在“拘”字中,它是以jù
音作为音元参与构字的。再如“戋”,也有两个读音,一是jiān ,另外一个是cán 。在“笺”、“浅”等字中作父代字元用来表音时,用的是jiān音;而在“残”、“栈”等字中作父代字元用来表音时,用的是cán音。
定义4.14:以父代字元或祖代字元身份出现的多音字,称为多音字元。
4.2.8 连体字元
某些单字的上代字元之间存在一种情况,就是字素共用。所谓“字素共用”,是指两个字元结合构造一个下一代字元时,由于结合部相邻字素的几何形状相同,就省去其中一个字元的这部分字素,共用某些字素。例如“釜”字,就是省去了“金”头上的“人”,让“父”和“金”共用了“父”的最下边部分的字素。《说文》:“釜,或从金,父声。”《汉语大字典》卷六第4177页“
”条:“同‘釜’。…段玉裁注:‘今经典多作釜’”。我们把这一类字元称为“连体字元”[16]
。
定义4.15:如果两个字元共同参与构成一个下一代字元时,单方或双方省略自身与另一字元相邻处的字素,与对方共用其与己结合部的字素,则称这两个字元互为连体字元。
4.2.9 单字中字元间的几何位置关系
前已提到过,参与构造一个字的所有字元组成一个字元家族。在这个字元家族中,各代字元之间除了血缘关系,还存在着两种关系:一是字元之间的音、义关系;二是字元之间的几何位置关系。
字元间的音、义关系,在4.2.1、和4.2.4两小节已有阐述,现在着重讨论字元之间的几何位置关系。
一个当代字元,其父代字元之间的几何位置关系,共有五种,它们是“左右关系”、“上下关系”、“鼎立关系”[17]
、“包围关系”和“穿插关系”。
在中小学的识字教学中,习惯上还讲“左中右关系”、“上中下关系”。其实,结合字元族的形、音、义关系及血缘关系来分析,上述两种关系实际并不存在。这两类单字实际上是分属于“上下关系”、“左右关系”和“穿插关系”的。
例如“鹏”,如果单从几何形状上分析,可以讲该字由两个“月”和一个“鸟”形成左中右关系,但结合音和义来分析,显然“鹏”由“朋”和“鸟”两个父代字元构成,其中“朋”作声元、“鸟”作义(形)元,两个父代字元构成左右关系。
又如“密”,是由“宓”和“山”两个父代字元构成上下关系。《说文》:“密,山如堂者。从山,宓声。”段玉裁注:“密,主谓山,假为精密字而本义废矣。”如果把“密”的字元结构关系分析为是由“宀”、“必”、“山”构成的“上中下关系”,显然错误。
对于字元间的穿插关系,平时人们讲得较少,其实这一类字还是不少的。如“衷”,是由“衣”和“中”两个父代字元构成穿插关系。《说文》:“衷,…从衣,中声”。还有“街”由“行”和“圭”构成穿插关系。《说文》:“街,四通道也。从行,圭声。”再如“褒”、“亵”、“衙”、“衔”等等都是两个父代字元构成穿插关系的字。
对于包围关系,在识字教学中习惯再把其细分为“全包围”和“半包围”,其中“半包围”又分为“上下包围”、“左右包围”、“左下包围”、“右上包围”…
等等。但从形、音、义上综合分析,“全包围”和“半包围”两者却并无不同。例如“国”和“匣”,都是一个父代字元包围另一个父代字元。“国”是“囗(wéi)”包围“玉”;“匣”是“匚(fān)”包围“甲”。还有“建”是“廴(yǐn)”包围“聿”;“庆”是“广”包围“大”等等。本文把它们统归为“包围关系”,不再细分。
字元间的几何位置关系与字元间的音、义关系有着密不可分的联系。一般地,从一个当代字元的几何结构中分析出来的几个部分,就是该当代字元的父代字元。左右关系中的左、右两部分;上下关系中的上下两部分;包围关系中的包围部分和被包围部分;穿插关系中的被穿插部分和穿插部分;鼎立关系中形成鼎立的三部分,都是如此。依据各字元本身固有的音、义信息,结合其字形上的几何结构,可以迅速准确地分析出该字元的上一代字元来。
4.3 字元树
4.3.1 字元树
通过以上章节的讨论,我们可以得出结论:从每一个汉字中均可以分解出当代字元、或父代字元或祖代字元甚至曾祖代字元。有的字是两代同堂,有的字是三代同堂,极少数字如“癌”是四代同堂。对于独体的文即单体字元来说,只有一代即当代字元。
因此,我们可以说,每一个汉字都是由其各代字元组成的。组成某个字的各代所有字元构成一棵字元树。每一棵字元树的根,就是当前处理(书写或输入)字,即当代字元。根的上一层节点,是当代字元的父代字元。父代字元的上一层节点就是祖代字元。
( a ) (b1) (b2) (c1)
(c2)
图五 字元树结构分类
字元树大致有三类五种(见图五):一类是只有一个根(当代)节点的字元树,它描述了原始字元(即独体的文)的结构。第二类是具有根(当代)节点和其父节点的字元树,其中(b1)描述了鼎立关系的字元结构,(b2)描述了只有两个父节点的结构。再就是具有根(当代)节点、父节点以及祖节点的字元树,也分两种情况:一种是(c1)所描述的,父代1节点有两个祖节点,父代2节点没有祖节点;另一种是(c2)所描述的,父代1节点没有祖结点,父代2节点有两个祖结点。还有极个别的字元树是由一个当代节点和4个父节点构成,如“
”。
五种字元树可以分别用“口”、“晶”、“明”、“盟”、“唱”为例来说明(见图六)。
图六 字元树例
4.3.2 字元树的逆构特征
字元树是一种逆构树,这是它区别于自然树的重要特征。
自然树在空间上,树根在下,树叶在上;在时间上,先有树根,后有树叶。
字元树在空间上是和自然树相同的,树根在下,树叶(最高一代字元)在上;而在时间上却和自然树相逆,是先有树叶,最后才有树根,故称其为“逆构树”。相应的,当我们在编码过程中对汉文字进行分析以提取码元时,就应采取和字元树形成时序相逆的次序,从根节点出发,然后中间节点,最后到树叶。
4.3.3 字元树是规范汉文字编码的结构模型
对于每一个汉文字,只要分析出其字元树结构,并确立了字元树上各节点(码元)跟码素(符)的映射关系后,通过对该字元树的遍历[18]
,即可得到这个汉文字的编码。
如根据4.3.1节图六中的字元树例,假设以码元的普通话读音首字母作码素(符),那么通过遍历字元树[19]
,可得“口”的代码为“k”;“晶”的代码为“jrrr”;“明”的代码为“mry”;“盟”的代码为“mmmry”;“唱”的代码为“ckcrr”。
由遍历字元树所得到的代码是符合汉文字规范的。
首先,遍历字元树所得到的码元及其排列次序,是符合汉文字字形规范的,这是因为字元树反映的正是其对应汉文字的规范字形结构,所以,遍历字元树得到码元组合后再向码素(符)集映射得到的代码无疑也是符合汉文字字形规范的。
其次,遍历字元树所得到的代码,是符合汉文字读音规范的,这是因为它的码素(符)反映的就是构成单字的各代字元的读音信息,其中当代码反映的即是该单字本身的读音信息。
再次,遍历字元树所得到的代码,是符合汉文字书写规范的,这是因为它不存在单字字形信息的丢失现象。前面说过,码元与码素之间一对一的映射关系要求编码对象要能提供不少于最小码长值同时又不超过最大码长值的信息单位(码元)数。如果一个单字所能提供的编码信息单位(码元)数超过规定的最大码长,就产生了编码信息冗余。在以往的定长形码和形音码中,往往采取丢弃多余的编码信息(码元)的方法来保持码长的一致,这就势必造成单字字形信息的丢失。如“癌”被分解为“疒(音nè)、口、口、口、山”五部分后,设最大码长定为4,就只能取“疒、口、口、山”作为码元,丢掉了一个“口”。从汉文字的使用规范来讲,这是不允许的,就如同我们用笔写字不能少笔缺画一样。遍历字元树得到的代码,不会出现单字字形信息的丢失现象。从字元树根结点取得的一个当代字元码就已经包含了该单字的全部字形信息;而在其父代字元中,又已包含了祖代字元的全部字形信息。
由遍历字元树所得到的代码也是具备实用基础的。由于代码中的码素取自码元的读音信息,可以直接使用计算机键盘上的26个拉丁字母即码符来表示码素,码素集和码符集相等,省去了对于码元键位分布的记忆,其学习量与拼音码十分接近,加上它的规范性,就很容易实现与中小学识字教学的融合。
字元树模型还有可能在无字库汉字处理技术上得到应用。可以设想,仅仅在计算机中存储几百个原始字元的字形信息,当显示或打印输出时,按遍历字元树的次序遍历并读出构成当代字元的各个原始字元的字形,再用相关的算法装配成字。这将极大地节约计算机资源。
最后,字元树模型还适用于包括繁体字在内的所有汉文字。我们随便找简、繁汉字集合中的哪一个单字来分析,都可以验证这一点,这里就不赘述了。
4.4 应用字元树编码模型尚待解决的矛盾
4.4.1 汉文字键盘输入编码对单字信息量的要求与部分汉文字编码信息短缺的矛盾
前已提到,汉文字和计算机标准键盘字母键符在数量上的矛盾,要求我们必须对汉文字实施编码。编码之所以能解决这一矛盾,是因为对26个拉丁字母码符集每次取一定数的元素进行排列组合,就可以产生汉文字数量所要求的编码空间。这就产生了一个最小码长的要求。我们仍然设码符集元素数为M,码素集与码符集相等,码长为n,编码空间大小为K,则由3.1.1节(5)式
有
(8)
以对编码空间要求最小的《基本集》为例,
,
,可求得
=3。也就是说,每单个汉文字所能提供的平均码元数应不少于3。实际上,由于汉文字在编码空间的非均匀分布,要求每单个汉文字所提供的平均码元数还要大于3。可是,在4.3.1节的图五中,存在着只有一个根结点的字元树,它表示了汉文字集合中单字的单体字元结构。也就是说,单体字元即独体的文作为当代字元时,无法提供编码所要求的信息量,这就产生了编码对单字信息量的要求与单体字元编码信息短缺的矛盾。
编码对单字信息量的要求与单体字元编码信息短缺矛盾存在的原因,在于单体字元本身形、音、义的不可分性。如果在这种情况下,对单体字元强行进行分解,就势必造成对这类单字的肢解,破坏汉文字的规范使用。
4.4.2 编码信息鲜明性要求与部分字元形、音、义信息模糊的矛盾
当通过对字元树的遍历进行编码时,字元树的各个节点就充当了码元的角色。为了能方便地实现从码元到码素的映射,就要求每个码元能够提供鲜明的读音信息。字元树的各个节点就是单字的各代字元,所以每个字元都应有鲜明的读音信息。字元的“音”又是由其“形”承载的,故而又要求每个字元应有完整的“形”。“形”完整则“音”自现,“形”、“音”备则“义”自明。
在当代通行的汉文字中,却又存在着部分字元形、音、义信息模糊的情况。一是有些字中的父代、祖代字元,原本是单字,但现在不作单字用了,人们渐渐淡忘了它原先的读音。如“行”字的两个父代字元“彳(Chì)”和“亍(Chù)”、“包”字的父代字元之一“勹(bao)”、“登”的父代字元之一“癶(bō)”、“病”的父代字元之一“疒(nè)”等等;二是前已提到的如“”之类的省形字元,由于其“形”的省略,使其所承载的“音”的信息也变得模糊了;三是连体字元中粘连在一起的二个字元之间界线模糊;四是变形字元的读音不明确;五是在汉字简化时,对某些字的简化模糊了甚至丢失了其字元原有的读音信息。如“應”字简化为“应”后,“广”所包围的“倠(suī)”和“心”[20]
由读音无从考证的“
”代替,丢失了字元原有的读音信息。
上述五种情况的存在,引起了编码对码元信息鲜明性要求与汉文字的部分字元形、音、义信息模糊的矛盾。这一矛盾的存在,造成了对一个单字进行码元分析和从码元中提取编码信息的困难,不利于编码规范性和实用性的实现。
4.4.3 编码唯一性要求与编码空间冲突的矛盾
一个代码集合中的每一个元素,即每一个代码,在汉文字集合中都应该有且仅有一个元素即一个汉文字与之相对应。相对于某一个代码,如果有二个或二个以上汉文字与之相对应,那么当我们在键盘上输入这个代码时,字库中代码相冲突的二个或二个以上汉文字就会同时响应,因而造成混乱。虽然可以在软件技术上采用选择上屏的方法对这一情况进行处理,但这是以降低输入速度作为代价的,只能是一种权宜之计。无论从理论还是从实用的角度考虑,代码冲突都是需要消除的。
但是,除了实用价值极低的流水码,其他类型的任一种汉文字编码目前均还无法避免代码冲突。作为例子,让我们来考察“池”、“抽”两字的编码。按遍历字元树的方法,可得出“池”由“氵”和“也”两个父代字元构成;“抽”由“扌”和“由”两个父代字元构成。两个字均没有祖代字元。“氵”是“水”的变形字元,我们视其具有和“水”相同的音和义,所以取其读音“shui”的首字母“s”作为码素;“扌”是“手”的变形字元,同理,取其读音“shou”的首字母“s”作为码素,“也”和“由”的读音首字母都是“y”,由此得出“池”、“抽”二字的代码都是“csy”,这就产生了代码冲突。代码冲突现象的存在向我们展示了信息时代汉语言记录工具和记录符号之间的又一个矛盾,即编码唯一性要求与编码空间冲突的矛盾。这一矛盾的存在,不利于零编码冲突率的实现,降低了编码的实用性。
------------------------
[14] 国家语委语言文字规范GF3001-1997中“笔画”定义是:“构成楷书字形的最小连笔单位。”
本文之所以不用人们习惯了的“笔画”而用“字素”这个词,是因为考虑到“笔画”这一名词,只是汉文字系统在其包括过去和未来的发展历史长河中一个特定阶段中的用词。在甲骨文时代,人们用刀在龟甲上刻字,那时候还没有笔,而且从甲骨文的字形来分析,也不存在横平竖直的笔画系统,自然不会有“笔画”这个词以及相应的概念。只有当汉语言的记录工具完成了从刀到笔的转变以后,“笔画”这个词才得以产生并被人们广泛使用。电子计算机在汉文字处理领域得到广泛使用后,人们使用各种编码方案通过计算机的键盘输入汉字,已不再是一笔一画地进行了。显示屏上显示汉字和打印机打印汉字也不是按笔画进行了。使用“字素”这个词,可以超越历史的局限,适用于汉文字发展的各个不同历史时期。
[15] 《汉语大字典》,四川、湖北辞书出版社(1986
—
1990),五卷p3172“艸”条:《说文.
艸部》:“艸,百芔也。从二屮。”按:隶、楷作“艹”。
[16]
关于连体字元的详细论述,请参阅陈明然《连体部件小议》。《汉字书同文研究》第5辑,香港文化教育出版有限公司2004年出版。
[17]
即指平时所讲的“品字结构”。之所以不用“品字”这个词而用“鼎立”,是因为本文认为原来用“品字结构”来表述这类单字中字元几何位置关系欠妥。字元间的几何位置关系与“品”字相同的还有“晶”、“鑫”、“众”……等,它们与“品”在父代字元几何位置关系方面的特征完全相同,谈不上哪个更具代表性。对这一类字,我们也可以把其字元间几何位置关系称之为“晶字关系”、
“鑫字关系”、“众字关系”……。再者,如果说构成“品”字的三个“口”形成“品”字关系,就成了自我循环说明。采用该字集以外而又能准确描述该字集中所有元素特征的“鼎立”这个词,比较原来的提法要更妥些。
[18]
关于树及树的遍历请参阅陈小平《数据结构》,南京大学出版社(1994年2月版)。
[19] 树的遍历方式有“先根遍历”、“中根遍历”、“后根遍历”……等等。在汉文字的计算机输入编码中采用何种形式为好?可以展开讨论。
[20]《汉语大字典》卷四 P2359“應”条:《说文》:“應,當也。从心,
声”。卷六 P4098“
”条:音ying 。
|
|
|