§6.4 国标一级汉字拆分分析、线性排列、序性代码示例 我们已在上面提出实现拆分唯一性的示意图,即部件定义、部件清单、拆分规则三者相互制约,才能实现拆分的唯一性。因为,清单是定定义的属性产生出来的,而拆分规则是从清单中整理出来的。陈爱文将由定义产生的清单称为“天然部件”,而将由拆分规则最后确定的清单称之为“人工部件”以示区别,其设想不无独到之处。问题在于强调了“人工”确定,也即过分看重主观因素,致使表形码的部件清单出现“组合部件”,它的多少几个版本相差很大。这无疑是一败着。(6)诚然,忽视部件的客观性几乎是所有编码设计的通病,而陈爱文表形码的部件清单,只不过是美中不足而已。 本节将一级字库中的3755个汉字全部加以拆分,并按每个字中各个部件第一个笔画出现的先后作为排列顺序形成线性排列(见152-178页)。表中汉字又按部件的数量多少各自集合,既便于统计每个数量相同部件类中的汉字数和进行有目的的分析,又有利教学应用。根据拼形造字原理,部件数少的汉字,大多数是常用字。所以,在一级字库里,两部件字就有629个,而在二级字库中,两部件字就只有211个。 我们在两部件字的分析中已经列出的545个两部件字,可以看出在总数629个汉字中,87%的拆分已经没有疑义,含三部件的1250个字,象这样看去一目了然毫无疑义即可拆分的字上升到94.64%,给了我们两点提示:其一是汉字的部件增多无碍它的拆分;其二是我们下面这个一级字库所有汉字拆分示例表有助于拆分教学,只要把两部件字的拆分教好,加上教好拆分规则,其他字就不在话下。尽管个别字还需认真讨论,例如“丑”,拆为“、十”,还是拆为“、十、一”;“余”字是否拆为“人于”较好?这些字已为数不多,集中专家讨论即可。 参考文献: (1)陈代于等:《汉字音形码编码原理探讨》,载于《中文信息通联世界论文集》108页。 (2)苏培成:《现代汉字的部件切分》,载于《语言文字应用》1995年第3期。 (3)孙基寿:《描述汉字意境的编码——形意码》,载于《中文信息》1996年第6期。 (4)陈爱文:《汉字编码的理论与实践》第4页,学林出版社,1986年8月。 (5)张普:《汉字部件分析的方法和理论》,载《中文信息处理国际研讨会论文集》第3集。 (6)陈爱文:《汉字编码的理论与实践》第10页,学林出版社,1986年8月。 附:国标一级字库3755个常用汉字拆分分析、线性排列、序性代码表(略) |