二、能不能把汉字部件作为汉字编码的“码元”?
内容摘要
我国最具权威的“部件理论”家王宁教授说 “不通过部件,就无法确立码元”。显然,这并不能说明王宁教授无知,因为王宁教授知道,“王码”、“表形码”、“二笔”等种种汉字编码的码元都不是通过部件确立的。王宁教授强调的是要把“汉字部件”作为汉字编码的“码元”。
至于如何通过部件确立“码元”,即把“汉字部件”作为汉字编码的“码元”,王宁教授一言未发。民间的“部件理论”家潘先生则有长篇大论。“将汉字拆为几百个部件,根据各个部件第一个笔画出现的先后,就能使每一个方块汉字成为线性排列;根据这几百个部件的结构和特征将它们分为几十个类,每个类取一个有序的键盘符号作为代码,方块汉字就带上了直接的序性,既可用于排序、检索,同时也可用于电脑输入。汉字现代化也就全面实现了”。显然,这是假的。
首先,王宁教授说的“不通过部件,就无法确立码元”,这是个伪命题。如果将王宁教授“拆分”20902个汉字得到的560个汉字部件作为汉字编码(编制形码)的“码元”,根本不能为我国几万个汉字和上百万汉字词组,编制成一套适用于汉字的计算机键盘输入的、有规律可循的、不用死记硬背的、科学有序的符号系统。
我们知道,进行汉字编码必需确立汉字编码的“码元”。即提取汉字的特征信息元素作为汉字编码的“码元”。汉字的基本规律是汉字编码的编制者和汉字编码的使用者的共同语言。汉字编码的“码元”只能是根据汉字的基本规律来“确立”。
可是,“部件理论”家王宁教授不懂得这个常识,不知道汉字编码必需遵循汉字的基本规律,自以为单凭主观意识“确立”汉字编码的“码元”,即将“规范”的560个汉字部件作为汉字编码的“码元”进行汉字编码,就能够为我国20902个汉字、几百个汉字的标点符号和和上百万汉字词组编制一套适用于汉字的计算机键盘输入的、科学有序的、有规律可循的、不用死记硬背的符号系统。实在是异想天开,太幼稚了。
例如为560个汉字部件编制“代码”。一个汉字部件的“代码”的码长只能是1码长。将这560个部件直接分布到计算机键盘的共36个不同键位上。平均每一个键位要安放16个部件,即一个键位上16个部件要共用一个“代码”。如何将其16个部件的“代码”排序?又如何取其代码进行汉字编码?有什么规律可循?没有,不可能有。
再如关于单个汉字的编码。对2万多个汉字和数百万条汉字词组进行编码。汉字词组的编码是汉字编码的主体。其码长应为5码长。按照“部件理论”对单个汉字进行编码,分为两类:⒈“单部件字”的编码,⒉“多部件字”的编码。如“口”,当“口”作为一个“汉字部件”,其代码的码长只有1码长。当“口”作为一个汉字,作为一个“单部件字”,其编码的码长要为5码长。除了汉字编码的编制者凭主观编制的“规则”让这种“单部件字”由1码长增加到5码长,还有什么别的什么有“规律”可行的“规则”?没有。不可能有。
再如“多部件字”的编码。如有“齒”字构成的“齜齞齟齪齫䶡䶣”等60个“多部件字”各字的前15个笔画相同,各字的前7个“部件”相同。又如何按5码长的要求,对这60个“多部件字”进行码长为5码长的单个汉字的编码?如何对这60个“多部件字”的编码进行“科学有序”的排列?显然“部件理论”家也无能为力。
再如汉字词组的编码。如“东方”、“南方”、“西方”、“北方”这4个由2个“单部件字”构成的汉字词组各字的第一个笔画相同。一个部件的代码只有
最后的结论,一是根本不可能为560个汉字部件编制一套科学有序的汉字部件代码系统。这就使将汉字部件代码作为汉字编码的“码元”的汉字编码失去了科学的基础。二是根本不可能为2万多个汉字和数百万条汉字词组编制一套使国民能够依据自己的汉字知识“见字识码”,根本就不需要死记硬背,像输入英文那样轻松地输入汉字的科学有序的符号系统,即汉字编码系统。
王宁教授在中华人民共和国教育部主管的《语文建设杂志》1997年第3期发表的《汉字构形理据与现代汉字部件拆分》一文,除了提出上面所谈的“汉字是由部件构成的”,还提出了“不通过部件,就无法确立码元”的理论。难道王宁教授不知道“王码”、“表形码”、“二笔”等种种汉字编码的码元都不是通过部件确立的?显然,王宁教授并不是无知。王宁教授说“就计算机形码的编制来说,不通过部件,就无法确立码元”,显然,王宁教授强调的是要把“汉字部件”作为汉字编码的“码元”。
王宁教授在《汉字构形理据与现代汉字部件拆分》一文中声称,“本文要论述的,主要是理论问题”。但是,王宁教授没有“论述”为什么“不通过部件,就无法确立码元”!至于如何通过部件确立“码元”,即把“汉字部件”作为汉字编码的“码元”,大概是因为“有关的操作技巧问题,留待另文讨论”,王宁教授一言未发。为了把“汉字部件”作为汉字编码的“码元”落到实处,王宁教授起草的《信息处理用GB13000.1字符集汉字部件规范》的《汉字基础部件表》规范了560个“汉字部件”。强调“本规范对中文信息处理,特别是对汉字键盘输入方法,具有规范作用”。
关于要把“汉字部件”作为汉字编码的“码元”这一话题,民间的“部件理论”家潘德孚先生却有长篇大论。潘先生在评《汉字部件规范》(http://www.yywzw.com/pan/pan-03b-06.htm)一文中说,“汉字编码的实质是为汉字设计一套有序的符号系统。”那么,“如何设计这套符号系统”?潘先生提出“把部件作为汉字编码的基本单元”。潘先生说,“汉字有几万个,即使常用的也有三四千个。而键盘上只有几十个有序的键符,……这里产生了一个两难问题:既要使几十个键符能够代表所有的汉字,又要使它们能够分别地代表各个不同的汉字。这个方法就是把汉字拆分为部件……这等于增加每个字的代码数量,也就是增加了区别性能”。潘德孚先生一语道破了为什么“把汉字拆分为部件”的原由。潘先生为了畅行无阻地把汉字拆分为部件,“把部件作为汉字编码的基本单元”进行汉字编码,将“独体字”、“合体字”、“部首”这样的“老概念”从现代汉字体系中勾销。潘先生说,“现在再使用‘独体’、‘部首’这样的老概念,对部件这个概念科学地落实,有害而无利”。潘先生一片痴心地说:“汉字拆分后的几个部分,按第一个笔画出现的先后进行横式排列,方块组合的汉字,就变成了线性排列的形式。置换成一串键符代码,汉字就成了线性的有序的文字了。”潘先生在《汉字编码设计学》〔1997年11月中国城市出版社出版〕写道:“将汉字拆为几百个部件,根据各个部件第一个笔画出现的先后,就能使每一个方块汉字成为线性排列;根据这几百个部件的结构和特征将它们分为几十个类,每个类取一个有序的键盘符号作为代码,方块汉字就带上了直接的序性,既可用于排序、检索,同时也可用于电脑输入。汉字现代化也就全面实现了”。
那么,王宁教授和潘先生所说是真的吗?显然,是假的。首先,王宁教授说的“不通过部件,就无法确立码元”,是假的。如“王码”、“表形码”、“二笔”等种种汉字编码的码元都不是通过部件确立的。其实王宁教授说的“不通过部件,就无法确立码元”这是个伪命题。因为“部件”概念本身是个伪概念。这一点笔者在《汉字是不是由“部件”构成的?——对“部件理论”的质疑之一》一文中做了说明。
至于王宁教授强调的,把“汉字部件”作为汉字编码的“码元”有没有道理?潘先生说的,“将汉字拆为几百个部件……汉字就带上了直接的序性”,“汉字拆分后的几个部分,按第一个笔画出现的先后进行横式排列,方块组合的汉字,就变成了线性排列的形式”。是不是真的?下面我们就来考证这一点。
首先,我们假设,如果将王宁教授“拆分”20902个汉字得到的560个汉字部件作为汉字编码(编制形码)的“码元”,究竟能不能为我国几万个汉字和上百万汉字词组,编制成一套适用于汉字的计算机键盘输入的、有规律可循的、不用死记硬背的、科学有序的符号系统?如果将王宁教授“拆分”20902个汉字得到的560个汉字部件作为汉字编码(编制形码)的“码元”,为20902个汉字编制一套“形码”,那么这套“形码”将是一种什么样的汉字编码?
其答案是肯定的。如果将王宁教授“规范”的这560个汉字部件作为汉字编码的“码元”为这20902汉字编制“形码”,根本不可能为2万多个汉字编制一套适用于汉字的计算机键盘输入的、有规律可循的、不用死记硬背的、科学有序的符号系统。如果有人将王宁教授“规范”的这560个汉字部件作为汉字编码的“码元”为这20902汉字编制“形码”,其结果不过是为汉字编码“万码奔腾”的队伍再增加一名与“王码”、“表形码”等“形码”齐名的成员,其名称虽可命名为“部件码”,使其具有“部件”特色,以便与“王码”、“表形码”划清界线。
我们知道,进行汉字编码必需确立汉字编码的“码元”。即提取汉字的特征信息元素作为汉字编码的“码元”。我国近几十年来出现的“万码奔腾”的混乱局面从反面告诉我们,汉字编码的关键在于科学地确立汉字编码的“码元”。几十年来“码家军”上演的冠以种种不同圣名的、形形色色的“形码”,无一不是主观臆断地从汉字的多元的特征信息中截取汉字的某些特征信息元素,“天女散花”般地把它们“安放”在通用的计算机英文键盘的不同键位上,作为汉字编码的“码元”,繁杂无序、无规律可循,让汉字编码的使用者死记硬背。种种不同的汉字编码的发明家还自我吹嘘如何“好学”、“好用”!但是,我们的 “部件理论”家,包括王宁教授、潘德孚先生,执迷不悟。他们以为凭主观意志单一地提取汉字的“字形”类特征信息作为汉字编码的“码元”,就能为我国几万个汉字和上百万汉字词组,编制成一套适用于汉字的计算机键盘输入的、有规律可循的、不用死记硬背的、科学有序的符号系统。这实在是异想天开。
关于汉字编码,我们首先应该知道一个常识。这就是汉字编码的编制者所编制的汉字编码是供广大的汉字编码的使用者使用的。汉字编码的编制过程和使用汉字编码进行汉字的计算机键盘输入的过程,是同一的识别汉字和使用汉字的过程。汉字编码的编制者对汉字进行编码和广大的汉字编码的使用者使用汉字编码进行汉字的计算机键盘输入,都基于对汉字的识别。而对汉字的识别和使用,都基于对汉字的基本规律的认识。汉字的基本规律是汉字编码的编制者和汉字编码的使用者的共同语言。对汉字的基本规律的认识是对汉字进行汉字编码的编制者和运用汉字编码进行汉字的计算机键盘输入的使用者的共同基础。汉字的基本规律是汉字编码的编制者进行汉字编码必需遵守的基本规律。具体地说,汉字编码的“码元”只能是根据汉字的基本规律来“确立”。即根据汉字的基本规律,科学地提取汉字的特征信息元作为汉字编码的码元,为每一个汉字编制一组代码,即作为每一个汉字的编码。让汉字编码的使用者根据汉字的基本规律学习和使用汉字编码的编制者所编制的汉字编码,即能够使汉字编码的使用者“见字知码”。只要是符合和体现汉字的基本规律的汉字编码,就能够让汉字编码的使用者根据汉字的基本规律轻松愉快地“见字知码”,即学习和使用汉字编码。只有符合和体现汉字的基本规律的汉字编码,才能让汉字编码的使用者根据汉字的基本规律轻松愉快地“见字知码”,即学习和使用汉字编码的编制者所编制的汉字编码。汉字编码的编制者所编制的汉字编码如果违背了汉字的基本规律,汉字编码的使用者就无法根据汉字的基本规律轻松愉快地“见字知码”,就无法根据汉字的基本规律轻松愉快地学习和应用这种违背了汉字的基本规律的汉字编码。要学习和使用这种违背了汉字的基本规律的汉字编码,就只能是靠死记硬背。只有符合和体现汉字的基本规律的汉字编码,才是能够让汉字编码的使用者根据汉字的基本规律学习和应用的汉字编码,才是能让汉字编码的使用者根据汉字的基本规律轻松愉快地“见字知码”的汉字编码,才是能够让汉字编码的使用者轻松愉快地根据汉字编码的编制者说明的汉字的基本规律及编码规则对汉字即时进行编码输入的汉字编码,才是不需要死记硬背的汉字编码,才是真正的好学又好用的汉字编码。综上所述,汉字的基本规律是为我国20902个汉字编制一套科学有序的、有规律可循的、不用死记硬背的符号系统的科学根据。汉字的基本规律是为我国20902个汉字编制一套科学有序的、有规律可循的、不用死记硬背的符号系统的应该遵循和必需遵循的自然法则和准则。汉字编码必需根据汉字的基本规律,科学地提取汉字的特征信息作为汉字编码的“码元”。
所谓根据汉字的基本规律,科学地提取汉字的特征信息作为汉字编码的“码元”。就是要遵循汉字的“音形统一”的汉字的识别规律和汉字是由汉字笔画构成的、汉字笔画直接构成独体字(包括汉字的偏旁部首)、独体字(包括汉字的偏旁部首)直接构成合体字这一现代汉字形体的构成规律,同时提取汉字的“字音”或“字形”类特征信息作为汉字编码的“码元”进行汉字编码。每一个汉字的编码,均由“字音”和“字形”这两种特征信息元素的代码构成。汉字是集“字音、字形、字义”这三者于一体的固化了的信息魔块。汉字的汉“音形统一”的汉字的识别规律告诉我们,对汉字的识别必需依据汉字的“字音”和“字形”这两种特征信息来认识汉字,知道“义”在其中。同理,我们对汉字进行编码,必需同时提取汉字的“字音”和“字形”这两种特征信息元素作为码元。绝对不可单一地提取汉字的“字音”或“字形”类特征信息元素作为码元。如果单一地提取汉字的“字音”类特征信息元素作为码元进行汉字编码,就无法对如“事(shì)→士(shì)”等同音不同形的汉字进行有序编码,如果单一地提取汉字的“字形”类特征信息元素作为码元进行汉字编码,就无法对如“士(shì)→土(tǔ)”等同形不同音的汉字进行有序编码。汉字笔画直接构成独体字(包括汉字的偏旁部首)、独体字(包括汉字的偏旁部首)直接构成合体字这一现代汉字形体的构成规律,即汉字由汉字笔画横(一)、竖(丨)、撇(丿)、捺(乀)、点(丶)、折(乛)、钩(乚)等几种笔形的笔画,以笔画相离:笔画相接:笔画相交等形式构成的规律。现代汉字形体的构成,集中表现在汉字的四角的汉字笔画及其结构。如“刀”、“力”这两个字均由“丿”、“”两个笔画构成,即“刀”和“力”构成的成分相同。而“刀”、“力”这两个字的结构不同。其“刀”字是两笔相连接,而“力”字是两笔相交叉。王云五发明的“四角号码检字法”揭示了现代汉字形体构成的基本规律。“刀”字的左上角的笔形结构特征是“横一”,“力”字的左上角的笔形结构特征是“叉四”。作为“检字法”,遗憾的是王云五发明的“四角号码检字法”没有提取汉字的“字音”特征信息元素作为“检字法”的元素。
所谓同时提取汉字的“字音”和“字形”这两种特征信息元素作为汉字编码的码元,就是⒈遵循现代汉字的汉语拼音的规律,提取单个汉字的汉语拼音的第一个字母(即汉字的“字音”类特征信息元素)“abcde……”作为码元。将“uvi”这三个字母作为汉字的特殊符号编码的码元。这是因为单个汉字的如注音、韵母、声调等“字音”类特征信息元素对于汉字编码来说是冗余的特征信息元素。⒉遵循现代汉字形体的构成及其结构规律即汉字笔画及其结构规律,提取单个汉字的四角的笔形结构特征即汉字的“字形”类特征信码元素作为汉字编码的码元。即借鉴王云五发明的“四角号码检字法”,用“0~
我们要对2万多个汉字、几百个汉字的特殊符号和数百万条汉字词组进行编码,其码长应为
关于单个汉字的编码。对单个汉字进行编码,所谓同时提取汉字的“字音”和“字形”这两种特征信息元素作为码元,就是提取每一个汉字的汉语拼音的第一个字母(“字音”类特征信息元素)和依次提取每一个汉字的“左上、右上、左下、右下”角号码(“字形”类特征信息元素)作为码元,根据自己的识字水平,对认识的字,以“字音→字形”顺序排列成单个汉字的编码,如“刀(d1207)、力(L4404)、事(s5555)、士(s4114)、土(t4114)”。对不认识的字,以“字形→字音”顺序排列成单个汉字的编码。如“刀(1207d)、力(
关于汉字词组的编码。对汉字词组进行编码,所谓同时提取汉字的“字音”和“字形”这两种特征信息元素作为码元,就是区分构成汉字词组的单个汉字的个数,依次取其词组各字汉语拼音的第一个字母,再取其各字的左上角的号码、再取其各字的左上角的号码,依次以“字音→字形”的顺序排列成单个汉字词组的编码。如对由2个字构成的汉字词组,依次取其词组各字汉语拼音的第一个字母,再取其各字的左上角的号码、第2个字的右下角的号码,依次以“字音→字形”的顺序排列成单个汉字词组的编码。。如“东方(df400)”、“南方(nf400)”、“西方(xf100)”、“北方(bf100)”。如对由3个字以上多个字构成的汉字词组,依次取其词组各字的汉语拼音的第一个字母,再取其各字的左上角的号码,依次排列。码长最长
关于汉字的特殊符号的编码。
所谓汉字的特殊符号是指标点符号、数学符号、数字序号、单位符号、图形符号等。特殊符号编码的码长为
按上述规则提取汉字的“字音”类特征信息元素即汉语拼音的第一个字母所产生的码元如“abcde……”,与计算机键盘上的 “abcde……”字母键一一对应,按上述规则提取汉字的“字形”类特征信息元素即汉字的“四角号码”产生的码元如“123……0”,与计算机键盘上的“123……0”数字键下面的“qwertyuiop”10个字母键一一对应。
我们这样同时提取汉字的“字音”和“字形”这两种特征信息元素作为码元汉字进行编码,其码长为5码长,就能够为我国2万多个汉字、几百个汉字的标点符号和数百万条汉字词组,编制成一套适用于汉字的计算机键盘输入的、有规律可循的、不用死记硬背的、科学有序的符号系统。作者以自己发明的《一种以汉字音角特征为信息元的计算机汉字输入方法》(专利号97109191.9)为基础,自己编制和使用的《东方龙码》就是这样的一套适用于汉字的计算机键盘输入的、有规律可循的、不用死记硬背的、科学有序的符号系统。
可是,“部件理论”家王宁教授不懂得上述的这个常识,不知道汉字编码必需遵循汉字的基本规律,自以为单凭主观意识“确立”汉字编码的“码元”,即将“规范”的560个汉字部件作为汉字编码的“码元”进行汉字编码,就能够为我国20902个汉字和上百万汉字词组编制一套适用于汉字的计算机键盘输入的、科学有序的、有规律可循的、不用死记硬背的符号系统。实在是异想天开,太幼稚了。这跟“万码奔腾”中的其它的汉字输入法的发明家一样,指望凭自己主观制定的“编码规则”进行汉字编码,就能为我国20902个汉字编制一套适用于汉字的计算机键盘输入的、科学有序的、有规律可循的、不用死记硬背的符号系统,实在是异想天开,太幼稚了。“部件理论”把为我国的20902个汉字编制一套“形码”作为出发点和落脚点。显然,这个“出发点”就错了。所谓“形码”,就是将人们所熟悉的汉字的“字音”类特征信息弃之不用,单凭主观意志拆分汉字,单凭主观意志单一地提取汉字的“字形”类特征信息作为汉字编码的码元编制的一种汉字编码。凡是不讲汉字的基本规律,背离汉字的“音形统一”规律,单一地提取汉字的“字形”类特征信息作为汉字编码的码元编制的“形码”,无一是适用于汉字的计算机键盘输入的、科学有序的、有规律可循的、不用死记硬背的汉字编码。
下面我们再具体谈谈将“规范”的560个汉字部件作为汉字编码的“码元”进行汉字编码、编制“形码”存在的一连串的问题。
一是关于为560个汉字部件编制“代码”的问题。
把560个“汉字部件”作为汉字编码的“码元”,首先就要为这560个汉字部件编制“代码”。以便取其“汉字部件”的“代码”进行汉字编码。显然,一个汉字部件的“代码”的码长只能是1码长。那么这560个“汉字部件”的“代码”如何编制?
为这560个“汉字部件”编制“代码”有两种方法。
方法之一,将这560个部件直接分布到计算机键盘的不同键位上。或像“王码”那样,将键盘的键位分区,或像“表形码”那样,将键盘的键位不分区,无论哪种方法,都要将560个部件直接分布到26个字母键、10数字键,共36个不同的键位上,这样平均一个键位上要安放16个部件。这里有两个问题发生了。
问题1,根据什么规律将560个部件分布到不同区位的不同键位上?如将“口”这个部件安放到“A”键上,“口”字的编码就是“A”,“吅”字的编码就是“AA”,“品”字的编码就是“AAA”,如将“口”这个部件安放到“B”键,“口”字的编码就是“B”,“吅”字的编码就是“BB”,“品”字的编码就是“BBB”。那么根据什么将“口”这个部件安放到“A”键上,还是安放到“B”键?有什么规律可循?没有,不可能有。
问题2,将560个部件分布到计算机键盘上的26个字母键、10数字键,共36个键位上,平均每一个键位要安放16个部件,即一个键位上16个部件要共用一个“代码”。如何将一个键位上的16个部件的“代码”排序?又如何取其代码进行汉字编码?有什么规律可循?没有办法。
方法之二,取其560个部件每个部件的第一个笔画,如横(一)、竖(丨)、撇(丿)、捺(乀)、点(丶)、折(乛)、钩(乚)等不同的汉字笔画,直接分布到几十个不同的键盘键位上。这里又有两个问题发生了。
问题1,560个部件的第一个笔画不过十几种。根据什么规律将不同的笔画分布到不同的键位上?有什么规律可循?没有,不可能有。
问题2,560个部件中第一个笔画相同的部件有若干个。如第一个笔画是折(乛)的有“已、己、巳、尸、彐、弔、弓、巴、肀、聿、丑”等,根据什么规律将第一个笔画相同的不同的汉字部件如分布到不同的键位上?有什么规律可循?没有,不可能有。
综上所述,无论采取哪种方法,都无法为560个部件编制一套有规律可循的、不用死记硬背的、科学有序的“代码”系统。
二是关于单个汉字的编码的问题。
我们要对2万多个汉字和数百万条汉字词组进行编码。汉字词组的编码是汉字编码的主体。其码长应为5码长。按照“部件理论”对单个汉字进行编码,分为两类:⒈“单部件字”的编码,⒉“多部件字”的编码。
⒈关于“单部件字”的编码。
所谓“单部件字”,在“部件理论”里是由一个部件构成的汉字,即为“成字部件”的汉字。如“口”,当“口”作为一个“汉字部件”,其代码的码长只有1码长。当“口”作为一个汉字,作为一个“单部件字”,其编码的码长应为5码长。在这里,问题发生了:如对“口”等“单部件字”再编入
⒉关于“多部件字”的编码。
所谓“多部件字”,在“部件理论”里是由多个部件构成的汉字。一个部件的代码,其码长只能是1码长。一个汉字的码长应为5码长。给只有2个、3个或4个部件构成的“多部件字”进行编码,依据什么“规则”,再编入
由此可见,按照“部件理论”,“把汉字拆分为部件”,把“合体字”中的独体字拆分为“非成字部件”,确实是如潘先生所说的“增加每个字的代码数量”,增加了码长。但是,增加码长的同时增加了冗余信息码,并且增加的编码的长度与增加的冗余信息码的长度相等!增加编码码长的同时没有如潘先生所说的“增加区别性能”,也不会“增加区别性能”。由此可见,潘先生所说的将“汉字拆分后的几个部分,按第一个笔画出现的先后进行横式排列,方块组合的汉字,就变成了线性排列的形式。置换成一串键符代码,汉字就成了线性的有序的文字了”,“将汉字拆为几百个部件,根据各个部件第一个笔画出现的先后,就能使每一个方块汉字成为线性排列;根据这几百个部件的结构和特征将它们分为几十个类,每个类取一个有序的键盘符号作为代码,方块汉字就带上了直接的序性,既可用于排序、检索,同时也可用于电脑输入。汉字现代化也就全面实现了”,是天方夜谭,是自欺欺人的谬论。
三是关于汉字词组的编码的问题。
按照上述的遵循汉字的基本规律,对数百万条汉字词组进行编码方法,上已说明。很简单,不赘述。
按照“部件理论”对汉字词组进行编码,将人们所熟悉的汉字词组中的汉字的“字音”类特征信息弃之不用,“把汉字词组中的汉字拆分为部件”,把部件作为汉字词组编码的码元,单一地取其汉字词组各字的各个部件(部件的代码)或取其汉字词组各字的第一个部件(部件的代码)作为汉字词组的编码的码元,对汉字词组进行编码。因为构成汉字词组的单个汉字的个数不同,构成汉字词组的各个单字的部件的个数也不同,于是,一连串的问题又发生了。
问题之一,如果取其构成汉字词组的各个单字的各个部件(一个部件的代码只有1码长)作为汉字词组的编码的码元,如“东方”、“南方”、“西方”、“北方”这4个汉字词组,由2个“单部件字”即由两个部件构成。这4个汉字词组编码的码长都只有2码长。依据什么“规则”按5码长的要求对这4个汉字词组编码?再如“齷齪”、“齟齬”两个汉字词组,词组的第一个字“齒”就要拆分成“止”、“人”、“人”、“一”、“人”、“人”、“凵”这7个部件。那么依据什么“规则”按5码长的要求对“齷齪”、“齟齬”这两个汉字词组编码?如何将其编码有序排列?其词组中后面的字怎么编码?按照“部件理论”,除了凭主观制定编码规则还能有什么好方法?没有。不可能有。
问题之二,如果取其构成汉字词组的各个单字的第一个部件的第一个笔画(部件的代码)作为汉字词组的编码的码元,如“东方”、“南方”、“西方”、“北方”这4个由2个“单部件字”构成的汉字词组,这4个汉字词组各字的第一个笔画相同。一个部件的代码只有
显然,上述的“把汉字拆分为部件”,把汉字部件作为汉字编码的“码元”进行汉字编码,无论是单个汉字的编码,还是汉字词组的编码,所产生的一连串的问题,是无法以合乎逻辑的有规律的同一规则能够解决的问题。“把汉字拆分为部件”的方法是将汉字编码引入死胡同的方法!
最后的结论,一是“部件理论”根本不可能为560个汉字部件编制一套科学有序的汉字部件代码系统。这就使将汉字部件代码作为汉字编码的“码元”的汉字编码失去了科学的基础。二是“部件理论”根本不可能为2万多个汉字和数百万条汉字词组编制一套使国民能够依据自己的汉字知识“见字识码”,根本就不需要死记硬背,像输入英文那样轻松地输入汉字的科学有序的符号系统,即汉字编码系统。