潘德孚－汉字编码设计学-§3.2 音码、形码不能相互比较论-语言文字网YYWZW.COM为最广泛的汉语汉字爱好者搭建交流平台

§3.2 音码、形码不能相互比较论

音码与形码性质不同，分属两个不同的体系，它们无法进行比较。可是有人偏偏在这个问题上做文章。

有的人认为：“音码易学、直观，一般学过汉语、拼音的人就可输入汉字。但音码同音字多，码长较长，输入速度较慢，……形码一般是按照汉字的字形结构来编码的，码长较短，重码率低，输入速度快，但需要先按照拆分规则将汉字拆成字根或部件，有一套汉字拆分规则需要掌握。另外还需要记忆字根或部件在键盘上的分布规律，因此，与音码比较形码要相对难学一些。”（6）这种认识从哪里来？我们应该从“原始编码”讲起。

一、编码输入综合障碍症

“原始编码”是指最早上电脑使用的编码：全拼码（音码）和笔形码（形码）。

编码上电脑使用要有输入软件。最早的汉字输入软件，只能打单字，没有词组，也没有简码，当然也没有用户自定义的功能了。这种输入软件也可以称为原始输入软件。它的功能如此地不完善，不仅仅是软件编制人员的技术水平，也还有应用要求尚未摸透的原因。当时的电脑，不是现在的386、486，而是运行速度很慢的PC机，有时候你会发现输入键已经打完了，屏幕上的字要过一会儿才能上。电脑运行速度对软件编制人员的编制能力，也有一定的限制。因此，这是编码设计能力、软件编制能力、硬件设备和人们认知能力不足的合并症。我们应该称之为“编码输入综合障碍症”。这种综合障碍使有的人以为这是编码设计不好。对编码设计及其发展趋势缺乏系统的识别能力使我们在误区里滚了十来年。但是，随着人们对计算机中文应用要求的逐步熟悉，中文软件开支能力的提高，以及计算机自身工作性能的增长，这个“输入综合障碍”已被完全克服。

二、为什么人们只单讲音码输入速度慢

全拼码只能打单字，一个字，要击四五次键，不象现在使用词组输入，每个词组起码是两个字。四码出字，最多只需两键一字。长的词组有十几个至二三十个字，也只要打四四键就能出字。两者对比一下，一篇文章下来，出字的击键次数相差好几倍，自然就有输入速度问题。但这个问题不是编码原因，而是当时软件编制能力和软件编制功能设计要求造成的。在那个时候，编码设计者对输入软件如何在计算机上使用还很陌生，不知道该向软件编制者提些什么要求。因此，最早的输入软件在使用功能上都有很多缺陷。随着编码应用逐步展开，这些功能不断完善。这个完善过程，是各个编码设计者你一滴我一滴积聚起来的，所以，现在的各种编码输入法的功能，大家都差不多。

一个一个地打字，全拼码就产生了同音字的重码问题。如果一个字只有三四个重码，经常打字是很容易记住的，这些重码就可以容忍。但全拼有的字重码达几十、上百个，需要看屏翻页选字，不能盲打，因此也就影响了输入速度。

笔笔码是形码，设计人把汉字一分为二，左右两部分各抽出三个笔画，根据规定要打六个数字代码，才能出一个字，也因此产生了码长问题；笔形码为了减少重码率，把每个字一分为二，就出现了汉字的拆分。这种拆分方法，也可以说是最原始的。因为，许多字并不容易一分为二，于是就有了逐字制订的拆分规则。规则太多，人们在输入时不容易记忆，就不知如何是好。

笔形码只用到八个数字代码。由于代码过少，产生很多重码。八个数字键无法双手并用，虽熟却不能快。两种原始编码都有一样的快不起来的毛病，现在为什么只讲音码不能快，不讲形码不能快？因为，笔形码使用时间不长，很快被字根码取代，大家对它的印象不深；全拼码是国家标准码，所有的电脑都已经装上，使用不占空间。只要有电脑，会拼音，不要学习，都会打出字来的，就造成了比较广远的影响（这也是有的人说音码使用者占90%的根据）。

以上这些原因，给人以音码输入速度慢的印象，起始的形码也有慢的毛病就没有人提起了。

三、双拼是全拼的发展，需要学习但并不很难

这里讲的音码，实际只是指拼音码中的全拼码；这里讲的形码也是指不成熟的形码。全拼码的同音字多（即重码率高）、码长过长、词语输入困难等，但也不等于所有音码都有这样的缺陷；不成熟的形码确实存在着拆分不规范、记忆困难等，但也不等于所有的形码都这样。因为，全拼码是原始的拼音码，缺点很多，应用不方便。用全拼码代表所有的音码，实质是抹杀音码的发展。从全拼到双拼，上面所说的问题基本上都已经克服，但记忆难度增加了。因此，再说全拼易学易记，实际是混淆两个不同的阶段，无视历史的发展。

全拼码是原始的音码，也可以认为不是编码，它原本只是每个汉字的读音，它在电脑输入使用中不方便，是因为它只是未经“加工”的“原始材料”。由于全拼码首先要求“学过汉语拼音”，因此，拼音输入不是易学难学，而是不须学（若说还需要学，那只是键盘使用方法，与编码无关）。因条件是“已经学过”，使用它只是照原来学过的拼音打字罢了。假如有的人没有学过汉语拼音，也就不可能三朝两夕马上可以使用拼音打字了。如果我们这样说：你如已学会拼形编码，形码输入也是很易学的，岂不让人笑掉大牙？

音码从全拼发展到双拼，重码和码长的问题已经没有了，词组输入也基本解决了。这就是说，输入速度上的障碍已经扫除，不用再把复合韵母按键输入，而合并为一个键符。30多个韵母分配在26个字母键上，必须死记硬背，不是那么容易的事。因此，记忆难度却上来了。双拼码在应用的检验中比全拼方便，但它的学习难度增加了。学习是为了使用，天下没有不用学习而可以使用的技术。全拼易是因为“已经学过”，双拼难是因为还需要学。如果两班人马都在什么都“没有学过”的起点上，一班学全拼，一班学双拼（与形码相比如果也这样），易学难学就不容易区分了。

从双拼码逐渐增多的具体情况来看，人们喜欢难学的双拼而不喜欢易学的全拼，是因为双拼比全拼好用。为了用，人们并不吝啬学习的时间。有人也许会拿上海参加考试的例子（见本书前言）反驳我们上面的结论。我们认为，其一，这次考试只规定使用全拼和五笔字型，没有规定用其他编码；正如上面所说的全拼不需要学，只要知道一点键盘输入的知识就可以，因此，用全拼参加考试的人自然就多了。然而，这97%的20多万人，其中究竟有多少人真正用全拼写文章的，可以肯定没有几个人。其二，五笔字型只是初期的雏形形码，它并未成熟，有很多缺陷，实践中有许多人不喜欢它。

不管全拼或双拼，只要是用音的，总要受到语音的局限。这个局限，有两个方面。现在能说准普通话并能正确用拉丁字母拼出汉字读音的人占全部使用汉字人群的比例并不高。许多人都是说半准半不准的普通话。即使是第一个问题解决了，第二问题却是谁都无法解决的。汉字有6万多个，而能读准的常用字却只有3000多个（当然它们的使用频度很低，用到的时候可以查字典）。绝大多数无法读出来的。困难的是不能读的字并不是不能用，要是在输入工作中经常查字典就不好办，人们会觉得它不完善。音码之所以在全国铺不开，正是因为这些局限的影响，而并不是快和慢或易与难的问题。

四、关于“看打”和“想打”之误

有人认为，形码有利于“看打”，因为重码少，输入效率高，它又是利用字形结构，输入不受语音或不认识字的限制；音码有利于“想打”，因为，“想打”是用语言输入的。这种说法似是实非。写文章虽然是写语言，键盘上的符号也是汉语拉丁字母，可惜的是写（即打）出来的还是方块的汉字而是汉语拼音，仍然避不开在脑子里作一次音与形的交换。

打字就好比写字，是否也可以分为“看写”和“想写”？“看写”就如抄书，“想写”就同写文章。抄书与写文章是两种不同的工作，是不能比较的。再如，抄书也是念着抄的，不是看一字抄一字，而是念一句抄一句；写文章当然也是一句一句写出来的。写文章在肚子里打腹稿，抄书则多了一个“看”的环节。区分“看打”和“想打”的言下之意是：“看打”适用于专业输入，用形码好；“想打”适用于写文章，用音码好。

主张音码优势的人都说形码首先需要将汉字加以拆分，要掌握一套繁琐难记的拆分规则；音码只要将语音输入键盘，就可以打出汉字。就我们所知，输入到一定的时候，字与码在输入者脑子里的交换速度根据熟练的程度不断加快，到一定的时候，就成为一种机械的反应，根本不存在音或形或拆分的问题了。因此，“看打”和“想打”并不存在音或形的区别。讲音码用语音输入，不需要学习的人并没有想到他们所说的音码并不是指所有的音码，仅仅只能是最原始的全拼码，而其他的音码并不比某些形码的记忆量少。如按音码就是语音输入之说，南方的作家，岂不写不出作品来？

五、形码与音码不存在完备性的分歧

一般人都只能念准三四千个汉字的字音。所以编码学术界有的人认为音码的缺陷在不具备完备性。而形码却可以给不知道读音的汉字输入，因此，形码比音码具有完备性。于是，音码优势论者又认为反正一般人的输入大部分是常用字，例如《毛选》四卷只用了3002个字，《骆驼祥子》只用了2413个字。所以，不具备完备性的音码是没有问题的。

其实，汉字编码不存在完备不完备的问题。因为，任何一种编码方案都可以把它的方法使用于任何一个汉字，这个道理同样可以用之于任何音码。因为，任何字都有读音，编码设计者即使不会读，难道他不会查字典？我们不能因他不会读某些字而认为他的编码方案缺乏完备性的。我相信，没有一个音码设计者能不查字典而念准小汉字集中的6763个字符。那么再多几个有什么差别呢？据了解，现在所有的音码设计者都将他们的码本，编到6763个字，能说他们不完备吗？不过，输入者却不一样，他们当然要求不查字典就能输入。否则，工作效率就要大打折扣。

一般人只能念准常用字的读音，不会念的就要查字典。这些不会念的字当然都是不常用的，因此即使查来了也记不住，下次用还得查。这样，用音码输入，就产生了工作效率问题。尽管平日我们大多使用常用字，但在中小学就不能这样想，我们的学生长大之后，有的可能产生像老舍一样的作家，写白话小说，用一些非常常用的字。但有的也许是地质学家、药物学家、病理学家、考古学家……，我们现在的罕用字可能就是他们的常用字了。只要常用字能打出来就算好的想法未免太简单了，一个编码方案必需具备涵盖性。我们必须准备学生学会后到社会上工作时，不管是什么专业，都不用再重新学习，这就可以为社会节约精力。

拿音码与形码相比是错误的，因为它们是两个不同的体系。说“音码易学、直观”是指已经“学过汉语拼音的人”。这说明“易学、直观”是以已经“学过汉语拼音”为基础的；如果没有学过汉语拼音的人，那就不易学不直观了。说“音码同音字多，码长较长，输入速度较慢”，这几句指的都是全拼码，而双拼呢，就没有这些毛病了。我们之所以认为不能比较，是因为音码有几百个，所抽出的特征不是所有音码的统一特征，不具有代表性。

何况，音码是利用汉字的读音进行键盘安排输入的编码方法。如果汉字是一种拼音文字，这种输入方式自然毫无疑义，不过它就不是什么“编码”了。就象外国人的文字一样不需要研制编码方案，只要按读音击键就行。因此，从某个角度上来说，语音输入不能算做编码，只能算一种输入法。因为，汉语读音是已经存在的，不需要别人为它“编码”。它现在能够称为编码是中国文字的特殊性，按汉语读音输入它还不是字，而是一种字的代码形式。因此，它可以算是广义的编码；但在狭义上，音码却不能算编码。因为所谓汉字编码，是“字”的编码，不是“语”的编码。

再讲形码也一样，它们是一个体系，而且在不断改进和发展，每一个形码，只能代表它自己，不可以代表别的。不看它的整体和发展，而是拿一个原始的形码代表这个整体，来论述音码的“优越性”，南辕北辙，越来越对不上号。

我们在这里简单地介绍音码的一些问题使大家明白作为音码的基础——音素，已经实际存在，不需要再设计什么编码了。顾名思义，所谓“汉字编码”，是“字”的编码，是使“字”的“形”，线性而有序，音码是做不到的。正因为如此，它们是无法进行比较的。