语言的本质-5数学常识6-语言文字网YYWZW.COM为最广泛的汉语汉字爱好者搭建交流平台

发布日期：2005-11-30

5数学常识

在几个中、英论坛上都发现有人对于排列、组合这部分知识比较生疏。所以，我在这里用少量的篇幅简短地介绍一下这方面的内容，以便继续我们的讨论。那些还没有忘记这部分知识的人是不需要在这上面浪费时间的；可以跳过这节内容。

我们将字母或者阿拉伯数字看做是‘元素’而用‘元素’所组成的单词看做是‘符号’，那么，将有下述几个可能：

1、符号中所选用的‘元素’的个数大于‘元素’本身的个数。

二进位数就是这种情况；‘元素’本身只有两个，但是，为了找到成千上万的‘符号’我们必须每次选择远远大于两个的‘元素’来进行拼组。(为了在表达上保持一直，我们选择a和b来代表这两个元素。)当我们需要十个符号的时候，如果每次只能选用两个元素之一，那么我们将符号看做是一排几个空位置，不断地放入元素，以制造新符号。如果我们每个符号选用两个元素，就设想有两个空位；第一个位置有两种选择，第二个位置也有两种选择，那么最多能够有：

aa，ab，ba， bb，是二的二次方2×2＝2²＝4，这样不够，所以，需要选用三个元素来拼组，这时，将符号看做是三个空位上不断地放入元素，它也不够，因为它们只有八个：

aaa，aab，aba，baa，bba，bab，abb，bbb。

＝2³＝8

所以我们必须选择四个元素来拼组更多的符号。它们是：

aaaa，baaa，abaa，aaba，aaab，aabb，abba，bbaa，baab，abab，

baba，abbb， babb， bbab， bbba， bbbb，＝2⁴＝16>10

用同样的方法可以得到2⁹>420，2¹¹>1186等，假设我们用四个元素来组成符号，那么情况就不一样了，我们每次仅选两个元素就够了，如：a，b，c，d中的：

aa，ab，ac，ad， ba， bb，bc，bd， ca ， cb， cc，cd， da， db，dc， dd。

4×4＝4²＝16>10

如果每个字母都需要占用250毫秒的时间，而我们需要的符号都是十个。那么用以两个元素表示的符号就需要用250×4＝1秒的时间来表达，而由四个元素表示的符号则仅需要250×2＝500毫秒＝0.5秒。如果一种语言中允许使用的声音有420种，那么每发出一个声音(CV结)就应该能够区分420种事物中的一种。而连续两次发音就能够区分420×420＝176400种。同样，如果一种语言有1200种不同的声音(CV结)，那么它每发一个声音就可以区分1200种不同的事物中的一种，两次发音区分1200×1200＝1440000种。这些当然都是理论值，实际情况与它的出入有时会是很大的。

2、符号中所选用的元素等于或小于元素本身的个数－－排列。

如果我们有三个元素a，b，c而我们所用的符号每次都选用三个元素，且不允许重复使用同一元素，如aaa，bbc等，那么这种情况称作全排列，它们是：abc，acb，bac，bca，cab，cba=3×2×1种，它的理由是：如果将符号看作是三个空位，我们依次将不同的元素放入，且不许重复，那么，在第一个位置上我们有三个选择，第二个位置上，由于用掉一个，所以仅有两个选择，第三个位置上，就剩一个了，所以没有选择。为了记忆方便，我们用3!表示。

四种元素的全排列是：

表4－5－1

abcd	abdc	acbd	acdb	adbc	adcb
bacd	badc	bcad	bcda	bdac	bdca
cbad	cbda	cabd	cadb	cdab	cdba
dabc	dacb	dbac	dbca	dcab	dcba

=4 !=4×3×2×1＝24种。

从四个元素中选择少于四个元素的符号称为排列；如果每次选三个有：

表4－5－2

abc	acb	bac	cba	bca	cab
adc	acd	dac	cda	dca	cad
dbc	dcb	bdc	cbd	bcd	cdb
abd	adb	bad	dba	bda	dab

=4×3×2也是24种

从四个元素中选择两个有：

表4－5－3

ab	ac	ad	bc	bd	cd
ba	ca	da	cb	db	dc

=12=4×3

这就是排列的公式：从n个元素中每次选择m个元素组成符号(m＝<n)，其所能够得到的符号有n×(n－1)×(n－2)…(n－m＋1)种，如果是全排列则为n!。它的理论是如果我们将含有四个元素的符号看做是具有四个空位，我们每次将各种元素放到里面，那么，从允许使用的四个元素中，我们可以选择任意一个放在第一个位置上。或者说，对于第一个位置，我们可以有四种选择。第二个位置时，因为已经用掉一个元素了，所以仅有三种选择，所以是4×3，到了第三个位置上就剩下两个选择，所以是4×3×2，最后一个位置仅有一个选择，所以是4×3×2×1。如果我们限定第一个位置上的元素必须是a那么称这样的排列为条件排列。从表4－5－2中看出，四个元素中，每次选三个，且第一个位置是a的符号仅有6个。从英语词典中会看到b的后面一定不是b，而q的后面一定是u，这些都是条件排列的例证。

3、如果我们增加这样一个条件；从四个元素中每次选择两个元素作为符号，符号之间的元素不得重复。这就成了组合问题。从表4－5－3中我们看到四个元素中每次选两个的组合仅仅是六种：是第一行的六个符号：

表4－5－4

第二行仅是它们的位置颠倒而已，它们的数量是4×3÷2＝6

同理，表4－5－2的组合仅有第一列的四个：

表4－5－5

abc

adc

dbc

abd

它们的数量是4×3÷(3×2)＝4所以，组合的公式是从n个元素中，每次选择m个元素进行组合，所得到的符号是n×(n－1)×(n－2)…(n－m＋1)÷m!。如果限定第一个元素必须是a的组合称为条件组合，从表4－5－5中看到四个元素，每次选三个，且第一个元素必须是a的组合仅有两个。在语言学的叙述中，有很多时候‘组合’二字所代表的意思可能是连乘，可能是排列也可能是组合。这也许是人们在这方面的用词还不够讲究的关系。我们似乎有必要采用新的词汇来区别它们。

本书以及目前的语言学讨论中所说的‘组合’一般指连乘的形式，也就是我们上面所讨论的对于二进位小数的运算形式。这样，如果将26个字母看作是‘元素’，那么，每次选出四个元素来组合成符号，就等于有四个空位来选择。第一个空位上有26种选择，第二、三、四个空位上，同样也有26种选择。这样选择的总数就是26×26×26×26种。如果，增加了两个字母，变成了28个字母，那么，为了计算比原来增加了多少种符号，我们可以运用和的平方、立方、四次方公式直接计算：

(a+b)²=a²+2ab+b² 1.

(a+b)³=a³+3a²b+3ab²+b³ 2.

(a+b)⁴=a⁴+4a³b+6a²b²+4ab⁴+b⁴ 3.

我们可以用平面几何的方法解释1、式：

b²

a²

假设a是未增加以前的数字(即26个字母)，b是增加的数字(即2)，那么，每次取出它们之中的两个来组成符号时，我们可以得到的不同种类的符号的数量有：a²+2ab+b²个，如果没有增加这两个字母，当然仅有 a²个，因此，二次组合增加了2ab+b²个。如果读者希望增强一下自己对于数学的信心，不妨用立方体的增加来验证一下2、式。

上述各式的系数是这样得到的：

												1
								1				2				1
						1				3				3				1
				1				4				6				4				1
		1			5				10				10				5				1
	1			6				15				20				15				6			1
1			7				21				35				35				21			7		1

每一行中最左的一个数字和最后一个数字都是1，其他的数字是上面一行肩上两个数字之和。可以看出(a+b)ⁿ的展开式中a的次方数是从n开始，每项减1而下降，b的次方数是从0开始，每项加1而上升直到n。

6数学解释

众所周知，电脑仅用两个符号表示世界。如果一个人只能发两种不同的声音，那么他是否也能表达整个世界呢？当然可以，问题在于他的表达速度太慢。例如，英语有420种不同的声音。假设世界上只有420种事物需要表达，那么英国人用一个发音器官动作(或发音种类或CV结)便可以表示其中的一种事物。相反，只会发两种声音的人有时不得不发音九次来表示某一事物，因为只有二的九次方才大于420。

2×2×2×2×2×2×2×2×2=512

假如英国人说‘我’I 相对应地，仅用两个声音的语言使用者就要说abbaabbba来表达相同的意思。假设英国人每秒发音四次，则发两种声音的人有时要每秒发音4×9=36次才能达到同样的效果。它说明，具有大量的发音种类的语言，比具有少量发音种类的语言具有更多的优势。它不但可以以少量的发音器官动作来表达相同的意思，而且少量的动作也加快了信息传递的速度。除此以外，当我们讨论‘工作记忆’的时候，读者会发现，由于人类每秒钟的正常发、收音速度是四个(每个声音占250毫秒)，所以，记忆这种九个CV结的符号(abbaabbba)在三秒钟的‘工作记忆’中仅能够记12÷9＝1.33个，而记忆单个CV结的符号(I)却能够记忆12个。所以如果每个符号都是9个CV结的话，不但记忆得少，而且思维联想和运算等，几乎都是不可能的了。

赵元任在‘语言问题’P226中也提到这个问题，但是他主要是从书写符号的角度来考虑的：“符号的种类的数目要经济，不用太多。种类数目啊，往往跟符号复合体的尺寸成一种反函数。(不说反比例，因为不是那么简单的关系。这个函数的关系粗略说起来，通俗也说反比例。)比方说一个极端的例。符号种类只有‘1’跟‘0’两种，再简单也没有了。因为这个缘故啊，连合起来就冗长得不得了了。这就是现在许多计算机里用的二进制(binary system)，因为合乎用真空管的设备，所以用的很多，可是符号就冗长极了，比方‘1’是‘1’，‘2’是‘10’，到了‘16’就写‘10000’了。所以种类一少，用的时候就长得不得了。”赵元任在谈到发音的时候还是采用了传统的‘音节’的说法：“从前S.W.Williams在他的Syllabic Dictionary英华字典里头，做过一个很有趣的统计。他取了一段<圣谕广训>找各省人给它译成几种方言，广东话、上海话、福建话、北京话、汉口话等等。他又调查各方言中所有的可能音节的总数，比方说北京话四百多(他没数声调)，广东有八百多(如果所有白话音算在内将近九百)，等等。最穷的是湖北武汉那里的话，它不分z，zh；不分zi，ji；不分s，q；不分iq，is；许多分别都没有；那么结果啊，要把同样的内容(就是那一段<圣谕广训>)译成各地方的话呀，湖北话说得最长，广东话说得最短，文言更短，虽然不是完全成反比例，可是近似反比例的一种关系。”

根据这个道理，我们知道，如果英语不是420，而是2,000个CV结的话，那么很多地方，她就可以用一个CV结表达一个意思，比如用pi表示pig，而用mi表示meat，这样，pi－mi就成了pig meat的代替词，而pork就不需要存在了，成了亚里士多德所说的弃名(见第六章，组义原则)。当我们再看到pimi这个词的时候，我们将立刻知道它的意思，即没有增加发音器官的动作次数，也没有增加记忆储存。

用CV结，我们可以大概地计算出任何一种语言中，能够发出单个声音的最大个数。反过来我们可以说，如果超出了该语言辅音C和元音V个数的乘积的范围，那么那些多出来的声音是不被该语言所承认的。因此我们在研究该语言时，不需要考虑它们。在语言学论坛上，许多学者不习惯用这套思维方法进行分析。我认为主要原因有两个方面：第一，无论是国内还是国外，目前大部分语言学的研究者都是从文学专业改行的，可能从来没有用数学分析问题的习惯。第二是目前虽然有大量的工程问题依赖数学推导，但是很少有人用数学来推导语言学的各种现象。所以，两个方面都表明是一个习惯与不习惯的问题。

我们所说的声音个数或CV结是指听得见的声音。而有人将pig，pit，pik，pid，pif，pib，中的g，t，k，d，f，b等发得很轻，几乎令人听不到，那么这些辅音的作用和一个停顿没有什么两样。赵元任在‘语言问题’P233上这样说：“我记得有一次在北京西车站看见一个外国人在那里叫远远的一个人，他使劲嚷：[d۸f，d۸f]，叫了半天也叫不应。我站在旁边听得见一点‘过渡音’。听出是‘duff’，可是隔好几节车老远的那怎么能听见[f]这个音？我还真想帮他叫[d۸fu]，那样子，才听得见[f]音，可是我到今天还分不清楚他叫的那个名字究竟是‘duff’还是‘duft’。”另一方面，从声音的长度也会联想到意思的长度。比如，在发音上pi和mi比pig和meat要短，而意思上英语的‘猪’和‘肉’比‘猪肉’pork短。因为无论是pig还是meat都仅仅是pork的意思的二分之一。当我们从英语词典alto词条中发现它的解释是female，lowest，voice时，我们知道，后面这三个单词分别代表alto的意思的三分之一。从这里，我们知道，意思小的单词很容易组合成意思大的单词。反过来，意思大的单词，很难组成意思小的单词，比如用female加lowest加voice可以等于alto，但是，alto和另外两个词就很难表示female一词，我们不能说alto减lowest减voice等于female，这就是‘马赛克理论’。从这里我们也可以看出，用意思小的单词来表达是多么方便，而人们之所以用意思大的单词来表达，除了要减少发音次数以外，没有任何其他原因。如果越过了这个障碍，英语就可以用，比如a代表，lowest，l代表female，to代表voice，这样alto这个词就可以从英语中取消了。数百万的英语单词也可以仿此而简化成几千个基本单词或者‘义元’。有一位网上的朋友曾经问过，根据什么说几千个单词能够绝对解释数百万个单词。其实这种观点已经在英语中得到了证实，例如很多英语词典中十几万的词条仅用5000个单词来解释；也就是，任何人掌握了这5000单词，那么查这本词典的时候就不需要再查别的词典了。这也说明了无论单词或者汉字都有互相解释的能力。而另一方面，字面上给出的意思往往仅仅是一种大概的感性解释而已。它是非常模糊的解释，也允许有一些误差，要想真正理解某一个单词的含义，还要经过大量的与实际情况相结合的运用才成。即使是这样，任何人对于同一单词的解释都会有某些不同。从我们写文章的事实也看到：对于别人写的任何句子你都没有背过，但为什么你能够理解他的意思呢？因为对方和你都能够用一些基本的载义符号来将意思联接在一起。意思在我们头脑中的时候本来应该是一个整体，就是由于需要表达，才切成一小块一小块的单词或者汉字，利用线性的顺序输出并被对方用线性的方式接受，最后重新联接成整体。由希腊语与英语对比可以看出，英语的词汇表叫做alphabet，实际上是希腊文的alpha(相当英语的a)与bet(相当英语的b)的合写，我们再看英语字母歌最后一句：
abcdefghijklmnopqrstuvwxyz.Now you see, I can say may A.B.C.

其中的A、B、C、也是代表整个字母表的意思。比较希腊文和英文，可见英语的A、B、C、相当于希腊文的a(alpha)、b(beta)。这完全是由发音次数所决定的。具有更多的CV结的语言的另一个好处是思维上的优势。由于思维在很大程度上是一种‘心里说’的过程，所以说话的速度在一定程度上反映了思维的速度。在网上论坛中，有人曾经反对过这个观点，认为没有明显的证据表明这个事实。其实，在赵元任的对于英、汉乘法口诀实验中就已经证明了这一点。他发现，用汉语背乘法口诀需要30秒，而相应条件下，英语背诵乘法口诀用45秒。试想，如果一个中国人和一个英国人同时背口诀，第30秒的时候，中国人脑子里想到的一定是九九八十一。而英国人脑子里想到的绝对比这个少，可能是七七四十九。

我们说语言科学所研究的就是怎样使人类增加在有生之年所能够享受到的信息量。无论是电脑的发明还是纸张的出现都遵循这个原则。今天，当电脑已经将所有的信息以最快的速度送到我们面前的时候，只有增加了发音种类个数才能够使这个进程继续下去。在发音种类个数增加时，有两个值得注意的环节，第一，是不是以记忆最少的音素为代价来增加发音种类的个数。第二，新的发音种类是不是容易与某个旧的种类混淆，因而无法达到应有的效果？

书名：《语言的本质》　作者:苏诚忠　语言文字网(www.yywzw.com)发布