语言的本质-8信号与人类感官的相互作用-语言文字网YYWZW.COM为最广泛的汉语汉字爱好者搭建交流平台

发布日期：2005-11-30

8信号与人类感官的相互作用

我们考察一下一个符号是怎样从无到有地在我们头脑中工作的。我们假设A是一个我们不知道的汉字或者单词。当我们看书的时候遇到了它，经过查字典，我们得到了一个解释它所代表的一个或者几个意思的粗浅印象。此后，我们再利用那本书的上下文判别出几个意思中最恰当的那个意思。这样，我们就对于该字A所代表的几个意思中的一个有了一定的理解。如果A字在一页书中反复出现，我们很可能就记住了它。但是，在大多数情况下(尤其是你对于该语言有了一定的认识以后)，你可能很久以后才能够再次遇到A字。所以，大多数情况下，这样的生字A在你第一次遇到过以后便忘记了。这并不是说它已经消失得无影无踪了，事实上，它在你头脑中还有一定的印象存在。但是，由于印象太浅，不足以使你在再一次遇到它的时候，很快地，有效地将它调出来。如果今后你再也没有遇到这个A字，那么，它就逐渐从你记忆中消失。而你查找字典所做的各种动作就是为了你当时能够理解那句话而已，对于将来你用这门语言理解世界没有多大益处。

如果在很短的时间内，尤其是你对于A字的印象还没有完全消失的时候，你又一次接触到了A字，那么，上述的过程重复进行。不过，这一次，印象比从前要深刻了。就这样，你一次又一次地接触A字，直到将A字记牢。根据培根的理论，每一次记忆所感受到的A都和前一次不一样。因为，在你每两次接触A字的中间一段时间内你又接触过很多别的字或者知识，这些字或知识调整了你对A字认识的角度。另一方面，我们假设一种语言是由100个单词来描写某一个知识领域。另一种语言则是由10个单词的两两组合10´10＝100来表示同样的知识领域。那么，前者需要记忆的是100个单词，而后者需要记忆的是10个单词。这样，分别用两种文字撰写同样一篇文章的时候，用前者撰写的文章中反复出现的是100个单词，而用后者撰写的文章反复出现的是10个单词。那么，后者的复习次数比前者多了10倍。不过，由于前者的单词是为每一个单词符号设定了一个意思，所以，每个单词都能够从你的记忆储存中直接调出一个相应的意思。反过来，后者则需要连续调出两个意思来，再将它们拼组成一个新的意思与前者那100个意思相等同。咋一看去，前者在阅读时理解的速度应该更快。但其实不然，如果后者使用得十分熟练的时候，两个字几乎是同时出现的，因为，在最熟练的时候，两个字是按照某种定式，或者说是固定的组合被调出来的，而不是一个一个地调出来的。此外，上面说过，每一次复习都与前一次复习在认识上有所不同。这样，后者的10个单词中的每一个与其他单词组合时也会使得我们对于该词有不同的印象。由于在同样的文章中，后者各词之间互相遇到的次数比前者多了十倍，所以，经过相同时间的训练后，掌握后者的人对于每个单词的使用和理解比掌握前者的人更加灵活。或者说后者需要先将每个字与第二个字组成词，然后使之与句子中的其他意思相适应或者互相迁就。而前者的每个单词就仅仅用需要用自己本身携带的意思与句子中其他单词相适应或者迁就。

在网上有人问，根据什么来证明任何一个字都能够被另外几个字来代表？我的回答是根据字典，因为任何字典上解释一个单词或者‘字’原则上不能够用这个字本身来解释，必须用几个其他的单词或字来解释该单词或者‘字’。这就说明，无论单词还是汉字都必须有互相解释的能力，否则它就是不完全的语言。这种讨论在组义语言的发展中曾经出现过多次，但是谁也没有真正地将它说清楚。所以，莱布尼兹认为，如果我们找不到一个绝对，真正的单词，那么，我们就不能科学地解释任何单词，因而所有的书籍和词典就都是靠不住的。我认为，解释一个单词的那几个单词无论从长度讲还是从逻辑上讲都不能够绝对地解释那个单词。但是，这些用作解释的单词，能够按照最合理的排列把我们的思路带到离那个单词的意思最接近的地方。余下的事情就要靠我们的经验去进行联想了。我认为，假定一种语言中的每一个单词或者‘字’都代表我们已有的认识中的一部分。三万个单词可以将我们已有的认识分成三万份，它们之间的每一次组合都将我们的认识分成了30,000´30,000＝900,000,000份。同样三千个汉字也将我们的认识分成三千份，它们的一次组合也将我们的认识分成了3,000´3,000=9,000,000份。表面上看，前者更快，其实，如果考虑到发音种类个数的话，依然是后者快。

我们这里所说的‘份’是指一个能够被思想抓住的‘意思’。比如：‘树上掉下来的苹果’其实代表的就是一个意思。也可以把它看做是句子里的某种语法成份。当我们抓住了第一个意思后，就可以去考虑如何与第二个可以抓住的意思去联系，(乔姆斯基在他的自生语法中称这种抓得着的意思为kernel)去联想出一个也许过去没有遇到过的意思，或者发明一种新说法了。

在‘前言’中我们知道，语言学的一个目的是针对日益膨胀的词汇，解决如何使人以最快，最简单的方式来掌握它们。或者说如何改造语言以适应这个目的。在‘万国语言定理’中我们将讨论达到这一目的的数学方法。但是，像其他‘守恒定律’一样，语言学的资源也不是取之不尽，用之不竭的。有一天，人们也会发现巧妇难为无米之炊。本节就是讨论语言的资源－－－语音种类。语言学家已经知道人类能够分辨出的声音种类是非常丰富的。上面说过，某些学术机构对耳音的图谱进行分析结果表明听觉中蕴藏着远比人们曾经想象过的丰富得多的信息。从此我们很容易想到，利用了‘声’的语言会比不利用声的语言多了一招。能从同样的声音中了解更多的信息的人一定比没有这个能力的人更明白，更容易了解世界。比如为了突出语音的重要性，英国戏剧家萧伯纳在他的剧本“卖花女”Pygmalion中塑造了一位传奇的语音学家Higgins。他能够从英语中分辨出130个元音来。凭着这个本事，他训练一位漂亮，但是地位低下的卖花女，使之成为一位上流社会的明星。虽然有些夸张，但是，我们还是从中得到启发，如果这130个元音不是用来包装明星，而是使全人类享受到更多的信息难道不是更有意义吗？由于“声调”对元音起着互相区别的作用，所以对于英语来讲‘一声’的A与‘二声’的A应该看作是两个元音。换句话，说普通话的中国人各个都能发出和识别140个元音(普通话有35个韵母乘以4后得140)比Higgins多了10个。(这个观点在网上辩论的时候，某些南方学者表示了反对，我想可能是由于南方话中某些声音不是单音的缘故，比如‘翼’字发音yik，但是普通话中绝对没有这种现象)在这种对比之下Higgins就算不上什么传奇了。既然发音的种类可以是很多的。那么，拼音文字实际上只是从这些声音中选择了四百种左右的单音，并把它们进一步分解成20种左右的辅音和20种左右的元音(这里所说的是国际音标中列出的该语言的音素，而不是该语言本身的字母)来进行表达。了解了这一点，我们就有希望认清语言的发展，从而找到人类共同的方向，最终找到世界统一的语言。ELLP4531：建立一个真正的独立系统需要考虑到所有可能发生的，会影响系统运行的事件。从中国的实践我们看到人类还可以利用更多的声音种类来进行交流。但是学会掌握这些声音符号所需要的时间是与其个数成正比的。考虑人的寿命，人类对于这些声音种类的需要及可能之间是要有一个平衡的。为了使各种声音互相不至于混淆，一种语言需要很长的时间来磨合，也许英语的寿命太短，它的磨合还不太完全。为了对每一个声音在说话时起到的作用进行分析，我们用四个辅音字母s、θ、ð、d来举例。我们按照每个辅音后的第一个元音和第一个辅音 (如[sæd] sad 和[d æd] dad 用国际音标来表示时第一个元音都是æ第一个辅音都是d)它们所不同的仅仅是最前面的辅音，下表的单词选自上海译文出版社出版的‘新英汉词典’它代表常用单词

表3－8－1

	[θ æt∫] thatch		[d
[sæd] sad	[θ	[ð	[d æd] dad
[seif] safe	[θ	[ð	[d eif]
[sæg] sag	[θ	[ð	[d
[sæk] sack	[θ	[ð	[d æk]
[sæl] sal	[θ	[ð	[d
			[dæm] dam
		[ð æn] than	[d
[sæp] sap	[θ	[ð	[d æp] dap
[sæs] sass	[θ	[ð	[d
[sæ∫] sash	[θ	[ð	[d æ∫] dash
[sæt] sat	[θ	[ð æt] that	[d
			[deb] deb
[sed] said	[θ	[ð	[ded] dead
			[def] deaf
			[dek] deck
[sel] sell	[θ	[ð	[d el] dell
		[ðem] them	[d
		[ðen] then	[den] den
		[ðer] their	[d
[set] set	[θ	[ð	[d et] debt
			[de θ] death
			[dib] dib
			[di∫] ditch
			[dig] dig
[sik] sick	[θ ik] thick	[ð	[dik] dick
[sil] sill	[θ	[ð	[d
			[dim] dim
[sin] sin	[θ in] thin	[ð	[din] din
[si ŋ] sing	[θ i ŋ] thing	[ð	[di ŋ] ding
[sip] sip	[θ	[ð	[dip] dip
[sis] sis	[θ	[ð is] this	[d
[sit] sit	[θ	[ð	[d
[siv] sieve	[θ	[ð	[d
[si:] see	[θ	[ð i:] the thee	[d
[si:d] seed	[θ	[ð	[d i:d] deed
	[θi:f] thief		[d
[si:d3] siege	[θ	[ð i:d3]	[d
[si:k] seek	[θ	[ð	[d
[si:l] seal	[θ	[ð	[d i:l] deal
[si:m] seam	[θ i:m] theme	[ð	[d i:m] deem
[si:n] scene	[θ	[ð	[d i:n] dean
[si:p] seep	[θ	[ð	[d i:p] deep
[si:t] seat	[θ	[ð	[d
[si: ð] seethe	[θ	[ð	[d
	[θi:v] thieve		[d
[si:z] seize	[θ	[ð i:z] these	[d
[sכb] sob	[θ	[ð	[dכb] daub
[sכd] sod	[θ	[ð	[d
			[dכf] doff
			[dכg] dog
			[dכd3] dodge
[sכk] sock	[θ	[ð	[dכk] dock
			[dכl] doll
			[dכn] don
[sכ ŋ] song	[θכ ŋ] thong	[ð	[d
[sכp]sop	[θ	[ð	[d
[sכt]sot	[θ	[ð	[dכt] dot
[sכ:] saw	[θכ:] thaw	[ð	[dכ:] daw
[sכ:d]sword	[θ	[ð	[d
			[dכ:k] dawk
			[dכ:m] dorm
[sכ:n]sorn	[θכ:n]thorn	[ð	[dכ:n] dawn
[sכ:s] sauce	[θ	[ð	[d
[sכ:t]sort	[θכ:t]thought	[ð	[d
			[d α:] dah
			[d α:b] darb
[s α:d] sard	[θ	[ð	[d
[s α:d3] sarge	[θ	[ð	[d
			[d α:k] dark
			[d α:t]
[s٨b] sub	[θ	[ð	[d٨b] dub
[s٨ t∫] such	[θ	[ð	[d
[s٨d] sudd	[θ	[ð	[d٨d] dud
			[d٨f] duff
			[d٨g] dug
[s٨k] suck	[θ	[ð	[d٨k] duck
			[d٨l] dull
[s٨m] some	[θ٨m] thumb	[ð	[d٨m] dumb
[s٨n] son	[θ	[ð	[d٨n] done
			[d٨ ŋ] dung
[s٨p] sup	[θ	[ð	[d
		[ð٨s] thus	[d
			[d٨ θ] doth
			[d٨v] dove
			[d٨z] does
[sut] soot	[θ	[ð	[d
[su:] sou	[θ	[ð	[du:] do
[su:I] sool	[θ	[ð	[d
[su:n] soon	[θ	[ð	[d
			[du:m] doom
[su:p] soup	[θ	[ð	[d
			[du:s] souce
[su:θ] sooth	[θ	[ð	[d
[su:ð] soothe	[θ	[ð	[d
[s∂:] sir	[θ	[ð	[d
[s∂:t∫] search	[θ	[ð	[d
	[θ∂:d] third		[d
[s∂:f] serf	[θ	[ð	[d
[s∂:d3] serge	[θ	[ð	[d∂:d3] dirge
			[d∂:k] dirk
	[θ∂:m] therm		[d
			[d∂:t] dirt
[s∂:v] serve	[θ	[ð	[d
[sai] sigh	[θ ai] thigh	[ð	[dai] die
[said] side	[θ	[ð	[d
			[daik] dike
			[daim] dime
[sain] sign	[θ	[ð ain] thine	[dain] dine
			[dais] dice
[sait] sight	[θ	[ð	[d
			[daiv] dive
[saiz] size	[θ	[ð	[d
[sau] sow	[θ	[ð au] thou	[d
[saus] souse	[θ	[ð	[d aus] dowse
			[daun] down
			[daut] doubt
			[d auz] dowse
[sau θ] south	[θ	[ð	[d
[sei] say	[θ	[ð ei] they	[d ei] day
[seid3] sage	[θ	[ð	[d
[seik] sake	[θ	[ð	[d
[seil] sail	[θ	[ð	[d
[seim] same	[θ	[ð	[d eim] dame
[sein] sain	[θ ein] thane	[ð	[d ein] deign
[seit] sate	[θ	[ð	[d eit] date
[seiv] save	[θ	[ð	[d
			[deiz] daze
[sou] sew	[θ	[ð ou] though	[dou] doe
[souk] soak	[θ	[ð	[d
[soul] sole	[θ oul] thole	[ð	[doul] dole
			[doum] dome
[soup] soap	[θ	[ð	[doup] dope
			[dous] dose
			[dout] dote
			[douv] dove
			[douz] doze
[sju:] sue	[θ ju:] thew	[ð	[dju:] due
			[dju:d] dude
			[dju:k] duke
			[dju:p] dupe
[sju:t] suit	[θ	[ð	[d

从表中看出：s和d后面第一个元音及辅音(如[soup]soap和[doup]dope用国际音标来表示时第一个元音都是ou第一个辅音都是p)相同的有38个，占以s为字头的85个单词的44％，同样，由于d也是85个单词，所以也是44％。θ只有18个单词，其中有12个单词与s的元＋辅音相同，占θ的66％，占s的14％。ð有12个单词，其中有8个与s的元＋辅音相同占ð的66％，占s的9％。而θ与ð之间没有一个元＋辅音是相同的。这说明θ和ð在说话中本身没有起到任何区别的作用，就是说你将θ发成ð，或ð发成θ对方一样能够听懂你的意思。至于θ、ð对于s的相同率一个是14％，另一个是9％都不是很好。几乎和s本身同音词的概率差不多，比如，saw soar sore都发[כ:]的声音。所以说θ、ð和s在说话中起的作用很小，几乎和一个音差不多。这种情况在汉语普通话中是绝对不能允许出现的。但是这三个辅音与d的关系就不一样，因为d在组成声音符号的时候，不是靠后面的其他音素与这三个辅音进行区别的。而如果每个音素的利用率都不高的话必然导致单词的总体加长。任何一个声音的符号本来就是为了与其他符号相区别的，如果作不到这一点，就应该干脆将它取消。很多时候，一个民族都不会意识到这一点，这就需要有人来进行系统的规划。

迄今为止已经有很多人发现了语言发展的方向，“万国语言定理’只不过找到了它的数学模式而已。比如：P4053没有人提出语音变化的最终目的是什么。只有Lindblom受到进化论的影响提出，有一种普遍存在的动力在改变着发音；Lindblom和Maddieson找到几个证明，比如语言喜欢采用简单音而非复杂音。根据“万国语言定理”人类的语音发展是挖掘语音的潜力以简化交流，学习及思维的时间。这一点与目前的认识有所不同。

P4053也可以看到，使听者能够更加清晰地接受，使语法更加清楚，语言更易掌握，更易记忆，也是发音改变的目的。对于上述两方面的综合考虑，人们会得出这样的结论，就是发音个数虽然增加，但要考虑到互相之间不能混淆或者说是清晰度的问题。两者似乎应该有一个动态平衡。但是，考虑到菲尼基人不能辨别元音，而拼音世界不能辨别‘声’的事实，我认为，也许，人类辨别声音的能力几乎是无限可增的，需要的仅仅是文化背景的训练。

P2607 “中世纪英语的改变是元音的变化引起的。人们称之为Great Vowel Shift它无非是希望缩短发音时间而已。”

P2593的Morphology Natural中认为音位学的自然发展或变化的目的是导致发音及听力上的最大可能。这种解释虽然与“万国语言定理”一样，可是，我认为拼音文字的发明正好与这个方向相反。

　从以上的一些摘录我们看到，语言学实际上也符合“适者生存，物竞天择。”的规律。而且前代大师们已经发现了这一点。

既然增加发音种类个数是语言发展的必然。那么下面讨论一下方法问题。事实上，不仅古希腊人在菲尼基人的基础上增加了元音曾引起过发音个数的猛增。西方各国的发音种类个数都在随着历史的文明进程而增加。中世纪就有一位没有留下名字的作者在增加了几种新符号的基础上找到了36种可以区别的元音希望以此改革拼写符号，遗憾的是他的作品直到1818年才发表。1869年A、J、ELLIS发明了一张以250个符号来表示的英语发音图，他想以此来将英语的形与音完全结合在一起。在西方，没有发音上的实际增加，这些符号是不会出现的。这说明一个道理：如果发音个数多于符号的个数，那么发音时总要受到符号的限制，或者说发音迁就符号。反之如果符号的个数多于发音个数，则发音不受限制，或者说符号迁就发音。从这个角度来看，汉语的拼音化问题是否有必要进行还是一个有待讨论的问题。因为一旦汉语进行了拼音化改造后就意味着汉语的发音种类不会再毫无约束地增长了。

除了增加发音种类个数以外，增加双辅音也是一种增加发音符号的方法。不过目前的西方学者总是从‘内部习惯’上找答案。不愿意将其他语言摆在一起，从外部寻找数学规律。“为什么在英语中br、bl可以联用而rb、lb、kz、tp、ls与zv就不能联用？内中是否应该有一种规律来控制这种现象？”有人解释说br中的 r及 bl中的l实际上已经变成了元音。这与CV结的理论相吻合。所以英国人认为：说话以前总是经过一种发音上的安排，虽然，大多数情况下这种安排没有被说话人察觉到。音位学的目的就是研究当人们准备发音时，各个发音单位是如何安排的，它们采用什么公式来组织发音顺序。不少人都发现了这样那样的发音定律，其中较有代表性的是Polivanov提出的：“如果声音受到了语言中其他实体的影响，声音可以分裂成几个实体。” 当然，在研究中，音位学不可避免地要接触到语音学的内容。

　 “斯脱克斯派研究了希腊语中的结构，并提出三点1、声音序列模式实际上是从有意义的成份中演变出来的，2、依照这个模式某些声音序列可以预测，3、某些声音序列从发音角度讲根本不可能。”当然，这里所谓的‘序列’是没有考虑到CV结的，任意序列。或者说，每一个字母后面可以跟随任意字母。发音种类随着时代总要增加或“进化”的，拼音文字既然不能竖向“发展”成“声”，只好勉为其难地横向发展，将几个音读得快些，这就是双辅音及双元音的出现。双元音在汉语中变成了一个单独的音，而英语中还有双音的痕迹如：chaos、dial等，当然与音节的划分也有关系。双辅音现象在中国古代也出现过，林语堂及陈独秀对此都有过研究。1981年台湾学者竺家宁先生的论文<古汉语复声母研究>为古汉语构拟了五类十七组共六十个复声母。但是为什么现在消失了呢？原因很简单，许多单辅音－－这种更快的载体都没有充份利用，那么要双辅音何用？从此也可以看出，以拼音文字的角度来进行划分发音，几乎是不可能的事情。

音位学的基本单位主要有两种：辅音和元音，人们常称它们为“节片”seg－mentals而重音、声和语调常被叫作“超节片”suprasegmentals人们发现语音学的规律中如果包含节段的单元太小，那么超节段对它是不起作用的。当然，这是从英国人的角度看问题。

从P3130中我们看到西方语言学家惯于将‘声’与‘重音’混为一谈，统称Suprasegment，其中Supra有超和大的意思而Segment是节片的意思。这就代表他们认为‘重音’和‘声’是比‘元音’及‘辅音’大的节片因为‘重音’只能作用在多个音上，当然它要比单个音大。这种思路其实等于把汉字中的，作用在一个单音上的‘声’排除在外。整个西方语言学界至今无人纠正这个错误。这再次说明西方语言学家对汉语的不了解。而其实按照汉语规则，“声”对任何韵母都起作用。P4531：很多语音技术的研究者以为听觉与发音之间的物理声波可以一对一地将信息连接起来。不幸的是，这种假设是不完全和没有结果的比如重音与声就没有一定的内在联系。而P3124中说：重音在发音时，总是避免使其两个重音的距离太靠近。比较Opera，与Operatic就可以明白。重音不但要考虑在呼吸上是否允，而且还必须作用在两个以上的声音上，在单音上根本不起作用。语音学的发展使语言学家了解到更多的发音信号的细节，从中发现，即使是同一个人，他两次所发出的同一个音也很少是完全相同的。从另一方面讲，为了交流信息的目的，这些微小的差别是无关紧要的：许多发音上的微小不同对某个团体的成员来讲代表着同样的意思。也就是说这种微小的发音上的不同在人们眼中是同样的声音安排(从此也可以看出，以发音输入电脑并不像想象的那么简单)。因此这些微小的发音差别，不会在这些发音计划(符号)中表现出来。从此也可以看出，为什么菲尼基的发音符号中不需要元音字母，而英语的发音符号中不需要‘声’。两者都把这些符号当作了‘微小差别’而不是载义信号，当然这与从小培养的，接受者的听觉能力也有很大的关系。由于在所有的语言中词或字代表的意思可以不一样，书写符号也可以各异，但是发音器官却是一样的。这一事实使得人们很早就希望从发音上找到人类语言的共同点，有了一个共同点，就可以象代数中找到了等式。一切问题都能得到解决。1966年Greenberg在他的“统一语言”中开始研究这个问题，不过收效不大只发现了三条可以世界通用的规律。1所有语言都有元音，2所有语言都有辅音，3所有语言都有停顿。之后的乔姆斯基和Hall从人脑的内部希望找到对音位体系的一致认同，不过它仅停留在理论阶段。这里要指出的是，他们的发音种类增加的过程实际上没有增加多少新的音而是调整了各个发音节段的动作的快慢而已。我们制定发音单位的目的却是要从时间上统一发音。有人称这样的元素为‘计时素’chroneme。这两个概念是水火不相容的，所以，在拼音世界里虽然对发音研究了几千年，但是至今没有任何实质性的进展。这使我们不得不考虑用非拼音语种来解决问题。汉语的拼音化进程至今没有开始，中国人头脑中绝没有固定的应该如何发音的模式，想怎么发音就怎么发音，只要能够和别的音加以区别，什么也不用顾虑。拼音世界的符号总的来讲是随时代而增加的。但是，汉语中的符号数量已经绰绰有余。可另一方面，过去中国人受到(后文中介绍的)胡适，钱玄同及陈独秀等人的影响不敢以汉语作为世界语言的发音标准来考虑。这也正是我想到要这样做的一个原因。

英语和汉语在发音上的根本区别是前后音结合时，英语有框框，汉语没有。这个特点反映到句子上就变成英语有语法(前后两词结合时要有框框，当然，语法的出现还有别的原因。)而汉语没有语法。　

P3189谈到，重音与声的区别是：两者都是作用在音位学某一领域，其最大的不同是重音作用在单词上而‘声’则作用在音节syllable(这里应该指明一点，西方音位学既然关于发音单位还没有统一的认识，那么作者所使用的syllable一词的定义是什么就很难确定了，西方语言学中目前最大的障碍也许就是没有一种性质、观点或理论是确定的，而所有的讨论又都是建立在这样的基础之上的)。我认为由于重音作用在比‘声’更为抽象的区域上，所以，以声来定义单位更为确定。ELL在讨论‘声’时主要以日语为主，认为日语有高，低‘声’。作者从日语的研究得出结论：声并没有传递更多的信息。理由是日语的高H，低L声如果按照四个音(节)组合时应该有16种之多，它们是： HHHH，HHHL，HHLH，HHLL，LLHH，LLHL，LLLH，LLLL，HLHH，HLHL，HLLH，HLLL，LHHH，LHHL，LHLH，LHLL。而实际上并没有完全利用上，由于生理的需要，仅有HILLL，LHLL，LHHL，LHHH四种。作者虽然也提到了汉语的四声可以自由使用但是没有作任何进一步的分析。根据这些线索，作者认为发音应该以重音作为标准，因为它考虑了人们生理上的需要，也就是两个音之间的相互关系，或者说某些音是不能联系在一起读的。这是中西方语言的又一个区别，就是汉语中任何音都能与其他音结合。它使汉语发音的组合使用率大大高于西方语言。而日语在许多汉字上都采用两个音来读，这样，它便类似拼音文字那样前后两个音互相掣肘，不能重复发挥自由组合的作用。作者利用了日语的弱点来否认‘声’的作用是不足为据，下面讨论一下增加一个发音后，对于整个发音系统的影响。

我们来看一下，究竟增加一个发音种类(CV结)会带来什么影响？根据和的平方公式(a+1)²=a²+2a+1(对于公式的详细解释见第四章‘万国语言定理’第5节‘数学常识’)可知，每增加一个发音种类就等于增加了2a＋1个双音组合。(a代表原有的发音种类个数)而根据和的立方公式(a+1)³=a³+3a²+3a+1可知，增加一个发音种类等于增加3a²+3a+1个三音组合，依此类推。在‘万国语言定理’中我们看到，发音种类个数与元音(韵母)，辅音(声母)及声调的数量成正比。所以增加三者中任何一个的个数都等于增加另外两者积的倍数。而且，增加三者中数值最小的会使总数的数值增加得最快。比如有21个声母，35个韵母和4声。三者中“声”的数值最小。所以每增加一声会使发音种类的总个数增加得比任何其他两个音素来得多。从实践中我们看到，人类利用声音的种类也的确随着历史逐渐地增多。

我曾经在网上求教，是否可以将某些南方声调移植到普通话中以增加普通话的声调。但是赞同的人不多，也许是真的不能，也许是有什么其他原因。不过，我希望这样做的动机还是考虑到‘声’的巨大潜力；每增加一个声，实际上就等于在普通话中增加了700(21辅音×35元音)种左右的声音种类的可能性。选用普通话作标准主要是考虑到普通话的韵母中没有像ak、ik等轮廓不清的音，并没有考虑‘声’的数量。

英语中的‘声’tone与音乐中的‘音调’同为一字。‘音符’至少可以分成八个，每个‘音符’都能负载任何字，从此也能看出人类对声音的分辨能力还有很大的潜力。事实上，我与西方学者交流时，如果他们对‘声’没有认识的话，我就用音乐的‘音符’来举例。效果很好。

在ELL中我们看到许多关于对于语言不断地变化的评价。总的来说，语言学家认为变化越小的语言越有价值。无论从了解历史的角度还是从语言本身的功能来讲都是这样。在P3478中这样写到：“一般低等文明中的习惯语的含义总在改变。所以相邻的两个村落中隔代人就成了互不了解的，当然也可以说是互相无知的了。”P3478：“野蛮部族的方言总是在变化的。传统，仪式或文学都阻挡不了这种变迁。”“印第安语言和非洲语言从语言家族上讲，其寿命只有几个世纪。”“任何注意到英语单词是如何组织在一起的人都会发现他们自己的语言像是野蛮民族的语言一样正在不停地变化着。”Payne的结论是一般野蛮语言的一代的寿命是20～40年。也可以想象到，简化字最好不要与繁体字在表达上有太大的距离，或者说不应该将几个繁体字合并。

不过，比起汉字的稳定性历史来，英语还是小巫见大巫。而汉字之所以能够在几千年的时间内保持不变，其根本的原因是它的总符号个数少；或者说有意义的符号个数少。拼音文字中有意义的符号是单词，动辄十几万或几十万，而汉字总量至今没有超过六万，真正常用的仅四千左右。这样，在一生中很少的时间内便能够将它们记住，相隔几代的人所用的字基本一样。但是，拼音文字就不可能做到这一点。由于单词的数量远远超过个人一生所能够记忆的数量，所以，即使是同代人之间，他们记忆的单词范围也不能互相覆盖，就更不要说隔代人了，随着人类知识的无限膨胀，这个问题将越来越显得突出。

以上这些摘录中，虽然带有拼音文字歧视非拼音文字的色彩。但是它们必定说明了一个道理，就是没有文字的语言声音变化大。P3478也提到：“有两位著名的印第安学者发现，许多印第安语言中的基本发音元素有不确定性。有时它们似乎飘浮在两个，三个甚至四个元素之间。”而相对来讲，拼音文字在掌握声音方面却比较准确，因此，P3478说：“如果我们真的希望找到发音衰变的过程，我们必须把注意力转向没有文字的方言。而不是那种由于立体声效果而转变成标准语的语言。”中国的方言众多也源于这个原因；许多南方语言的文字表达非常简陋。现代传媒是否能够将中国的声音标准化问题解决，我们姑且不提，不过，我个人认为起用更多的声音种类会使声音有更小的飘浮余地。更多的符号才能真正表达声音。当然学习发音的困难程度也将相应地大起来。我认为，汉语将来在声音上的发展应该从普通话中增加声。当然，这对仅会普通的人来讲有困难，不过对南方语言来讲发zh、ch、sh的音也并不容易。

　有了发音的单元以后许多事情就容易解决了，我们以后所说的发音种类就是指这样的一个单元。

　随着人类智慧的不断发展，词汇的增加，汉语中同音的词将越来越多。三十年前就已经有人注意到这种现象了。我想，解决的方法应该是增加发音种类的个数，上面说过，普通话不但要利用所有未被利用过的发音，还要利用其他方言中可利用的“声”这并不是说要更改现在汉字的发音。因为那样一来，许多传统的诗歌就会失去魅力。最好的方法是从大量的现有文献中找出那些出现概率很大的可以以一个意思表示的双字词及外来语中无法翻译的字，给它们配以(尚未利用过的)单一的发音组成新字。由于它们的利用率非常高，人们自然会采用它们来表达周围的一切，这样它们就可以生存下去而不影响中国的古典文化。

无论从定性和定量的分析上，我们都会发现增加人类对于声音的敏感度会使人类在有生之年享受到更多的信息。当然，在设计一种为全人类接受的语言时，我们还要考虑到另外一个平衡；即信息速度与适用的平衡。从‘万国语言定理’我们知道，发音种类越多，信息的传递速度也就越快。但是如果一万个汉字分别用一万个声音来负载的话就要考虑大多数人是否能够掌握它们。如果仅凭记忆来掌握这些发音，那么无疑，这个过程的本身将成为一个非常困难的训练。如果将它们变成有规律的辅音、元音和声调，那么困难就简化了许多。如果我们需要的是一万个声音，那么最佳的情况就是辅音、元音和声调的个数都是一万的立方根：22个。也就是22×22×22>10000。这样我们记忆的发音符号总量可以是最小(仅66个)。但是，实际情况也许不能够容许。即使容许，也还有一个适应的过程。举例来说‘岑’这个音是个不常用的声音，很多人在第一次见到它的时候就有些陌生，甚至发不出来。再有英语的he和she的声音如果成为某个汉字的发音，那么至少要有一段熟悉的时间。还有许多我们不熟悉的辅音、元音和声调，在形成声音时至少要有几个同音字作为对于声音复习或学习的工具。从这种意义上讲，同音字少有少的好处，多了也并非绝对是坏事。

事实上西方人一直羡慕汉语的单个发音。四百年前，当第一批传教士来到中国时就有人认识到世界应该采用这样的语言。德国语言学家芬克F.N.Finck认为：“汉语有两种特性共同存在着，于是使这种语言的组织上显出很奇异的状态。一方面，汉语的词汇中的大多数只包含单个的音；另一方面，这许多单音的词汇对于语句全体的关系不是用词汇本事的某种标志来表明，而是用固定的秩序和附加的词句表明。”从这段文字中我们看到西方人理解汉语时往往把汉语中两个字的结合看作是其中一字为词根，另一字为其前(后)缀。这种理解并不完全。更确切地讲，两个字没有从属关系而类似于英语的复合词。英国人需要理解的是；由于汉语发音种类足够多所以在创造复合词时，每个组分的发音简短，即使把所有组分的发音连在一起也往往没有英语一个单词所用的时间长(或功率大)。张世禄在他的<汉语在世界上之地位>一文中谈：“耶斯拍孙氏Otto.Jespersen首创<语言进化论>progress in language，一变十九世纪以来谬误的观点。耶氏以为古代语和现代语各有特别的性质，因此推求语言变迁的倾向；据理推断，这种变迁是近于有益的方面；所以语言进步论绝不是欺人的话。综括现代语的优点：(一)语词形式比较简短，学习所需的时间和精力比较古代语就要减少。(二)形式的变化简单，记忆的负担就要减轻。(三)语词形式既然变化很少，就近于有规则了。(四)语句的组织比较有固定的原则。(五)语词离开语尾等而独立，意志表现更觉得便利，从前造句的困难，现代多以减除了。(六)综合语里的语词，多笨拙累赘，现代语上多已废除。(七)语词有固定的序次，发言者和听受者之间意义容易了解。各种语言里虽然进步迟速不等，而文法简省，形式单纯，实在为世界语言共同的倾向。凡有历史可稽的语言，都以应用便利，表现显明而日趋简单化的。近来语言学家以为古代语布置周密，现代语比较疏漏；但是周密疏漏，必以意义的表现适可而止；还是近代语比较合于实际。从耶氏的话来看，可以知道语言由综合而进于分析，乃是进步的现象；十九世纪的学者所说孤立语(词：译者加)最初等，正是适得其反。我们应当说合体语复综语最初等，变形语次之，纯粹的接合语又次之，而孤立语最高等。”其中的‘孤立语’一词基本上指汉语每个意思单位相对独立而言。

ELLP4186上这样写到：“听觉接受系统将一个听觉刺激翻译并放入神经密码中。这个过程被叫做：进行理解前的听力预储存。这种未被理解的声音信息仅仅停留250毫秒，在这期间，识别的程序必须完成。将未理解的信息变成理解的信息的过程称为综合识别。这种解释产生了一个问题，这个声音信息是属于什么形态的，或者说，识别说话的机理是什么？这种声音的形态被称作认知单元。”“一个有道理的假设是在我们的长期记忆中，对于说话时的每一个认知单元都有一个与之对应的代表存在，人们称这个代表为原型或者样本。‘原型’中包含着一系列决定这个声音形态的听觉特征，就如它们将要在‘理解前的听力预储存’中出现的一样。当每一个声音形态出现的时候，与它相应的听觉特性在‘理解前的听力预储存’中停留。此时识别程序开始在长期记忆中寻找与这个听觉特征最为相近的‘原型’。识别的结果就是用从声音刺激中得到的，未理解前的听觉信息翻译成由综合听觉识别控制的综合认知。”“元音音素的听觉效果，不像辅音音素的听觉效果那样随时间多变。元音的波形比较稳定，像‘声调’那样。元音的波形每秒钟重复75到200次。在一般说话中，元音的长度是100到300毫秒，在这期间，元音保持平稳，有规律和单一的形态。根据上面的分析，元音可以被用作说话中的认知单元。”“还有另外一个辅音音素d不能被用作认知单元的理由。依照线性的认知模式来考虑，研究发现，无论如何我们无法在辨认出元音以前辨认出d来。如果辅音能够在元音之前被辨认出来，那么元音在音节中的长度将会变短，因为只有这样，辅音才有机会被辨别出来。但是，实验表明，在辅元结CV中，元音是逐渐变弱的，那么，问题就成了，人们什么时候听到了单独的辅音？Liberman在1967年认为：CV结应该被视为一个完全的整体，直到元音完全消失。就这点来讲，辅音d除了给出一个听不见的声音外，对应我们的认知没有任何影响。Liberman表明，在辨认CV结的过程中，辅音d不能够被单独辨认出来。因此，d不可能在元音以前被辨认出来，或者说CV结是一个不可分割的认知整体。”

一个中国人难以想到的问题就是既然CV无法分开，那么VC是否能够分开？ELL上虽然有不少争论，但是我感觉这就是移植书写符号的错觉。一个CV结既然是不可分的，那么，就应该用一个符号来表示，像汉字那样，之所以将它写成CV的样子，是为了将成百个CV简化成三、四十个音素以方便记忆。但是长期使用这种文字的人难免出现一种错觉，认为它天经地义就该是按照C和V来排列的。所谓VC的说法其实是这样解释，由于元音可以单独存在，前面的V已经占领了250毫秒，已经被人听到了以后第二个CV结中的辅音C才开始发出来。这个C必然代有一个我们没有察觉的元音，否则它就不会被听到。所以，所谓的VC实际上是V加一个CV结。或者说，现行的书写系统使得我们仅仅允许我们将CV看成是一个认知单元而VC必须是两个认知单元VCV才能够存在。

认知单元就是前面所说的声音单位，可以说它将语音学的表述，音位学的表述以及听觉认知学的表述融合成一体。也就是当我们说‘一次发音器官的运动’时是对于语音学而言，当我们说CV结的时候是对音位学或认知科学而言。同样的内容，不同的表述。此外，CV结还使声音单位的计算成为可能。一种语言中，我们只要知道它元音及辅音的个数，那么我们立刻就知道它的CV结的个数是所有元音的个数加上所有元音乘以辅音的个数(这里所指的元音不见得都在一般的书写中出现)。为了计算的方便，我们还要从新定义一下CV结；任何以元音的时间长度为长度而在特征上与其他的‘一次发音器官动作’不一样的声音都可以算作是CV结。根据这个定义，元音本身也可以算作一个CV结，虽然它们没有C的陪衬。比如，a、an、ang、等，它们都是单个的元音，都需要250毫秒来表达，所以都符合上述定义。(这里所指的辅音和元音并不是英语字母中的元、辅音，而是国际音标中适合该语言的元、辅音)英语中有约20个辅音和20个元音那么，英语的CV结就应该是20元＋20元×20辅＝420个。但是，这个数字是理论值，或者说，我们将元音作为声音的时间单位，(汉语将vowel翻译成元音很有意思，好像是在说它是声音的基准单位)每一个元音需要250毫秒来表达。辅音和声实际上就是一种改变元音特征的手段而已。由于某些原因，不是所有的CV结都能够发得出来，还有一些虽然能够发出来，但是没有被利用。所以，我们只能够说，英语的实际的CV结小于这个计算值(参看前面有关元音和辅音组合的表)。对于有‘声’的语言来说，由于‘声’与元音是共存的，(或者说，任何元音都带有声，仅仅是某些语言承认它为信息载体，而某些语言不承认它为信息载体而已)又由于‘声’可以区别声音特征，所以，还应该将‘声’的个数乘进去。汉语普通话有21个声母(辅音)、35个韵母(元音)和四个‘声’所以汉语普通话可以发音的理论值应该是21×35×4＋35×4＝3080个CV结。但是目前实际被利用的仅有1186个。

有了CV结的概念，我们就可以解释任何CV结的‘潜能’。我们说，任何一个CV结在某种语言中都有一定的潜能，这个潜能是由该语言的CV结总个数来决定的，它代表使用该语言说话时的表达能力。一种语言中有200个CV结，那么，利用每一个CV结所占用的250毫秒，任何人都能够从200种事物中分离、或者区别出其中的一种来，而当两个CV结组合在一起，也就是占用了250×2＝500毫秒的时候，任何人都能够区分200×200＝40000种事物中的一种，依此类推。由此可见，潜能对于一种语言或者表达方法来讲是十分重要。由于汉语拼音中‘潜’字的字头是Q所以我们用Q_n_，n代表任意一个数。如果英语有420个CV结那么英语的潜能就是Q₄₂₀。汉语普通话有1186个CV结，所以汉语的潜能是Q₁₁₈₆。不过只有在语音表达的时候潜能与时间有联系而书写符号的潜能至少到目前为止还没有人研究过。

根据CV结的观点，我们还可以解释一些其他的语言学现象。比如ELLP2597中写道：“1985年Dressler提出理想单词的尺寸是2～3个音节。”如果按照“英语有8,000个音节”的说法就不能解释为什么会是这样？但如果用CV结的理论就可以解释。我们知道，一种比较发达的语言中，至少要有十万左右的单词。而一种语言中的元音音素和辅音音素基本上在20到30之间，因此，CV结的个数在400到600之间，汉语即使有‘声’其所采用的真正CV结也只有1,186个，所以用单个的CV结来表达这十万个单词是不可能的。必须使用两个以上的CV结才能够表达十万以上的单词。对于英语来说420CV×420CV＝176,400CV²对于汉语来将

1,186CV×1,186CV＝1,406,595CV²都能够满足十万单词的要求。所以无论哪种语言，要想拥有这样多的，可以区别的发音种类，再考虑到一些组义的因素，其大部分发音种类必须是2～3个发音种类(CV结)的组合。人们听惯了这种类型的组合就觉得它非常亲近。但是当各种语言中的词汇量无限增加时，这种平衡将会打

破。而如果是8,000个音节则两次组合的个数应该是64,000,000个远远大于十万，所以根本不会出现三个音节的组合。

为了解决日益增加的信息量的问题，人类一直采用增加发音组合的方法。因为它是最可靠，也是最保守的方法。从“万国语言定理”中我们看到，这种做法将导致信息交流与思维的时间加长。因此，它是不科学的权宜之计。科学的对策应该是增加发音种类的个数以保持现有的，理想词汇(2～3个音节)的平衡。一种语言中CV结的计算值，可利用值与实际利用值之间有很大的出入。比如汉语普通话中计算是21×35×4＋35×4＝3,080个，但是，经过一个个的确认，仅有2,500个声音可以真正发得出来，而实际利用的仅1,186个，连一半都不到。ELLP4106：“对317种语言的研究发现最少的语言有6辅5元，而最多的有95辅49元。”当然，其中许多元音是否能称得上是单音，及能否组成单音还有待研究。不过它给出一个大概的数据。以CV发音的种类最多是95×49＝4,655个；最少是6×5＝30个。但是它们实际利用过的CV结到底是多少却没有人研究过。我相信实际的利用率对于前者(元、辅音多)来讲是很低的，而对于后者(元、辅音少)来讲必须相当高才成。

很多研究国际语言的学者希望从这种发音及口型上找到人类语言的共同点，从而得出一种最通用的语言。但是，这是不可能的。为了计算，我们必须找到人类语言的共同点。而这一点必须从发音上面来解决，因为动物还在海洋中生存的时代就已经使用声音作为交流思想的载体了。那些最原始，和最方便的表达都是从发音开始。书写仅仅是帮助发音和记忆的副产品，它的出现比声音传递信息，不知道晚了多少年。而最重要的一点是人类在发出一个可以使别人听得到的，并可以传递信息的声音时，必须消耗200至300毫秒。换句话说，用正常速度说话，每秒钟仅能够发出3到5个声音。

书名：《语言的本质》　作者:苏诚忠　语言文字网(www.yywzw.com)发布