语言的本质-6合理的语音单位-语言文字网YYWZW.COM为最广泛的汉语汉字爱好者搭建交流平台

发布日期：2005-11-30

6合理的语音单位

语言学到底是研究什么的？直到目前为止还没有人回答这个问题。在ELL的序言中这样写到：“Leonard Bloomfield 所著的‘语言’一书(1933)，描写语言学就是‘研究语言’，此后，许多教科书都曾经提到与Bloomfield的想法相近的说法‘科学地研究语言’。但是其中也有不少问题需要解释，而最重要的问题就是如何理解‘科学’二字。”在北大中文论坛上也有人曾经讨论：什么是语言学？语言学到底是研究什么的？我的回答是：语言学是研究语言的作用的学问，是研究如何找出更科学的语言来为人类服务。在知识爆炸的年代它的目的是如何大幅增加人类在有生之年所能够享受到的知识。如果可能的话，作为副产品，它将使人类的语言统一。

为了解决人类在有生之年大幅增加所能够享受到的知识，我们必须弄清楚单位时间内人类能够享受多少知识。根据我们上面对于发音重要性的描述，人们立刻会想到，应该了解一下每个发音单元所消耗的时间。因为，不论这个时间多么短暂，它依然是整个生命的组成部分。

语言学简史P32：“古希腊的Dionysius Thrax就曾经注意到元音与音节的长度问题，并且进行了描述。”

音节已经分不出消耗时间的长短了，音素中的辅音又是一种理想中有而现实中不存在的单位或元素(比如，英语中的b可以发得出音如[bi]，而国际音标中的b就没人发得出来，其他的如英语的d[di]，k[kei]等也是这么回事)虽然也有人提出以发音所需要的时间长短来定义发音的单元，但是在具体操作时还是多有不便。它的根本原因还是在于所谓的拼音文字，其发音结构受到字母这个发音符号的影响或限制太深，从而不能将许多超出已经确定的符号的音的声响，清楚地单个读出来。试想，如果限制你只能用国际音标字母来表示“添”这个汉字的发音，你有什么办法表示？tian这个音，汉语是由一个音的一次动作干净利落地完成的，而英语则发成ti－an因为ti的发音接近字母t或单词tea而an有些像冠词an。由于他们的发音表中没有一个完全的“添”，或者tian可能属于伯拉图所认为的杂音，所以最接近tian的音只能是ti－an。反过来，中国人说英语 tea 可能想到“剃” an 时可能想到“安”，因为汉语中有 ti ，有 an 也有 tian 。我这里说得是汉语中单个发音个数丰富，并不是说汉语在使用元音及辅音时也比英语更加充份，其实，很多英语使用的辅元音组合，汉语还没有利用过如shi、hi这两个汉语拼音组合在英语中就有相应的词汇，或者说已被英语利用过。

在英语中，用什么单词来表示一个声音也各有千秋。 P2585是用声音的单体phonological segments来解释如何组成词素的。几百年来，西方人用了variphone；facultative variant；combinatory variant；free variant； archiophoneme；morphophophonemic；microphoneme；toneme；chroneme；juncture phoneme等等词汇。随着研究的深入，人们还是逐渐地接近了事实。

直到二十世纪初，有人提出应该将发音看作一个个不连贯的单体。这一派的音位学称为非线性音位学nonlinear phonology。 ELLP2824，Saussures“认为从菲尼基时代，印－欧对于发音的认识便是音位学phonology。它主要研究几个音连在一起时的作用。但是，到了二十世纪后期，人们对英语的重音及汉语的声调等被称为超节片suprasegment(赵元任将它译成‘上加成素’)的元素进行研究后，提出了对线性理论的反驳意见。一些人认为，人类说话时发出的声音是一组具有相同的性质或特征的单体，它们同时排列在不同的层面或通道上而不是依次按时间先后排列，由于没有先后之分，它们相互之间不会由于前面的音影响后面的音或者后面的音影响前面的音。”(有些类似汉语发音)但是，由于印－欧语言中的大部份单词发音无法将一个个的音分得很清楚，所以，这一派学者又加上新的条件，就是，所有的字母之间可能有一种复杂的相互交搭的现象。这一派学者的主要出发点是希望可以更加详尽地简单地描述语音，用一种更加有规律而非任意的方法重新解释语言。这一派的学者有Ellis、Bell、Sweet、Sievers与Jespersen。线性派与非线派的根本分歧在于前者认为音素必须联在一起才能被发出来，而其组合是条件组合。后者认为发音是分离的，其组合是无条件组合。我认为前者关于条件组合的的概念是不正确的，而后者的错误来自他们混淆了重音与声调的区别。

二十世纪三十年代，非线性音位学受到另一派的挑战。该派认为：发音依然是线性的但是其目的仅仅是为了找到一个单词与另一个单词之间的区别而已。一个单词与另一个单词的真正区别，往往就是一个简单的音素如bad与bed。这种能够使两个单词区分开来的音素称为特征原子。如Bloomfeild所说：“我们可以将一堆或者一束发音中真正起到区别作用的因素称为音素。”由于印－欧学者将辅音及元音称为节段segmental而将声、语调和重音称为超节段suprasegmental这种分类方法使得非线性派无法解释超节段在发音中的作用，因为既然发音是一个个蹦出来的，那么如何将语调切成一段一段的与它们相适应？但是特征派就可以将超节段也解释成为一种类似音素的发音成份。美国麻省理工学院的乔姆斯基Chomsky对二十世纪下半叶的语言学曾经起过重要影响，他与Halle’s合著的<英语发音类型>Sound Pattern of English则希望将两派作一个折衷，认为应该将发音分成X和Y两个轴来考虑，横轴X代表发音的特征，纵轴Y代表音素。不过很少有人能明白它们的具体含义，有兴趣的读者可以参考这本书。

到了二十世纪七十年代有人以自动节片autosegment来解释发音。这个解释已经非常接近中国的‘切音’或汉语拼音了。(每一个自动节片实际上就是‘三维语言’中提到的一个维。之所以称为‘自动’我想可能是要突出这种节片有更大的自由度，它们可以互相结合，不受习惯的限制。)P3158中写到：J，R，Firth用一种被称作syntagmatic的系统来描述声音，认为它连元音及辅音都不能分出来。 Firth，P3164反对以数学方式分析音素。我认为他P3159提到的用一次口部动作one articulation type作为发音单位最为合适。

在P4187上有这样一个例子。在单词did中有两个d，它们在听觉上面是有区别的。如果把两者各自的发音类型分离出来并且交换位置，那么，这个单词是不会发同样的声音的。我的解释是，实际上第一个d发出的音是di，而第二个d发出的音是D∂。因为辅音是不能单独存在的。

我认为应该更进一步地看到，世界上根本就没有辅音，只有声母。比如bed中的d是个根本不存在的音，没有一个发∂的极短的音，它就根本发不出音来。如果元音和辅音在发音时能够分开，那么一定可以从试验中分离出哪段时间是辅音，哪段时间是元音。但是，实验中得到相反的结果ELLP4209也提到“关于耳蜗对声音的反应的实验发现它是非线性的，其道理至今尚不明了。 ” P4188New－man与Spitzer从试验上证明在发音时，“元音和辅音是分不开的。所以最有说服力的解释就是将一组辅元音CV看成是一个可以识别的单体perceptual unit。”所以d这个音所代表的并不是一个辅音，而是一个辅元音。d的意义仅供读者参考，像是汉语过去用在切音上的字，虽然真正的d分离不出来比如“大”这个字，但是他依然可以指示出一个理想中的，不带元音的d来。汉语拼音的功劳不过是将许多这样的字中的元音(韵母)统一成一～二个。所以任何一个音，用一次口部动作来表示是再准确不过了。它将自然，物理或生理上的发音与语言上的叙述联系在一起。而元音是存在的，它相当于汉语的韵母。辅音(声母)，元音(韵母)的关系就是汉语拼音的关系－－由两个不同的声母和韵母联想出一个与二者都不同，而又无法切割的单音来。

拼音实际上可以这样解释，对于有声母的音来说，它的时间长度等于韵母的长度，声母仅仅是置换了韵母的某些声音特征。声音单位的长度并没有因为声母的介入而延长。由于这样的一个音是由一次动作完成的，所以也可以称它为一次口部动作one articulation type 。对于没有声母的音来说，韵母本事就是一个声音单位。这一点也在P4187中得到解释。“考虑到元音音素的听觉性能时，它们不像辅音的听觉性能那样多变。元音的波形相对来说比较稳定，或者说像‘声调’。元音的波形每秒钟重复75～200次。在普通谈话时，元音的时间是100至300毫秒。在这期间，元音保持一种完整的，规律的单独类型。从以上的讨论中得出结论，元音可以被划分成说话时的认知单位。”这个结论在网上讨论时也被大家公认，因为这是试验的结果。任何人希望计算它非常容易，只要将电视上，或者录象上任何一个说话人三十分钟之内的发音个数计算出来，然后除以1800秒就可以了。

从物理的角度讲， 一个声音单位就是一个认知单位，或者 one articu－lation type 它应该能够被某种物理仪器探测得到的。至于双辅音的情况，我认为，它们与元音结合后的时间长度也应该能够测量得出来。

1186是400 的1.18次方，也就是汉语的一个发音应该等于英语发1.18个声音。增加发音动作的频率也许可以弥补一些损失。但在第八章‘人类文化史中的两个“谜”’中，我们看到，菲尼基人与古希腊人的速度差了1.9倍以上，这就无法用增加频率来弥补了。

P3417 1972年，K，N，Steven的语音定量分析Quantal Theory of Speech，从西方人的角度希望建立可数的发音模式。它承认发音是竖向的(非线性的)，可数的。它举的例子是两根不同的笛子，同时发音时所得到的音响效果与两者单独发音时都不一样，这说明混声后得出一种新的声音。因此，声音的种类远比几个字母所代表的多得多。这个理论已经与汉语拼音理论十分相近了。但是，反对者从西方的角度提出这个理论无法解释重音现象。因此，我认为应该按照袁晓园的看法，用中国理论来解释它。但是无论如何，西方人用空气动力学的理论重新阐明了几个声音组合的现象。它为人类文化增加了内容。一些国内的学者，由于体会不到这个困难，所以很难有人提出类似理论的。

目前的语言，尤其是西方语言，在人们的潜意识中，声音似乎是可分的。但是一旦具体操作时又分不开。也可以说太约是界乎能分与不能分之间的。我认为无论是结构主义的音位学，还是自生音位学，还是Firth的音韵学，不管是把声音看作是心理上的一个个‘点’，还是有形的单个元(辅)音，有一条是不变的，那就是，语言中的发音是可数的，即使我们目前还很难定义它的单位。笛卡尔曾经将一条光滑的直线人为地切割成相等的线段作为单位，在几何中应用了数学性质。那么即使按照西方学者那样硬把发音说成是线性的，不可分离的我们也可以将它仿照笛卡尔坐标切割成相等的成份来计算，更何况我们还有汉语这样的发音系统，它是可以一个一个分离出来的。也正是这种完美的单音(指普通话)系统使得发音可以找到单位。就是以汉语普通话的一个音作为单位，单词发音的长短都可以与它比较，可能会出现小数，分数甚至是无理数都没有关系。关键在于它有了标准。有了标准就使东西方文化及各种文化之间有了比较。就像数学中可以建立的方程式，使语言学能够横跨社会科学与自然科学之间。

许多音位学家甚至为每个字母列出了它们在音位学中的特征表，以示每种发音在各个组合中的不同之处，希望以此来找出哪些些特征是可以利用的，而哪些东西仅是制造nonsense的。我认为，如果能将拼音语言切成单个的发音，那么，所有的可以与别人不同之处，都可以当成是信息的载体，没有nonsense与sense之

分，因为所有的意思都是人为地赋予的，只要大家公认就可以了。信息论大概也是受了这种观点的影响。原因都一样；拼音语言分离不出单个的发音及单个的意思。

如果以汉语中的每一个字作为发音的单位，这就需要定义什么是一次发音器官运动？发音器官包括唇，舌，鼻，齿，颊，喉，肺，腹等，任何一部分在发音时动作的器官甚至肌肉都要被看做是发音器官的一部分。所有这些部分或肌肉的动作如果是同时的，我们就称是一次动作，如果不是同时的，就称是两次，或者是一次以上的动作比如man就是一次动作，因为最后的n正好与整个动作的结束运动相一致，让你无法分离出另外一个动作。而mum就应该算作两个，或者说一次以上的动作，因为第二个m如果希望使人听到的话，必须伴有一个与前面的mu不同时的鼻音或者说闭唇的动作。再有就是关于alto这个单词，如果你发音时希望对方听到l的声音，那么这个单词就应该算作三次动作a－l－to，但是有人将l读成o或者u，那么这个单词就算是两次动作ao－to。这种情况在汉语普通话中也十分常见。比如说‘那么办’三个字的时候，应该是nàmèban但是，大多数北京人发音是nen bà再比如：‘告诉你说’应该是gào sùnǐshūo但是大多少北京人说，gàou nǐshūo这种情况我们只能说是由于周围环境及上下文允许，所有发音者将声音简化了。这不是标准的发音。我们在研究语言的功能时也不应该用这种现象来进行探讨。

我们可以将普通话广播员对所有新华字典上1186个音发音时所用的总时间除以1186作为一个发音单位所需要的时间作为一个发音单位所需要的时间。

有人曾经做过这样的试验；根据统计，正常人说话时每一个声音(CV结)需要250毫秒，于是，将这250毫秒的声音录下来，按照40毫秒、80毫秒、120毫秒、、240毫秒等播放给接受试验的人听，结果发现只有到了240毫秒以后，接受者才能够较为正确地听到，而80毫秒的时候，接受正确的概率仅有50％。这说明，发出任何一个别人听得清楚的声音，必须消耗240毫秒的时间；任何想在这段时间中发出比一个声音多的做法实际上是发出了一个以上的别人无法绝对听清的声音。比如，hit如果使用的时间在240毫秒内，那么人们对于hi和t两个声音听得都不真确，必须有相应的上下文或者语言环境才能够理解你的意思。但是，我们所说的声音单位是一个不需要上下文及语言环境就能够听清楚的声音；或者说是可以为其他声音提供上下文或语言环境的声音。这就解释了Mellon大学及麻省理工学院1978年的语言学实验发现，与前后无关联的音比普通英语的连贯发音更容易识别。这也是为什么用普通话的单个音来定义发音单位的理由之一。

用这种切分的方法，我们还可以测验出辅音和元音无论在多小的时间间隔内都是同时存在的。这里要强调说明的一点是，辅音的特点是它的特征性比元音好；因此，菲尼基人仅仅从象形文字中分离出了辅音。元音虽然特征性不好，但是它的时间长度相当稳定。我们所说的一个发音单位的时间长度，其实就是指一般人说话时元音的长度。辅音基本上是附加在这个长度的开头一段时间内。这一点可以用拉长声的方法来证明。如果你读一个汉字，例如‘长’字拉长至五秒钟，那么，你会发现，仅前面很短的时间内有ch的声音，而后面那四秒多的时间只有ang的声音。‘声’的长短其实是叠加在韵母或元音上的，换句话说它本身没有长度，仅仅是发元音的时候将它附带着表达出来，与元音共存的发音元素。但是，我们要关心的是元音的长度。
在 http://www.phon.ucl.ac.uk/home/wells/formants/table-6.htm, 对于英语的长短元音进行了如下统计：

表3－6－1

Speaker no. 说话人编号	Speaker's mean vowel duration 说话人元音的平均时间			Ratio 比率
Speaker no. 说话人编号	Short vowels 短元音	Long vowels 长元音	All vowels 所有元音	long: short 长：短
1	.17	.33	.25	1.9 : 1
2	.18	.32	.24	1.7 : 1
4	.24	.38	.30	1.6 : 1
5	.18	.33	.25	1.8 : 1
8	.18	.32	.24	1.8 : 1
9	.18	.32	.24	1.8 : 1
10	.18	.26	.22	1.4 : 1 *
11	.15	.30	.22	2.1 : 1
12	.16	.32	.24	2.0 : 1
13	.19	.33	.25	1.7 : 1
14	.16	.30	.23	1.8 : 1
15	.16	.28	.22	1.7 : 1
16	.15	.27	.20	1.8 : 1
17	.13	.36	.23	2.7 : 1 *
18	.20	.33	.26	1.7 : 1
19	.13	.26	.19	1.9 : 1
20	.16	.31	.23	2.0 : 1
21	.14	.28	.20	1.9 : 1
22	.16	.26	.20	1.7 : 1
23	.20	.46	.32*	2.3 : 1
24	.17	.37	.26	2.2 : 1
25	.13	.26	.19	2.1 : 1
26	.14	.30	.21	2.1 : 1
27	.13	.25	.18*	1.9 : 1
28	.16	.32	.23	1.9 : 1
Average of all speakers 所有人的平均	.16	.30	.23	1.9 : 1
Standard devia－t Ion标准差	.03	.08	.03	0.3

从统计中看出：元音的长短也因人，因时而异。短元音的时间长度一般是0.16 秒(160毫秒)，误差在0.03 之间。长元音的时间长度是0.30 秒，误差在0.08 秒之间。说话人的元音平均值在0.18和0.32秒之间，两者的平均值是0.23秒。说话者说长元音对短元音的比是1：1.4 到1：2.7 ，平均比值是1：1.9 但是在 http://www.phon.ucl.ac.uk/home/wells/formants/duration－uni.htm上谈到：“近年来，长、短元音的界限越来越模糊。”我相信，英语正朝着采用‘声’来区别长短元音的方向发展，例如：单词to的声音类似汉语普通话的一声，而too则类似普通话的四声；单词aha中第一个a类似普通话的三声，第二个a类似普通话的四声。赵元任先生也发现(语言问题P84)：“所谓长短音是真的是声音的长短，不是比方象Webster字典里头注英文的音的长短，像long a, short a，那个长短音固然从前是指长短，事实上，现在的声音的不同也是从时间长短来的；不过主要的，现在所谓英语注音里头的长短音已经不是长短的问题，根本是元音的性质不同。Webster字典跟一般字典所谓长短音，不是语言学里头讲声音的真正长短。－－音位的不同的负担，不是全靠长短，也靠音的不同。”我们在讨论殷商音系的时候发现，当时的汉语对于声的运用也不完全，仅能大致地分成两个声调。再看日语的情况，目前也是两个声调。所以从无‘声’语言到有‘声’语言是一个缓慢的过程，是逐渐增加的过程。英语长、短元音趋于一致的变化，实际上是为了最后采用‘声’作准备，而在某些情况下，采用声的步骤已经开始。这一点，在Simeon Potter所著的‘变化中的英语’Changing EnglishP15中写得更加清楚：“在see，tar，saw，two和sir中的五个长元音当中，只有第二个和第五个目前还是从头到尾平稳地发音。但是/i:/与/u:/的发音则是开头高起，末尾滑下。这种变化从几个世纪前开始的英语的‘元音大变革’Great Vowel Shift就开始了。这样，你听到的不是[si:]而是[sij]，不是[tu:]而是[tuw]。”用汉语普通话的观点，我们很容易知道，这两个元音改变的实际上就是‘声’。‘变化中的英语’P16：“在bad，bag，jam和man等末尾是浊辅音的词汇中，一个非常有趣的变化就是元音[a]在逐渐加长。因此，例如，bad[bad]和bard[ba:d]过去是由音质(前高对后高)和长度(长对短)来共同区别的，但是现在趋于仅用音质来区别。如果你用缓慢的声音来说：Scott was not a bad bard。你能发现最后这两个单词上有任何长度上的区别吗？实验室的研究表明，它们仅有微小的区别。如果这个变化继续下去，它将影响标准英语的音素类型。－－在美国英语的影响下，将短元音加长的趋势正在加快。”

比较殷商音系(郭锡良<北京大学学报>，1988年6期)：声调拟为长平、短平、长入、短入，实际上每个韵母只有两个声调。我猜测，所有语言中元音采用声调的过程都是先将元音分出长、短，然后从音质上加以区别。原因很简单，开始加长的过程，实际上是使对方听清楚的过程。当对方听清楚以后，才有可能进行各种变调。从这些事实中，我们得出一个结论：所有语言的发展都遵循声音优先的原则。而声音的发展是寻找更多的，容易清楚区分的声音种类。此后就是如何记忆的问题。如果将‘声’也看做是一种音素的话，那么各种音素在数值上相等将会减少人们对于音素记忆的总量。这样的音素，容易被流传下来，否则，如果三种音素元音、辅音和声之间在数值上差距很大，那么某些音素就不容易流传，造成遗失。

在一个英特网的论坛上，有人提出，英语的音节数量远远大于汉语的音节数量。类似的说法也出现在不少文章中。如果我们用声音个数来衡量，立刻会看出提问人本身的缺陷。不错，的确有人发现，英语至少八千多种音节，但是，发现它的人Otto Jespersen同时也指出了音节长度上的不规则性。有些仅有一个字母如a，有些则有七个字母如sprints。具有这样大的差别的音节在时间上怎么能够一致？另一方面，如果你非要说它们一致的话也不影响我的结论。由于任何一个英语音节中都至少有一个元音，所以，任何会说汉语普通话的人都能够用‘四声’把它们发出来；也就是说，汉语中的音节永远是英语音节的四倍，水涨船高，英语如果有一万个‘音节’汉语就有四万个‘音节’。也许正是由于这个原因，Alan Badde－ley在他的‘工作记忆’Working Memory一书中不得不用计算辅音的办法来计算单词经过大脑的时间(见P206和P208)用‘一次发音器官的运动’作为发音单位几乎所有的问题都能得到解释。因为普通话的发音轮廓清楚，发音长短都差不多，没有长元音、短元音及轻重之分，此外原则上每个音的相互结合不会引起双方的任何变化，而且每两个音的结合没有任何限制。这样我们可以根据比较来定义一个英语单词是一个汉字的三倍两倍还是一倍半？反过来，我们无法定义一个汉字在发音时其所用的时间上是一个英语音节的二分之一，还是零点七五分之一。归根结底，这是由于汉字音、形脱节，历史上，它的发音不受符号限制，只要能互相区别就足够了。而由于拼音文字的二、三十个字母即要担负表达字符的工作又要担负表达字音的工作，两者的矛盾使其无法科学地划分发音单元。拼音文字的声音发展却又要受符号影响，换句话，每当新音出现时，他们总是用旧有的一个或数个音符去模拟它，其结果使得新音也被旧音同化了。

大多数语言学家都希望将自己的研究与数学联系在一起。比如乔姆斯基和Halle的Sound Pattern of English 将音素作为纵坐标，而其特征(如重音，声)作为横坐标。我也将语言按其发音中含有哪种因素来划分语言是希望在解释语言时更为方便，更为直观。简单地说，由于辅音、元音及声的关系很像数学中的X、Y、Z三个轴的关系，所以称仅含有辅音的语言是一维语言，含有辅音及元音的是二维语言，即有辅音、元音也有声的语言称三维语言(李约瑟也是这样划分的)。至于英语中的重音及声调对于发音个数几乎没有影响所以不能算是三维因素。

按照元音分成音节与本人的按照辅音分成声音单位有如下的对比：

表3－6－2

音节		声音单位
ac·tiv·it·y	[æktiviti]	a·c·ti·vi·ty
bit·ing	[baiti ŋ]	bi·ting
cli·tel·lum	[klaitel∂m]	c·li·te·llu·m
dil·i·gent	[dilid3∂nt]	di·li·gen·t
east·er·ly	[i:st∂li]	ea·s·ter·ly
flat·ter	[flæt∂]	f·la·tter
guard·i·an	[gα:dj∂n]	guar·di·an
his·tol·y·sis	[histכlisis]	hi·s·to·ly·si·s
in·ter·cept	[int∂sept]	in·ter·ce·p·t
knowl·edge	[nכlid3]	know·le·dge
lin·e·al	[lini∂l]	li·nea·l
max·i·mize	[mæksmaiz]	ma·k·si·mi·z
nat·u·ral·ly	[næ t∫∂r∂li]	na·tu·ra·lly
pack·ing	[pæki ŋ]	pa·cking
ro·tate	[routeit]	ro·ta·te
shad·ow·y	[∫ædoui]	sha·do·wy
teach·a·ble	[ti:t∫∂bl]	tea·cha·bo

书名：《语言的本质》　作者:苏诚忠　语言文字网(www.yywzw.com)发布