1. 为什么人类听觉所感知到音差由频率的比决定?为什么音符与频率的比值有关?难道人耳是一个天然的「对数运算器」?

具体地说,对人类听觉而言,440Hz 到 880Hz 之间的差距跟 880Hz 到 1760Hz 之间相同。只是后者比前者高一个八度。即:在对数尺度下,音高与频率近似成线性关系。

十二平均律就是以频率之比来构律。

2. 泛音又是如何被人耳感知为音色的?

3. 为什么人类听觉系统要进化成这样?这里面主要有哪些生物学上的原因?有哪些进化上的优势?


2019-01-31

由于人耳听觉系统非常复杂,迄今为止人类对它的生理结构与听觉特性,还不能从生理解剖角度完全解释清楚。不过,你的提问跟听觉的关联不太,人耳只是接收声音的器官,我们还无法想像它能自行运算,那不代表人体除了大脑外,又多了另一个脑了吗 (注)?

其实,你的问题要从历史角度去追溯,我们先从「音高」与「频率」的关系科普起,按 C 调来说起,

普通八音阶的各音频率对照表

过了一个循环就下标 +1 ,又叫「升八度」,即 C1, C2, C3, C4….高八度是频率高一倍,而低八度是频率低一半,也就是说,C2 比 C1 的频率高一倍,C3 比 C2 的频率高一倍。按照我们所了解的,第一泛音比基频高一倍的事实。如果一个人唱 C2,另一个人唱 C3,那第一个人的第一泛音就会和第二个人的基频完美叠合在一起。以此类推,两人的高阶泛音也都会产生重叠,这就是女声比男声高八度的由来:两声部差八度,则泛音可以很好的重合,这是一种很好的和声状态

现在最通用的音阶是把一个八度的倍频等比分为 12 份,那为何要这样做呢?在正式说明前,我们先来看看两个总结的规律。一是人耳对音高的感觉主要取决于「频率比」,而不是「频率差」。比如 220Hz 440Hz 的音差,和 440Hz 880Hz 的音差,一般人认为是相同的音差。二是如果两个音的频率比值很接近小整数比,那么这两个音同时发出来人会感觉很和谐。比如 440Hz 660Hz 的两个音,频率比值是 2:3,一般叫做「完全五度」,同时发出来很和谐。

至于为何有以上的规律我们不得而知,图 1 是某个测试人们对各种频率比平价的结果,峰越高,表示人觉得越和谐

人对各种频率比评价的结果

可以看出 1:1 1:2 是很和谐的,而 2:3 3:5 3:4 等小整数比就差点了。其实早在公元前,Pythagoras 就发现了小整数频率比很和谐的规律,所以他定出四个音,F:C=4:3 G:C=3:2,高八度 C『:C=2:1。然后,他把 F G 之间的间隔 9:8 叫做一个全音,按照 9:8 全音间隔填补空档后,他定义下面这些音阶如表 1

纯律之整数频率比

可以看出 E:F B:C』之间的间隔是 256:243=1.0535,差不多是 9:8 的一半, Pythagoras 就把这种间隔叫做「半音」,现在把这种用整数比定音的方法叫做「纯律,just intonation」。

但纯律有个问题,就是有些音之间的比例很古怪,像是 F:D=32:27 是非常不和谐的。于是 Bach 开始鼓吹当时已经建立起来的「平均律,equal temperament」。平均律沿用了这七个基本音的「全音阶,diatonic scale」,但是让全音刚好等于两个半音,这样无论怎么变调,整个音阶只要偏移一下即可,而各个音之间音程不变。表 2 是纯律与十二平均律的对比。

纯律与??平均律的对?

中间的六个音程还是存在著差异!接著,我们再根据十二平均律,高一个八度频率高一倍,中间的十二个音使用对数关系,我们得到表 3

纯律与??平均律使用对数关系的对?

这样就可以看出,十二平均律与纯律非常接近了,特别是 F:C 完全四度与 G:G 完全五度,非常接近应有的整数比 4:3 3:2,只差 2 个「音分,cents」。

再来探索为何小整数频率比的两个音比较和谐呢?这得从乐音的谐波说起。一般乐器发出的音都不是纯频率的音,而是由好多「谐波,harmonic」组成的,其中,频率最低的那个通常最强,称作「基音」。例如小提琴发出音高 A4 的音,指的就是其基音 440Hz,而声波频谱里同时有二次谐波 880Hz、三次谐波 1,320Hz、四次谐波….等。于是就有科学家做了实验,发现两个乐音和谐主要是因为他们的谐波重合,转换为数学语言,就是基音必须是小整数比。

为何谐波重合就好听呢?这是因为如果谐波不重合但是距离很近,他们就会干涉形成低频率的「拍音,beat」,非常难听。人们比喻这个临界距离称为「临界频宽,critical bandwidth」,处于临界频宽内的两个频率就会互相干涉,而频率越高,临界频宽频也就越宽 (如图 2)。

临界频宽

可以看出,临界频宽在低频区是 100Hz 左右,高频区大约是本身频率的 [公式] 。比如,900Hz 的临界频宽是 150Hz,也就是说 750-1,050Hz 频率范围内的音,都会与 900Hz 的音干涉。用音乐术语来说,[公式] 频宽介于大二度和小三度之间 (图示 [公式] semitones 间),所以在高频区域里,间隔一个或两个半音的音就会互相干涉,形成不愉悦的拍音。

综合以上信息,第一,人耳不是听觉中枢,不具备对数运算功能;第二,十二平均律是通过「经验法则」所得到的规律,是为了符合现况而生;第三,人类听觉系统或许有进化,但像我这类只会花钱给小孩学音乐,但听不出来是哪个音的人来说,应该还是进化得很慢

注:

听觉机制包括:机械 →电 →化学 →神经冲动 →中枢信息处理等一串过程。在蜗管中若以鼓阶的外淋巴中的电位为 0,内淋巴液通常有 +80mV 的正电位,螺旋器毛细胞内的电位则约为 -60mV。电流不断从蜗管通过盖膜、毛细胞的纤毛、细胞膜及周围组织流入毛细胞内,形成回路,当声音引起基底膜运动时,螺旋器也随之作相应的运动。由于运动的方向、惯性等因素的作用,毛细膜与盖膜之间产生一种展力使纤毛弯曲,改变了回路中的电阻。从而调制了通过的电流,使听神经末梢和毛细胞间形成的突触周围也有相应的电位变化,导致化学递质的释放,后者使神经末梢兴奋,发出神经冲动。接受各种不同特性的声音后发放出的神经冲动在时间 (不同的节律),和空间 (不同的神经纤维) 上各有不同的构型。它们携带有关声音的信息,依次传至各级听觉中枢,经过处理分析,最后便产生反映声音各种复杂特性的听觉。有关信息在听觉中枢的处理过程还不完全清楚。

而「听觉中枢」位于听神经以上的脑干和大脑半球中的听觉结构。

分类:科普 &>&>生物 &>&>音频


题主也提到了泛音,我认为,泛音恰巧就是答案。

我们知道物体有震动的固有频率,但实际上震动是自由的。因此将一根琴弦等比例分割为若干等分,又有著各自的固有频率。

正根琴弦的情况下,这些等比例分成的若干份的片段之间互不干扰,因此,分震动也会发生。

比如全长震动之外最明显的1/2长度震动,就同样非常明显。

而震动频率,和长度成反比关系,长度减半,频率翻倍。万事万物发出的声音都蕴含著大量的按比例存在的泛音了,这些声音音量小到不足以被听成两个音,又因为万事万物的声音中都包含著这些分震动,自然被人所习惯。

倍频本身就是声音的一部分了,自然听起来像是原本的声音。

而听起来像的两个音最终被人视作了不同音高的同一个音。给他们起了同一个名字

注意前面提到,倍频,这是等比例的东西。

因此,一个循环(一个八度)自然也是按等比例了


我也不知道被邀请没有,反正要强答一波。

为什么人类听觉系统对频率敏感?其实有一点点心理学基础的人都知道,哺乳动物的感官系统不仅仅听觉,其它几乎所有的感知都是与频率相关的。

不管是哪一种感知:触觉,听觉,视觉,嗅觉,味觉……它们无非都利用了神经系统来将电信号从感受器官转达到大脑。

首先,明白我们的神经系统传递信号依靠的是频率

我们的大脑与外界没有直接的连接,而是通过这些电信号来对外部世界建立一个自己可以理解的模型,从而从这个不断建模、不断学习的过程中获得经验,建立一些固有的模型(比如对语言的认知)。

如果你是一个电路设计师,现在让你设计这一套从感受器到大脑的神经电路,你会面临两个选择:对于不同强度的刺激,你是选择增加电流,还是选择增加频率?

显然,从生物节能的角度来看,频率是最佳的选择。这么说也许有些抽象,举个例子吧:皮肤被针刺,或者被钳子夹,这两个疼痛的位置可能是一样的,但它们疼痛的级别不同。这种情况下,后者传达到大脑的神经电脉冲并不是电流更大,而是频率更高。大脑根据这个脉冲的频率来判断疼痛的程度。频率越高,就越感觉到疼痛。

试想一下,如果神经系统不是利用频率大小,而是利用电流大小来传达感官信号,那你可能在很亮的环境里,或者在很响的环境里,每隔一小时就要吃一顿大餐,因为听觉系统和视觉系统总是需要发送一些很大的电流到大脑——你的身体太费电了!

同理,大脑作为一个神经电路的集线器,太多大电流同时传来肯定是容易被烧坏的。从这个角度来看,我们的神经系统其实和现在的互联网系统是一样的:传递信号用的是电脉冲频率的变化,而不是电流的变化。

明白了这一点,再来看具体的听觉、视觉

有时候我觉得我们这个世界有点虚假,因为几乎所有的东西都建立在时间t之上。频率是时间的倒数,其实所谓频率,就是单位时间里的次数而已。如果我们把时间画成格子,那么频率越高,一个格子里的点就会越多。

也许你会说,对于声音音调的高低,我们可以用频率来解释,用频率来认知。那么声音的大小怎么用频率来认知呢?

我们知道,听觉系统,主要是耳蜗,对声音音调的认知是依靠其对不同频率的感知来实现的。耳蜗里的毛细胞对于声音的频率较为敏感,但对于声波的振幅就没那么敏感了。对于声音响度的认知,主要是靠耳膜来完成的。声波的振幅越大,耳膜的振幅也就越大。耳膜振幅大,对周围肌肉组织的拉扯就更大,而这种拉扯的力度对于将这些肌肉组织的张力传递给大脑的神经来说,也是一个频率的问题。回到了上面说的用针扎和用钳子夹的基本问题。

换个角度来看:一个声音的音调,和它的响度,这两个特性的认知其实在大脑里是两个不同的线程。这种认知是一种基于经验的认知。

视觉也是同理:光的颜色,物体的形状,这些是靠视网膜的视锥细胞来认知的。而视锥细胞对于光线明暗的认知就没有那么精确了,此时需要起到辅助作用的就是我们的瞳孔。瞳孔在光线较亮时会相应缩小,减小进光量以保护视网膜,反之在较暗环境中就扩大,增大进光量。我们对于光线明暗的认知,或者尤其是当光太亮,感觉到眼睛很不舒服的时候,主要是瞳孔的肌肉在向大脑传递更高频率的信号,这种高频信号让大脑感觉到不适。所以,对光线的明暗和光色的认知,也是两条不同的线程。

我们的感受系统并不是线性,而是对数性的

题主提到了440Hz和880Hz之间差一个八度,而880Hz和1760Hz之间也差一个八度,在我们听觉认知来看感觉上它们之间的距离是一样的。

不仅仅是听觉,其它的感觉也是类似的。

我在《大脑与音乐》里提到过,当你买了一盒1kg的牛奶,喝掉了10%,也就是只剩900g的时候,你能轻易感受到这盒牛奶变轻了一些。然而当你去健身房举铁,比如举起了40kg的杠铃;此时从杠铃上拿掉100g重量,你还能像牛奶盒那样感受到杠铃变轻了一些吗?

1000g和900g之间的区别,以及40000g和39900g之间同样都是相差100g,但我们对这两组重量之间差别的认知也是天壤之别的。这又是为什么呢?

再来看温度。20°C和30°C之间的区别恐怕对我们来说是非常明显的,一个是春天,一个是夏天。然而85°C和95°C这两个温度你能感受到一样的区别吗?恐怕除了烫就没有别的想法了。

写到这里,也许读者已经明白了:我们的感受系统之所以不是线性,是因为线性的世界是无边无际的,而我们的感受域是有限的。在我们有限的感受域里面,为了尽量增加感受的精度,采用对数的认知形式可以尽可能放大我们自己的世界。


这个问题主要和内耳与神经的生理有关,详细解释足够写本书了,而且很多问题目前没有研究清楚,能回答的话就有机会获科学奖了。其实资料网上是有的,如:

听觉?

amuseum.cdstm.cn图标

简言之就是耳蜗对频率的感知与位置有关,而耳蜗的构造决定了频率的空间分布不是线性的,接近对数,越高频越密,越低频越疏:

传到听觉中枢也是如此,初级听觉皮层上处理不同频率声音的区域也是近似对数排列的:

这只是最简单的解释,具体说来更加复杂。例如人对音高的感知还受响度影响;音程也不严格正比于频率比,纯八度在中音区接近2:1,到高音区会大于2:1。推荐David Howard:Accoustics and Psychoacoustics,有中译版。


这根本就不需要经过「对数运算」,而是人耳对声音的感知本来就是对数尺度上线性排布的(耳蜗拉直后,等距间隔处对应的是固定的频率倍数)。

是感受器的设定,不是神经传递过程中的运算设定。


推荐阅读:
相关文章