1. 為什麼人類聽覺所感知到音差由頻率的比決定?為什麼音符與頻率的比值有關?難道人耳是一個天然的「對數運算器」?

具體地說,對人類聽覺而言,440Hz 到 880Hz 之間的差距跟 880Hz 到 1760Hz 之間相同。只是後者比前者高一個八度。即:在對數尺度下,音高與頻率近似成線性關係。

十二平均律就是以頻率之比來構律。

2. 泛音又是如何被人耳感知為音色的?

3. 為什麼人類聽覺系統要進化成這樣?這裡面主要有哪些生物學上的原因?有哪些進化上的優勢?


2019-01-31

由於人耳聽覺系統非常複雜,迄今為止人類對它的生理結構與聽覺特性,還不能從生理解剖角度完全解釋清楚。不過,你的提問跟聽覺的關聯不太,人耳只是接收聲音的器官,我們還無法想像它能自行運算,那不代表人體除了大腦外,又多了另一個腦了嗎 (注)?

其實,你的問題要從歷史角度去追溯,我們先從「音高」與「頻率」的關係科普起,按 C 調來說起,

普通八音階的各音頻率對照表

過了一個循環就下標 +1 ,又叫「升八度」,即 C1, C2, C3, C4….高八度是頻率高一倍,而低八度是頻率低一半,也就是說,C2 比 C1 的頻率高一倍,C3 比 C2 的頻率高一倍。按照我們所了解的,第一泛音比基頻高一倍的事實。如果一個人唱 C2,另一個人唱 C3,那第一個人的第一泛音就會和第二個人的基頻完美疊合在一起。以此類推,兩人的高階泛音也都會產生重疊,這就是女聲比男聲高八度的由來:兩聲部差八度,則泛音可以很好的重合,這是一種很好的和聲狀態

現在最通用的音階是把一個八度的倍頻等比分為 12 份,那為何要這樣做呢?在正式說明前,我們先來看看兩個總結的規律。一是人耳對音高的感覺主要取決於「頻率比」,而不是「頻率差」。比如 220Hz 440Hz 的音差,和 440Hz 880Hz 的音差,一般人認為是相同的音差。二是如果兩個音的頻率比值很接近小整數比,那麼這兩個音同時發出來人會感覺很和諧。比如 440Hz 660Hz 的兩個音,頻率比值是 2:3,一般叫做「完全五度」,同時發出來很和諧。

至於為何有以上的規律我們不得而知,圖 1 是某個測試人們對各種頻率比平價的結果,峰越高,表示人覺得越和諧

人對各種頻率比評價的結果

可以看出 1:1 1:2 是很和諧的,而 2:3 3:5 3:4 等小整數比就差點了。其實早在公元前,Pythagoras 就發現了小整數頻率比很和諧的規律,所以他定出四個音,F:C=4:3 G:C=3:2,高八度 C『:C=2:1。然後,他把 F G 之間的間隔 9:8 叫做一個全音,按照 9:8 全音間隔填補空檔後,他定義下面這些音階如表 1

純律之整數頻率比

可以看出 E:F B:C』之間的間隔是 256:243=1.0535,差不多是 9:8 的一半, Pythagoras 就把這種間隔叫做「半音」,現在把這種用整數比定音的方法叫做「純律,just intonation」。

但純律有個問題,就是有些音之間的比例很古怪,像是 F:D=32:27 是非常不和諧的。於是 Bach 開始鼓吹當時已經建立起來的「平均律,equal temperament」。平均律沿用了這七個基本音的「全音階,diatonic scale」,但是讓全音剛好等於兩個半音,這樣無論怎麼變調,整個音階只要偏移一下即可,而各個音之間音程不變。表 2 是純律與十二平均律的對比。

純律與??平均律的對?

中間的六個音程還是存在著差異!接著,我們再根據十二平均律,高一個八度頻率高一倍,中間的十二個音使用對數關係,我們得到表 3

純律與??平均律使用對數關係的對?

這樣就可以看出,十二平均律與純律非常接近了,特別是 F:C 完全四度與 G:G 完全五度,非常接近應有的整數比 4:3 3:2,只差 2 個「音分,cents」。

再來探索為何小整數頻率比的兩個音比較和諧呢?這得從樂音的諧波說起。一般樂器發出的音都不是純頻率的音,而是由好多「諧波,harmonic」組成的,其中,頻率最低的那個通常最強,稱作「基音」。例如小提琴發出音高 A4 的音,指的就是其基音 440Hz,而聲波頻譜里同時有二次諧波 880Hz、三次諧波 1,320Hz、四次諧波….等。於是就有科學家做了實驗,發現兩個樂音和諧主要是因為他們的諧波重合,轉換為數學語言,就是基音必須是小整數比。

為何諧波重合就好聽呢?這是因為如果諧波不重合但是距離很近,他們就會幹涉形成低頻率的「拍音,beat」,非常難聽。人們比喻這個臨界距離稱為「臨界頻寬,critical bandwidth」,處於臨界頻寬內的兩個頻率就會互相干涉,而頻率越高,臨界頻寬頻也就越寬 (如圖 2)。

臨界頻寬

可以看出,臨界頻寬在低頻區是 100Hz 左右,高頻區大約是本身頻率的 [公式] 。比如,900Hz 的臨界頻寬是 150Hz,也就是說 750-1,050Hz 頻率範圍內的音,都會與 900Hz 的音干涉。用音樂術語來說,[公式] 頻寬介於大二度和小三度之間 (圖示 [公式] semitones 間),所以在高頻區域里,間隔一個或兩個半音的音就會互相干涉,形成不愉悅的拍音。

綜合以上信息,第一,人耳不是聽覺中樞,不具備對數運算功能;第二,十二平均律是通過「經驗法則」所得到的規律,是為了符合現況而生;第三,人類聽覺系統或許有進化,但像我這類只會花錢給小孩學音樂,但聽不出來是哪個音的人來說,應該還是進化得很慢

註:

聽覺機制包括:機械 →電 →化學 →神經衝動 →中樞信息處理等一串過程。在蝸管中若以鼓階的外淋巴中的電位為 0,內淋巴液通常有 +80mV 的正電位,螺旋器毛細胞內的電位則約為 -60mV。電流不斷從蝸管通過蓋膜、毛細胞的纖毛、細胞膜及周圍組織流入毛細胞內,形成迴路,當聲音引起基底膜運動時,螺旋器也隨之作相應的運動。由於運動的方向、慣性等因素的作用,毛細膜與蓋膜之間產生一種展力使纖毛彎曲,改變了迴路中的電阻。從而調製了通過的電流,使聽神經末梢和毛細胞間形成的突觸周圍也有相應的電位變化,導致化學遞質的釋放,後者使神經末梢興奮,發出神經衝動。接受各種不同特性的聲音後發放出的神經衝動在時間 (不同的節律),和空間 (不同的神經纖維) 上各有不同的構型。它們攜帶有關聲音的信息,依次傳至各級聽覺中樞,經過處理分析,最後便產生反映聲音各種複雜特性的聽覺。有關信息在聽覺中樞的處理過程還不完全清楚。

而「聽覺中樞」位於聽神經以上的腦幹和大腦半球中的聽覺結構。

分類:科普 &>&>生物 &>&>音頻


題主也提到了泛音,我認為,泛音恰巧就是答案。

我們知道物體有震動的固有頻率,但實際上震動是自由的。因此將一根琴弦等比例分割為若干等分,又有著各自的固有頻率。

正根琴弦的情況下,這些等比例分成的若干份的片段之間互不干擾,因此,分震動也會發生。

比如全長震動之外最明顯的1/2長度震動,就同樣非常明顯。

而震動頻率,和長度成反比關係,長度減半,頻率翻倍。萬事萬物發出的聲音都蘊含著大量的按比例存在的泛音了,這些聲音音量小到不足以被聽成兩個音,又因為萬事萬物的聲音中都包含著這些分震動,自然被人所習慣。

倍頻本身就是聲音的一部分了,自然聽起來像是原本的聲音。

而聽起來像的兩個音最終被人視作了不同音高的同一個音。給他們起了同一個名字

注意前面提到,倍頻,這是等比例的東西。

因此,一個循環(一個八度)自然也是按等比例了


我也不知道被邀請沒有,反正要強答一波。

為什麼人類聽覺系統對頻率敏感?其實有一點點心理學基礎的人都知道,哺乳動物的感官系統不僅僅聽覺,其它幾乎所有的感知都是與頻率相關的。

不管是哪一種感知:觸覺,聽覺,視覺,嗅覺,味覺……它們無非都利用了神經系統來將電信號從感受器官轉達到大腦。

首先,明白我們的神經系統傳遞信號依靠的是頻率

我們的大腦與外界沒有直接的連接,而是通過這些電信號來對外部世界建立一個自己可以理解的模型,從而從這個不斷建模、不斷學習的過程中獲得經驗,建立一些固有的模型(比如對語言的認知)。

如果你是一個電路設計師,現在讓你設計這一套從感受器到大腦的神經電路,你會面臨兩個選擇:對於不同強度的刺激,你是選擇增加電流,還是選擇增加頻率?

顯然,從生物節能的角度來看,頻率是最佳的選擇。這麼說也許有些抽象,舉個例子吧:皮膚被針刺,或者被鉗子夾,這兩個疼痛的位置可能是一樣的,但它們疼痛的級別不同。這種情況下,後者傳達到大腦的神經電脈衝並不是電流更大,而是頻率更高。大腦根據這個脈衝的頻率來判斷疼痛的程度。頻率越高,就越感覺到疼痛。

試想一下,如果神經系統不是利用頻率大小,而是利用電流大小來傳達感官信號,那你可能在很亮的環境里,或者在很響的環境里,每隔一小時就要吃一頓大餐,因為聽覺系統和視覺系統總是需要發送一些很大的電流到大腦——你的身體太費電了!

同理,大腦作為一個神經電路的集線器,太多大電流同時傳來肯定是容易被燒壞的。從這個角度來看,我們的神經系統其實和現在的互聯網系統是一樣的:傳遞信號用的是電脈衝頻率的變化,而不是電流的變化。

明白了這一點,再來看具體的聽覺、視覺

有時候我覺得我們這個世界有點虛假,因為幾乎所有的東西都建立在時間t之上。頻率是時間的倒數,其實所謂頻率,就是單位時間裡的次數而已。如果我們把時間畫成格子,那麼頻率越高,一個格子里的點就會越多。

也許你會說,對於聲音音調的高低,我們可以用頻率來解釋,用頻率來認知。那麼聲音的大小怎麼用頻率來認知呢?

我們知道,聽覺系統,主要是耳蝸,對聲音音調的認知是依靠其對不同頻率的感知來實現的。耳蝸里的毛細胞對於聲音的頻率較為敏感,但對於聲波的振幅就沒那麼敏感了。對於聲音響度的認知,主要是靠耳膜來完成的。聲波的振幅越大,耳膜的振幅也就越大。耳膜振幅大,對周圍肌肉組織的拉扯就更大,而這種拉扯的力度對於將這些肌肉組織的張力傳遞給大腦的神經來說,也是一個頻率的問題。回到了上面說的用針扎和用鉗子夾的基本問題。

換個角度來看:一個聲音的音調,和它的響度,這兩個特性的認知其實在大腦里是兩個不同的線程。這種認知是一種基於經驗的認知。

視覺也是同理:光的顏色,物體的形狀,這些是靠視網膜的視錐細胞來認知的。而視錐細胞對於光線明暗的認知就沒有那麼精確了,此時需要起到輔助作用的就是我們的瞳孔。瞳孔在光線較亮時會相應縮小,減小進光量以保護視網膜,反之在較暗環境中就擴大,增大進光量。我們對於光線明暗的認知,或者尤其是當光太亮,感覺到眼睛很不舒服的時候,主要是瞳孔的肌肉在向大腦傳遞更高頻率的信號,這種高頻信號讓大腦感覺到不適。所以,對光線的明暗和光色的認知,也是兩條不同的線程。

我們的感受系統並不是線性,而是對數性的

題主提到了440Hz和880Hz之間差一個八度,而880Hz和1760Hz之間也差一個八度,在我們聽覺認知來看感覺上它們之間的距離是一樣的。

不僅僅是聽覺,其它的感覺也是類似的。

我在《大腦與音樂》里提到過,當你買了一盒1kg的牛奶,喝掉了10%,也就是只剩900g的時候,你能輕易感受到這盒牛奶變輕了一些。然而當你去健身房舉鐵,比如舉起了40kg的杠鈴;此時從杠鈴上拿掉100g重量,你還能像牛奶盒那樣感受到杠鈴變輕了一些嗎?

1000g和900g之間的區別,以及40000g和39900g之間同樣都是相差100g,但我們對這兩組重量之間差別的認知也是天壤之別的。這又是為什麼呢?

再來看溫度。20°C和30°C之間的區別恐怕對我們來說是非常明顯的,一個是春天,一個是夏天。然而85°C和95°C這兩個溫度你能感受到一樣的區別嗎?恐怕除了燙就沒有別的想法了。

寫到這裡,也許讀者已經明白了:我們的感受系統之所以不是線性,是因為線性的世界是無邊無際的,而我們的感受域是有限的。在我們有限的感受域裡面,為了盡量增加感受的精度,採用對數的認知形式可以儘可能放大我們自己的世界。


這個問題主要和內耳與神經的生理有關,詳細解釋足夠寫本書了,而且很多問題目前沒有研究清楚,能回答的話就有機會獲科學獎了。其實資料網上是有的,如:

聽覺?

amuseum.cdstm.cn圖標

簡言之就是耳蝸對頻率的感知與位置有關,而耳蝸的構造決定了頻率的空間分布不是線性的,接近對數,越高頻越密,越低頻越疏:

傳到聽覺中樞也是如此,初級聽覺皮層上處理不同頻率聲音的區域也是近似對數排列的:

這只是最簡單的解釋,具體說來更加複雜。例如人對音高的感知還受響度影響;音程也不嚴格正比於頻率比,純八度在中音區接近2:1,到高音區會大於2:1。推薦David Howard:Accoustics and Psychoacoustics,有中譯版。


這根本就不需要經過「對數運算」,而是人耳對聲音的感知本來就是對數尺度上線性排布的(耳蝸拉直後,等距間隔處對應的是固定的頻率倍數)。

是感受器的設定,不是神經傳遞過程中的運算設定。


推薦閱讀:
相关文章