一文讀懂語音合成技術原理
小時候看《名偵探柯南》,除了每集精彩的推理之外,柯南的「變聲蝴蝶結」也成為了許多人夢寐以求的動漫同款,那是很多人第一次見識到聲音的魅力。
如今,我們再回頭來看柯南的「變聲蝴蝶結」,已經不僅僅是被表面的魔力所著迷,而是逐漸開始明白這背後所隱藏的語音技術,這也是我們今天要講的重點內容——語音合成技術原理。
一、語音的三大關鍵成分
在講語音合成之前,我們首先要弄清楚一個問題:什麼是語音,語音是由哪些成分構成的?
語音就是人說的話,它的記錄形式是一段一段的波形。
語音有三大關鍵成分:信息音色和韻律。如果能將語音的成分充分自由地拆解和組合,將是對語音的巨大解放,未來將有無限的想像發展空間。
下面我們將它做一個拆解,先來看下語音信息,語音信息是指說話人說了什麼內容。
語音作為信息的載體,是最自然便捷的溝通手段,在信息播報、人機交互上有著大量剛性需求,現在如此未來更是如此。
語音的音色是指這段話是誰說的,有一句俗語:未見其人先聞其聲。
有時候說什麼並不重要,更重要的是誰在說。
韻律就是我們說話的方式,說話時我們聲音的高低、快慢等。
借用某位非著名相聲演員的話來說:人人都會說話,為什麼你還要花錢來聽我說話?
自然是因為你說的好,那【說得好】到底是一種什麼概念呢?
舉個例子,每次看《動物世界》除了被節目裏各種新奇的動物吸引之外,還會被趙忠祥老師富有磁性的聲音所吸引。
這就是他比旁人【說得好】,聲音的慣性和魅力是無窮的,當某個熟悉的聲音響起,人們就會自然而然的沉浸其中。
在未來,優質的聲音IP將會作為重要的內容生產能力,受到重視和追捧,將語音從信息獲取升級為藝術享受。
二、語音合成的發展歷史
縱觀語音合成技術的歷史長河,這項技術大概經過了6個階段的發展。
1、起源階段
語音合成技術的起源可以追溯到18到19世紀,當時是用機械裝置來模擬人的發聲,那時候科學家們會製作出一些精巧的氣囊和風箱去搭建發聲的系統,可以合成出一些母音和單音。
2、電子合成器階段
20世紀初,出現了用電子合成器來模擬人發聲的技術,最具代表性的就是貝爾實驗室的Dudley,他在1939年推出了名為「VODER」的電子發聲器,使用電子器件來模擬聲音的諧振。
3、共振峯合成器階段
到了20世紀80年代,隨著集成電路技術的發展,出現了比較複雜的組合型的電子發生器,比較代表性的KLATT在1980年發布的串/並聯混合共振峯合成器。
4、單元挑選拼接合成階段
到了20世紀80、90年代隨著PSOLA方法的提出和計算機能力的發展,單元挑選和波形拼接技術逐漸走向成熟,90年代末劉慶峯博士提出聽感量化思想,首次將中文語音合成技術做到了實用化地步。
5、基於HMM的參數合成階段
在20世紀末期,還有另外一種基於HMM的參數合成技術出現。
6、基於深度學習的語音合成
隨著AI技術不斷發展,基於深度學習的語音合成技術逐漸被人們所知道,DNN/CNN/RNN等各種神經網路構型都可以用來做語音合成系統的訓練,深度學習的演算法可以更好地模擬人聲變化規律。
三、語音合成核心技術原理
1、單元挑選波形拼接技術
語音合成技術的本質是將文本信息轉化成語音信息,在瞭解這項技術之前,我們先來看一個案例,現在有一句待合成文本:外交部評日本首相國會演說。
如果我們要將這句文本信息變成語音信息,首先需要在語音合成資料庫裡面挑選出這句文本信息所包含的元素,比如:外交部、日本等。
挑選完元素之後將這些元素按照一定的順序組合排列,最後再輸出我們想要合成的那句語音信息。