小時候看《名偵探柯南》,除了每集精彩的推理之外,柯南的「變聲蝴蝶結」也成為了許多人夢寐以求的動漫同款,那是很多人第一次見識到聲音的魅力。

如今,我們再回頭來看柯南的「變聲蝴蝶結」,已經不僅僅是被表面的魔力所著迷,而是逐漸開始明白這背後所隱藏的語音技術,這也是我們今天要講的重點內容——語音合成技術原理。

一、語音的三大關鍵成分

在講語音合成之前,我們首先要弄清楚一個問題:什麼是語音,語音是由哪些成分構成的?

語音就是人說的話,它的記錄形式是一段一段的波形。

語音有三大關鍵成分:信息音色和韻律。如果能將語音的成分充分自由地拆解和組合,將是對語音的巨大解放,未來將有無限的想像發展空間。

下面我們將它做一個拆解,先來看下語音信息,語音信息是指說話人說了什麼內容。

語音作為信息的載體,是最自然便捷的溝通手段,在信息播報、人機交互上有著大量剛性需求,現在如此未來更是如此。

語音的音色是指這段話是誰說的,有一句俗語:未見其人先聞其聲。

有時候說什麼並不重要,更重要的是誰在說。

韻律就是我們說話的方式,說話時我們聲音的高低、快慢等。

借用某位非著名相聲演員的話來說:人人都會說話,為什麼你還要花錢來聽我說話?

自然是因為你說的好,那【說得好】到底是一種什麼概念呢?

舉個例子,每次看《動物世界》除了被節目裏各種新奇的動物吸引之外,還會被趙忠祥老師富有磁性的聲音所吸引。

這就是他比旁人【說得好】,聲音的慣性和魅力是無窮的,當某個熟悉的聲音響起,人們就會自然而然的沉浸其中。

在未來,優質的聲音IP將會作為重要的內容生產能力,受到重視和追捧,將語音從信息獲取升級為藝術享受。

二、語音合成的發展歷史

縱觀語音合成技術的歷史長河,這項技術大概經過了6個階段的發展。

1、起源階段

語音合成技術的起源可以追溯到18到19世紀,當時是用機械裝置來模擬人的發聲,那時候科學家們會製作出一些精巧的氣囊和風箱去搭建發聲的系統,可以合成出一些母音和單音。

2、電子合成器階段

20世紀初,出現了用電子合成器來模擬人發聲的技術,最具代表性的就是貝爾實驗室的Dudley,他在1939年推出了名為「VODER」的電子發聲器,使用電子器件來模擬聲音的諧振。

3、共振峯合成器階段

到了20世紀80年代,隨著集成電路技術的發展,出現了比較複雜的組合型的電子發生器,比較代表性的KLATT在1980年發布的串/並聯混合共振峯合成器。

4、單元挑選拼接合成階段

到了20世紀80、90年代隨著PSOLA方法的提出和計算機能力的發展,單元挑選和波形拼接技術逐漸走向成熟,90年代末劉慶峯博士提出聽感量化思想,首次將中文語音合成技術做到了實用化地步。

5、基於HMM的參數合成階段

在20世紀末期,還有另外一種基於HMM的參數合成技術出現。

6、基於深度學習的語音合成

隨著AI技術不斷發展,基於深度學習的語音合成技術逐漸被人們所知道,DNN/CNN/RNN等各種神經網路構型都可以用來做語音合成系統的訓練,深度學習的演算法可以更好地模擬人聲變化規律。

三、語音合成核心技術原理

1、單元挑選波形拼接技術

語音合成技術的本質是將文本信息轉化成語音信息,在瞭解這項技術之前,我們先來看一個案例,現在有一句待合成文本:外交部評日本首相國會演說。

如果我們要將這句文本信息變成語音信息,首先需要在語音合成資料庫裡面挑選出這句文本信息所包含的元素,比如:外交部、日本等。

挑選完元素之後將這些元素按照一定的順序組合排列,最後再輸出我們想要合成的那句語音信息。

以上這些就是一個簡單的單元挑選波形拼接技術實現過程。

單元挑選和波形拼接的關鍵技術點有2點:語料庫設計和標註;目標代價和連接代價計算

2、基於HMM的參數語音合成

基於HMM的參數語音合成技術相比於單元挑選波形拼接技術,在操作層面上會更加流程化。

我們來看下基於HMM的訓練流程圖,主要包括訓練流程和合成流程。

將錄製好的音庫,提取出相應的語音參數,然後將標註數據和聲學提取數據一同構建HMM的訓練模型,通過上下文屬性和問題集的決策樹模型,構建訓練後的HMM模型,這就是訓練流程。

合成流程中我們通過對輸入文本的分析,來進行上下文相關HMM訓練的序列決策,再將生成後的語音送入參數合成器中,最後輸出合成之後的語音。

基於HMM的參數語音合成的關鍵技術有高質量語音聲碼器,以及基於上下文的決策樹模型。

3、基於深度學習的語音合成

相對於傳統的HMM模型,深度學習演算法模型能力更強,數據利用率更高,效果優勢更為明顯。Deepmind提出波形點建模方法,在整個語音合成技術發展史上都是具有里程碑意義的。

編輯 | AI搬運工

來源 | 訊飛AI大學微信公眾號

原文地址:一文讀懂語音合成技術原理

聲明:本文經授權後轉載,其他知友如需轉載,請聯繫訊飛AI大學微信公眾號授權。

推薦閱讀:

相關文章