語音合成（TTS）的概念和分類

智能音箱在ASR（語音識別）以及NLP自然語義處理常用框架 - 兔爾摩斯的文章 - 知乎

https://zhuanlan.zhihu.com/p/55658291

語音合成

Speech Synthesis 或Text to Speech(TTS)

語音合成（Speech Synthesis）是人類語音的人工合成。用於此目的的計算機系統稱為語音計算機或語音合成器，可以在軟體或硬體產品中實現。文本到語音(TTS)系統將普通語言文本轉換為語音;其他系統則把像音標這樣的符號語言表示法翻譯成語音。其他系統則使用符號語言表徵例如標音法翻譯成語音。（other systems render symbolic linguistic representations[2] like phonetic transcriptions into speech.[1] ）

1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.

2. A symbolic linguistic representation符號語言表徵是一種話語的表徵，它使用符號來表徵話語的語言信息，如語音、音位、形態學、句法或語義的信息。符號語言表徵不同於非符號表徵，如錄音，因為它們使用符號來表示語言信息，而不是測量。

合成語音可以通過連接存儲在資料庫中的記錄語音片段來創建。系統存儲的語音單元大小不同;存儲音素和亞音素（phones and diphones）[3]的系統提供最大的輸出範圍，但可能缺乏清晰度。對於特定的使用領域，整個單詞或句子的存儲允許高質量的輸出。或者，合成器可以結合聲道模型和其他人類聲音特徵來創建一個完全「合成」的聲音輸出。

3.語音學(Phonetics)是語言學的一個分支，研究人類語言的聲音，或者，在手語中，是手語的等效方面。它涉及語音或信號(電話)的物理特性:它們的生理產生、聲學特性、聽覺感知和神經生理狀態。另一方面，音韻學是研究聲音或符號系統的抽象語法特徵。

語音合成器的質量是由它與人類聲音的相似性和它被清晰理解的能力來判斷的。一種可理解的文本-語音轉換程序允許有視覺障礙或閱讀障礙的人在家用電腦上聽書面文字。自上世紀90年代初以來，許多計算機操作系統都包含語音合成器。

文本到語音系統(或「引擎」)由兩部分組成:前端和後端。前端有兩個主要任務。首先，它將包含數字和縮寫等符號的原始文本轉換為相當於輸出的單詞。這個過程通常稱為文本規範化、預處理或標記化。然後前端為每個單詞分配語音轉錄，並將文本劃分和標記為韻律單位，如短語、子句和句子。將音標分配給單詞的過程稱為文本到音素或字母到音素的轉換。音標和韻律信息共同構成了前端輸出的符號語言表徵。後端通常被稱為合成器，然後將符號語言表示轉換成聲音。在某些系統中，這部分包括計算目標韻律(音高輪廓，音素時長)，然後將之加到輸出語音上。(^ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.)

之前的文章有提到過，目前國內的主流語音合成方案有科大訊飛、搜狗、雲知聲、思必馳等。

而語音合成目前市面上一般使用參數合成，或者拼接合成，前者的音庫都是在10小時左右，基本用不到20小時，對於合成人聲效果的自然度，更依賴演算法，而拼接則對於數據的需求量很高，對合成人聲效果的自然度，更依賴數據量。很多聽起來很自然的音庫時長在100~200小時左右。

以及，TTS模型通常也會分為中文，英文，或者中英混輸的。做訓練的文本，有很多文字比較拗口，故而對錄音聲優的功力有要求，中英混輸的模型數據就更難了。如果是普通的中文TTS模型，以剛才的例子「馬上為您播放周杰倫的《晴天》live版本」，這種就可以在錄音時加入一些簡單的字母，單詞，短語等等。

合成的wav文件回傳到終端音箱，並播放出來，如此，完成了一環基礎的用戶與智能硬體之間的對話。

方法上：波形拼接合成和參數合成

波形拼接語音合成：

基於統計規則的大語料庫拼接語音合成系統

超大規模音庫製作：語料設計；音庫錄製；精細切分；韻律標註；