台湾 || 语言: 大陆简体港澳繁體台灣正體

FastSpeech閱讀筆記

雪花臺灣 2019-06-09 18:00

近日，浙江大學和微軟亞洲研究院聯合推出了一篇論文，關於快速的端到端的語音合成系統，論文的鏈接如下：

FastSpeech: Fast, Robust and Controllable Text to Speech?

arxiv.org

下面是筆者閱讀論文後對論文方法的總結和思考，不當之處歡迎指正。

論文首先指出了端到端自回歸（Auto Regressive）的語音合成系統存在的問題：

推理階段速度過慢（traditional Transformer雖然訓練的速度很快，但是推理階段仍然需要上一時間步的輸出，無法做到真正的並行）；
生成的語音不是魯棒的，有一些單詞會被跳過或者重複地生成（這一點筆者在實驗的時候真的是深有體會啊，而造成這一原因主要是因為傳統語音合成系統的Alignment是隱式的，在推斷的過程中，存在著錯誤對齊的情況）；
無法做到可控（這裡筆者的可控應該主要指的是生成的語速方面，因為在Prosody的層面已經有工作做到了很好的效果）。

於是論文針對上述三個問題，基於Transformer，重新設計了模型。模型的示意圖如下：

圖一

圖一

相關文章