- LPCNet: Realtime Neural Vocoder
- 簡要介紹
- 背景和動機
- 網路分解
- 數據準備和訓練
- LPC 計算
- 特徵
- DualFC 輸出層
- 採樣過程
- 量化和預加重
- 雜訊注入
- 矩陣稀疏化
- Embedding 以及計算簡化
- 性能評估
- 總結
- 參考文獻
簡要介紹
LPCNet 是一個 數字信號處理(DSP) 和 神經網路(NN)巧妙結合應用於語音合成中 vocoder 的工作,可以在普通的CPU上實時合成高質量語音。傳統上,基於 DSP 的 vocoder 速度很快,但是合成的語音質量不是太好,而基於 NN 的 vocoder 語音質量更高,但通常複雜度太高,無法實時。
返回大綱
背景和動機
首先從語音產生機理的 source-filter 模型說起,這是上世紀70年代的東西,也是 LPC10、CELP、MELP 等 codec 的理論基礎。這個模型把語音產生過程分解為類似信源、信道兩個獨立的模塊。信源部分就是聲帶震動,發清音時沒有震動就用白雜訊建模,發濁音時喉嚨有震動就用脈衝串建模;信道部分就是發不同音時口腔、鼻腔、舌頭、嘴脣這些配合形成的通道,可以用一個全極點的 LPC 濾波器建模。這個模型非常簡單,但是語音質量不太好。