台湾 || 语言: 大陆简体港澳繁體台灣正體

LPCNet: Realtime Neural Vocoder

雪花臺灣 2019-04-21 06:52

LPCNet: Realtime Neural Vocoder

簡要介紹
背景和動機
網路分解

數據準備和訓練
LPC 計算
特徵

特徵使用
特徵提取

DualFC 輸出層
採樣過程
量化和預加重
雜訊注入
矩陣稀疏化
Embedding 以及計算簡化

性能評估

計算複雜度
合成語音質量

總結

個人感想

參考文獻

簡要介紹

LPCNet 是一個數字信號處理（DSP）和神經網路（NN）巧妙結合應用於語音合成中 vocoder 的工作，可以在普通的CPU上實時合成高質量語音。傳統上，基於 DSP 的 vocoder 速度很快，但是合成的語音質量不是太好，而基於 NN 的 vocoder 語音質量更高，但通常複雜度太高，無法實時。

返回大綱

背景和動機

首先從語音產生機理的 source-filter 模型說起，這是上世紀70年代的東西，也是 LPC10、CELP、MELP 等 codec 的理論基礎。這個模型把語音產生過程分解為類似信源、信道兩個獨立的模塊。信源部分就是聲帶震動，發清音時沒有震動就用白雜訊建模，發濁音時喉嚨有震動就用脈衝串建模；信道部分就是發不同音時口腔、鼻腔、舌頭、嘴脣這些配合形成的通道，可以用一個全極點的 LPC 濾波器建模。這個模型非常簡單，但是語音質量不太好。

相關文章