- LPCNet: Realtime Neural Vocoder
- 简要介绍
- 背景和动机
- 网路分解
- 数据准备和训练
- LPC 计算
- 特征
- DualFC 输出层
- 采样过程
- 量化和预加重
- 杂讯注入
- 矩阵稀疏化
- Embedding 以及计算简化
- 性能评估
- 总结
- 参考文献
简要介绍
LPCNet 是一个 数字信号处理(DSP) 和 神经网路(NN)巧妙结合应用于语音合成中 vocoder 的工作,可以在普通的CPU上实时合成高质量语音。传统上,基于 DSP 的 vocoder 速度很快,但是合成的语音质量不是太好,而基于 NN 的 vocoder 语音质量更高,但通常复杂度太高,无法实时。
返回大纲
背景和动机
首先从语音产生机理的 source-filter 模型说起,这是上世纪70年代的东西,也是 LPC10、CELP、MELP 等 codec 的理论基础。这个模型把语音产生过程分解为类似信源、信道两个独立的模块。信源部分就是声带震动,发清音时没有震动就用白杂讯建模,发浊音时喉咙有震动就用脉冲串建模;信道部分就是发不同音时口腔、鼻腔、舌头、嘴唇这些配合形成的通道,可以用一个全极点的 LPC 滤波器建模。这个模型非常简单,但是语音质量不太好。