台湾 || 语言: 大陆简体港澳繁體台灣正體

LPCNet: Realtime Neural Vocoder

雪花台湾 2019-04-21 06:52

LPCNet: Realtime Neural Vocoder

简要介绍
背景和动机
网路分解

数据准备和训练
LPC 计算
特征

特征使用
特征提取

DualFC 输出层
采样过程
量化和预加重
杂讯注入
矩阵稀疏化
Embedding 以及计算简化

性能评估

计算复杂度
合成语音质量

总结

个人感想

参考文献

简要介绍

LPCNet 是一个数字信号处理（DSP）和神经网路（NN）巧妙结合应用于语音合成中 vocoder 的工作，可以在普通的CPU上实时合成高质量语音。传统上，基于 DSP 的 vocoder 速度很快，但是合成的语音质量不是太好，而基于 NN 的 vocoder 语音质量更高，但通常复杂度太高，无法实时。

返回大纲

背景和动机

首先从语音产生机理的 source-filter 模型说起，这是上世纪70年代的东西，也是 LPC10、CELP、MELP 等 codec 的理论基础。这个模型把语音产生过程分解为类似信源、信道两个独立的模块。信源部分就是声带震动，发清音时没有震动就用白杂讯建模，发浊音时喉咙有震动就用脉冲串建模；信道部分就是发不同音时口腔、鼻腔、舌头、嘴唇这些配合形成的通道，可以用一个全极点的 LPC 滤波器建模。这个模型非常简单，但是语音质量不太好。

相关文章