台湾 || 语言: 大陆简体港澳繁體台灣正體

读书笔记（三）——单通道滤波&降噪

雪花台湾 2019-07-15 11:26

书名《Audio Source Sepatation and Speech Enhancement》

作者：Emmanuel Vincent, Tuomas Virtanen, Sharon Gannot

出版时间：2018 出版商：Wiley

题外话：立个flag，一周三更，督促一下自己。

本章节是本书的第五章，章节名为Spectral Masking and Filtering

主要描述单通道的滤波方法：谱减法，维纳滤波（线性MMSE），贝叶斯估计（非线性MMSE）。

本文以粗讲滤波过程，细讲原理，各自优势。文章较长，文末有总结。

Time-Frequency Masking

这一点不翻译是因为比较难翻，直译过来词不达意，所以就保留原标题。

我们思考一个问题：不管什么理论和技术，在时频域的操作中，落脚于信号的数值上，我们是如何对这些数值矩阵进行分离的？其核心在于什么？

答：估计 。

$ilde{s_{j}}(n,f)=w_{j}(n,f)*x_{j}(n,f)$

其中，表示帧和频点，表示所需要估计的TF-mask，表示观测信号，代表处理后的信号。

在实际操作中，我们都是估计出每一个时频点的mask，即 $w_{j}(n,f)$ ，再对每一个时频点上的观测信号乘以该mask，乘出的结果就是处理后的信号。而这一步相乘就是绝大多数单通道分离中进行的处理。

举例来说，对于第100帧第100个频点数，此时数值可能为，估计出的，在这种情况下处理便是：

$ilde{s_{j}}(n,f)=w_{j}(n,f)*x_{j}(n,f)=0*(0.95+0.34i)=0$

所以，我们可以得出一般的结论：一般来讲，语音分离的处理都是估计出一个TF-maks，再将其乘以对应的观测信号的时频点。

那么如何估计呢，一般来说，都是建立一个目标函数：

下标SS代表 Spectral Subtraction

c_{j}(n,f) — 下标SS代表 Spectral Subtraction

相关文章