书名《Audio Source Sepatation and Speech Enhancement》
作者:Emmanuel Vincent, Tuomas Virtanen, Sharon Gannot
出版时间:2018 出版商:Wiley
题外话:立个flag,一周三更,督促一下自己。
本章节是本书的第五章,章节名为Spectral Masking and Filtering
主要描述单通道的滤波方法:谱减法,维纳滤波(线性MMSE),贝叶斯估计(非线性MMSE)。
本文以粗讲滤波过程,细讲原理,各自优势。文章较长,文末有总结。
Time-Frequency Masking
这一点不翻译是因为比较难翻,直译过来词不达意,所以就保留原标题。
我们思考一个问题:不管什么理论和技术,在时频域的操作中,落脚于信号的数值上,我们是如何对这些数值矩阵进行分离的?其核心在于什么?
答:估计 。
其中, 表示帧和频点, 表示所需要估计的TF-mask, 表示观测信号, 代表处理后的信号。
在实际操作中,我们都是估计出每一个时频点的mask,即 ,再对每一个时频点上的观测信号乘以该mask,乘出的结果就是处理后的信号。而这一步相乘就是绝大多数单通道分离中进行的处理。
举例来说,对于第100帧第100个频点数,此时数值可能为 ,估计出的 ,在这种情况下处理便是:
所以,我们可以得出一般的结论:一般来讲,语音分离的处理都是估计出一个TF-maks,再将其乘以对应的观测信号的时频点。
那么如何估计 呢,一般来说,都是建立一个目标函数: