台湾 || 语言: 大陆简体港澳繁體台灣正體

讀書筆記（三）——單通道濾波&降噪

雪花台灣 2019-07-15 11:26

書名《Audio Source Sepatation and Speech Enhancement》

作者：Emmanuel Vincent, Tuomas Virtanen, Sharon Gannot

出版時間：2018 出版商：Wiley

題外話：立個flag，一周三更，督促一下自己。

本章節是本書的第五章，章節名為Spectral Masking and Filtering

主要描述單通道的濾波方法：譜減法，維納濾波（線性MMSE），貝葉斯估計（非線性MMSE）。

本文以粗講濾波過程，細講原理，各自優勢。文章較長，文末有總結。

Time-Frequency Masking

這一點不翻譯是因為比較難翻，直譯過來詞不達意，所以就保留原標題。

我們思考一個問題：不管什麼理論和技術，在時頻域的操作中，落腳於信號的數值上，我們是如何對這些數值矩陣進行分離的？其核心在於什麼？

答：估計 。

$ilde{s_{j}}(n,f)=w_{j}(n,f)*x_{j}(n,f)$

其中，表示幀和頻點，表示所需要估計的TF-mask，表示觀測信號，代表處理後的信號。

在實際操作中，我們都是估計出每一個時頻點的mask，即 $w_{j}(n,f)$ ，再對每一個時頻點上的觀測信號乘以該mask，乘出的結果就是處理後的信號。而這一步相乘就是絕大多數單通道分離中進行的處理。

舉例來說，對於第100幀第100個頻點數，此時數值可能為，估計出的，在這種情況下處理便是：

$ilde{s_{j}}(n,f)=w_{j}(n,f)*x_{j}(n,f)=0*(0.95+0.34i)=0$

所以，我們可以得出一般的結論：一般來講，語音分離的處理都是估計出一個TF-maks，再將其乘以對應的觀測信號的時頻點。

那麼如何估計呢，一般來說，都是建立一個目標函數：

下標SS代表 Spectral Subtraction

c_{j}(n,f) — 下標SS代表 Spectral Subtraction

相关文章