書名《Audio Source Sepatation and Speech Enhancement》
作者:Emmanuel Vincent, Tuomas Virtanen, Sharon Gannot
出版時間:2018 出版商:Wiley
題外話:立個flag,一周三更,督促一下自己。
本章節是本書的第五章,章節名為Spectral Masking and Filtering
主要描述單通道的濾波方法:譜減法,維納濾波(線性MMSE),貝葉斯估計(非線性MMSE)。
本文以粗講濾波過程,細講原理,各自優勢。文章較長,文末有總結。
Time-Frequency Masking
這一點不翻譯是因為比較難翻,直譯過來詞不達意,所以就保留原標題。
我們思考一個問題:不管什麼理論和技術,在時頻域的操作中,落腳於信號的數值上,我們是如何對這些數值矩陣進行分離的?其核心在於什麼?
答:估計 。
其中, 表示幀和頻點, 表示所需要估計的TF-mask, 表示觀測信號, 代表處理後的信號。
在實際操作中,我們都是估計出每一個時頻點的mask,即 ,再對每一個時頻點上的觀測信號乘以該mask,乘出的結果就是處理後的信號。而這一步相乘就是絕大多數單通道分離中進行的處理。
舉例來說,對於第100幀第100個頻點數,此時數值可能為 ,估計出的 ,在這種情況下處理便是:
所以,我們可以得出一般的結論:一般來講,語音分離的處理都是估計出一個TF-maks,再將其乘以對應的觀測信號的時頻點。
那麼如何估計 呢,一般來說,都是建立一個目標函數: