語音信號重構方法

對語音信號進行分幀處理，觀測每一幀信號所包含的頻率分量，或者在時頻域對語音信號進行增強處理，需要用到短時傅里葉變換（Short Time Fourier Transform,STFT）技術。在得到STFT結果並處理之後，如何從短時傅里葉變換結果中重構出原始信號呢？針對語音信號重構，傳統的方法有Filter-Bank-Summation（FBS）和Overlap-and-Add（OLA）。從濾波的角度理解STFT，可以得到基於FBS的語音信號重構方法。從傅里葉變換角度理解STFT（對每一幀語音信號進行加窗處理，然後再對其進行傅里葉變換得到輸出結果），可以得到基於OLA的語音信號重構方法。

A. Filter-Bank-Summation方法

離散傅里葉變換表示為

$egin{equation}label{eq1} X(k)=sum_{m=0}^{N-1}x(m)e^{-jfrac{2pi km}{N}}. end{equation}$ (1)

離散短時傅里葉變換表示為

$egin{equation}label{eq2} egin{aligned} X(n,w_{k})&=X(n,k)=sum_{m=-infty}^{infty}x(m) exttt{w}_{k}(n-m)e^{-jw_{k}m} \ &=left(x(n)e^{-jw_{k}n} ight)ast exttt{w}_{k}(n) \ &=e^{-jw_{k}n}sum_{m=-infty}^{infty}x(n-m) exttt{w}_{k}(m)e^{jw_{k}m}\ &=e^{-jw_{k}n}left(x(n)astleft( exttt{w}_{k}(n)e^{jw_{k}n} ight) ight) end{aligned} end{equation}$ (2)

其中， $w_{k}=frac{2pi k}{N}$ 表示第個頻點， $exttt{w}_{k}$ 表示第個頻點上面的窗函數。根據上式內容，可以將 $X(n,w_{k})$ 看作是經過一組濾波器並進行指數加權得到的結果。

根據可得

$egin{equation} X(n,w_{k})e^{jw_{k}n}=x(n)astleft( exttt{w}_{k}(n)e^{jw_{k}n} ight). end{equation}$ (3)

令 $y_{k}(n)=X(n,w_{k})e^{jw_{k}n}=x(n)astleft( exttt{w}_{k}(n)e^{jw_{k}n} ight)$ ，那麼可以表示為

$egin{equation}label{eq3} egin{aligned} y(n)&=sum_{k=0}^{N-1}y_{k}(n)\ &=sum_{k=0}^{N-1}X(n,w_{k})e^{jw_{k}n} \ &=sum_{k=0}^{N-1}x(n)astleft( exttt{w}_{k}(n)e^{jw_{k}n} ight)= x(n)astsum_{k=0}^{N-1} exttt{w}_{k}(n)e^{jw_{k}n}. end{aligned} end{equation}$ (4)

對兩邊進行傅里葉變換可得

$egin{equation}label{eqadd} Y(w)=X(w)sum_{k=0}^{N-1} exttt{W}_{k}(w-w_{k}), end{equation}$ (5)

其中， $exttt{W}_{k}(w) 是 exttt{w}_{k}(n)$ 的頻域響應。

假設在所有頻點上的窗函數都是一樣的，也即 $exttt{W}_{k}= exttt{W}$ ，那麼 $sum_{k=0}^{N-1} exttt{W}_{k}(w-w_{k})=sum_{k=0}^{N-1} exttt{W}(w-w_{k})$ 。當 $exttt{W}(w_{k})$ 在頻域均勻採樣時，有