數位語音信號處理概論Lesson2-初識HMM

Lesson2 語音識別基礎——初識HMM

HMM是一種基於概率的統計分析模型，用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率[1]。在語音識別裡面，隱性狀態所代表的是states，states所代表的是語音信號所對應的文字序列，而顯性狀態所代表的就是實際的語音信號(序列)。語音信號是時變的，HMM可以用一系列的states描述這個語音信號變化的情形。舉個例子，針對孤立詞識別0-9，可以分別為0-9建立一個pattern/model。一個model就是一系列的states（n個states，n是自己設定，n越多越精細，刻畫能力越強，但是需要更多的data訓練）。state所刻畫一個音素內部子狀態的變化。在送入HMM之前首先要進行前端信號處理，對一段音頻信號，分幀、加窗以及對每一幀進行特徵提取。下圖中代表的是在時間t一幀的特徵向量，即所謂的觀測序列，它屬於顯性狀態。