Lesson2 語音識別基礎——初識HMM
HMM是一種基於概率的統計分析模型,用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率[1]。在語音識別裡面,隱性狀態所代表的是states,states所代表的是語音信號所對應的文字序列,而顯性狀態所代表的就是實際的語音信號(序列)。語音信號是時變的,HMM可以用一系列的states描述這個語音信號變化的情形。舉個例子,針對孤立詞識別0-9,可以分別為0-9建立一個pattern/model。一個model就是一系列的states(n個states,n是自己設定,n越多越精細,刻畫能力越強,但是需要更多的data訓練)。state所刻畫一個音素內部子狀態的變化。在送入HMM之前首先要進行前端信號處理,對一段音頻信號,分幀、加窗以及對每一幀進行特徵提取。下圖中 代表的是在時間t一幀的特徵向量,即所謂的觀測序列,它屬於顯性狀態。