Lesson2 語音識別基礎——初識HMM

HMM是一種基於概率的統計分析模型,用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率[1]。在語音識別裡面,隱性狀態所代表的是states,states所代表的是語音信號所對應的文字序列,而顯性狀態所代表的就是實際的語音信號(序列)。語音信號是時變的,HMM可以用一系列的states描述這個語音信號變化的情形。舉個例子,針對孤立詞識別0-9,可以分別為0-9建立一個pattern/model。一個model就是一系列的states(n個states,n是自己設定,n越多越精細,刻畫能力越強,但是需要更多的data訓練)。state所刻畫一個音素內部子狀態的變化。在送入HMM之前首先要進行前端信號處理,對一段音頻信號,分幀、加窗以及對每一幀進行特徵提取。下圖中 o_1 代表的是在時間t一幀的特徵向量,即所謂的觀測序列,它屬於顯性狀態。

語音信號長短是不定的,特徵向量的數目也是變化的,會得到一系列觀測的序列(得到的特徵向量),從,但是至於觀測序列它所屬的state依舊是未知的(不知道是屬於state 1還是state 2),HMM就用狀態轉移矩陣A代表狀態(state)轉移的概率,A矩陣中元素代表從一個狀態i轉移到另一個狀態j的概率,從狀態i又重新轉移到該狀態i的概率越大,說明該state持續時間會越長。觀察序列和狀態序列是一一對應的,對應關係是觀察序列所屬的狀態為。的取值也是非常有限的,就是從1到n(之前自己設置的state的數目)中取。

符號說明:

關於狀態轉移矩陣A和以及發射概率B的說明:

舉個例子,假設上圖中左圖第一個時刻所在的狀態是1,下一個時刻的狀態還是1的概率是0.1,是2的概率為0.9,0.9>0.1,那麼認為第2個時刻 o_2 的狀態是2, 可以得到左圖觀察序列所對應的狀態序列是{1 2......}。反過來上圖中右邊圖所示,所在的狀態是1,下一時刻狀態還是1的概率為0.9,是2的概率為0.1,0.9>0.1,可以認為第2個時刻 o_2 的狀態是1。第3個時刻 o_3 的狀態是1的概率為0.9*0.9>0.1,所以所在的狀態依舊是1,以此類推,可以得到右圖觀察序列所對應的狀態序列是{1 1 1 1 1 1 1 1 1 2......},所以說狀態轉移矩陣A中機率就代表了狀態長短變化情況。

B所代表的是state的概率分布,任意的概率分布都可以用一系列的高斯分布來擬合。從屬於state1的觀測向量(序列)是長什麼樣的,我們是不清楚的。即使是同一個人說兩次同樣的話,也將不會是完全一樣的。但是state有自己的統計分布 b_1(o)b_2(o) ,機率分布是比較複雜的,用多個高斯分布來擬合state的分布。這樣就可以實現用儘可能少的參數來描述這個概率分布。在訓練的時候參數中B的參數是做多的,針對於39維的MFCC就可能會有39維的均值向量,39*39維的協方差矩陣需要train。

一維的混合高斯如下圖所示:

一維混合高斯圖示

一維混合高斯公式

下圖以二維為例:

二維混合高斯特例以及一般形式

多維的混合高斯如下圖所示:

多維混合高斯公式
多維混合高斯公式(各維度獨立)

HMM三個參數說明

A參數所代表的是狀態轉移情況,由於人說話快慢是不一樣的,所以描述的是一段音頻在某一個state待的長短的情況。B參數所描述的事情是state的分布狀況,通俗點說就是state所對應的信號應該長什麼樣,但其實我們並不知道每個state所包含的信號應該長什麼樣,但是存在一定機率分布,不同的state機率分布是不同的。 pi 所代表的是初始的觀測信號所對應的state的概率分布,因為有可能在第1個state,有可能在第2個state,….。A、B、 pi 就是HMM的3個參數,統一用 lambda 表示。

總結一下:HMM是雙層的隨機過程:

  • 第一層隨機代表的是顯層的observation 序列(提取的特徵向量)所對應的隱層的state是隨機轉移的:語音信號是時變的,人說的快慢也不一樣,所以隱層中每一個state是隨機轉移的,主要是為了描述時間上的各種變化。
  • 第二層的隨機代表的是即使知道了在哪個state,也不清楚該state長什麼樣。因為隱層的每個的state是隨機分布的,可以用GMM來擬合state的分布概率。

Simplified HMM來解釋隨機

上圖有三個桶,每個桶裡面有一堆球,球總共有三種顏色RGB,每個桶裡面RGB球的比例是不盡相同的。假設這樣一個場景,有個人Z將這三個桶用幕布蓋起來,他隨機選擇一個桶,並從裡面抽出一個球,只告訴你是什麼顏色的球。當然,Z每次抽哪個桶裡面的球,他是有自己的轉移概率的。然後再將球放回去,隨後再隨機選擇一個桶隨機抽出一個球,又告訴你是什麼顏色的球,以此類推,經過長時間實驗之後,你會得到一串RGBBGRGGBBR類似的序列。我們將該遊戲和語音識別裡面的參數類比一下。RGBBGRGGBBR類似的序列對應的是語音信號中的觀測序列,3個桶代表的是3個state,每個桶中球各個顏色概率類比的是state的概率分布,下次抽哪個桶的轉移概率代表的是state的轉移概率。HMM在這個遊戲中體現的雙層隨機代表的是:選擇抽哪個桶子裡面的球是隨機的;確定了桶之後,抽哪個顏色的球是隨機的。


推薦閱讀:
相关文章