在自然語言處理中,概率圖模型極為重要,在中文分詞、詞性標註、命名實體識別等諸多場景中有著廣泛的應用。概率圖模型(Graphical Model)分為貝葉斯網路(Bayesian Network)和馬爾科夫網路(Markov Network),其中貝葉斯網路可以用一個有向圖結構表示,馬爾科夫網路可以用無向圖結構;進一步概率圖模型包含樸素貝葉斯模型、最大熵模型、隱馬爾可夫模型、條件隨機場、主題模型等。此外,概率圖模型常常會涉及表示、推斷、參數學習三大問題。

概率圖模型的三大問題

概率圖模型涉及很多方面,本文僅僅介紹兩個重要模型HMM和CRF,將有關的概率圖串起來。本文不仔細介紹有關底層知識,僅是一篇匯總+總結文。

1、HMM VS NB,GMM

本小節從樸素貝葉斯模型(NB)和高斯混合模型(GMM)引出隱馬爾可夫模型(HMM)。

1.1 樸素貝葉斯模型(NB)

NB的目標函數是後驗概率最大化,其等價於0-1損失最小。NB是貝葉斯網路中最為簡單的一個模型,貝葉斯網路中應熟悉概率因子分解和條件獨立性判斷(head to tail,tail to tail,head to head),而NB正是應用了tail to tail的條件獨立性假設。

樸素貝葉斯模型(NB)

最大後驗概率: y=max   P(y_{k} | x) =max  frac{P(x |y_{k})P(y_{k})}{P(x)}

條件獨立性假設: P(x | y_{k})=prod_{i=1}^{n}P(x_{i} |y_{k})

NB的參數學習意味著需要估計 P(x |y_{k})P(y_{k}) ,可以採用極大似然估計(MLE);而採用MLE可能會出現估計概率為0的情況,這會影響後驗概率的計算結果,使分類產生偏差。因此,可採用貝葉斯估計解決,如add-1-smoothing 或者 add-k-smoothing。

1.2 高斯混合模型(GMM)

再引出GMM之前,首先換個角度理解NB:把NB看做單一模型,即觀測變數 x_{i}y_{k} 產生,而y_{k} 也是可以觀測的;一旦給定y_{k},就可以估計 P(x |y_{k})

而對於GMM,觀測變數雖然 x_{i}也是由y_{k} 產生的,但是y_{k} 確實不可以觀測的。「混合」表示觀測變數 x_{i} 會由多個隱變數 y_{k} 產生:

p(x)=sum_{k}^{K}{p(x,y_{k})}=sum_{k}^{K}{p(x|y_{k})p(y_{k})}

GMM也是一種常見的聚類演算法,使用EM演算法進行迭代計算;GMM假設每個簇的分佈服從高斯分佈。

1.3 隱馬爾可夫模型(HMM)

在引入HMM之前,我們分別介紹了NB和GMM,那麼它們與HMM有何關聯?

當NB中的 y_{k} 變為隱變數時,即可得到「混合」的GMM模型;而當GMM模型中的隱變數展開為時間序列時,即可得到HMM。

隱馬爾可夫模型(HMM)

學習HMM的口訣是「1-2-3」:

(1)1個參數包含: lambda={pi,A,B}

(2)2個假設:一階馬爾科夫假設+觀測獨立性假設;

(3)3個問題:概率計算問題(前向後向);參數學習問題(EM/MLE);預測問題(Viterbi);

2、CRF VS LR,ME

2.1 最大熵模型ME

最大熵模型(ME)

最大熵模型由最大熵原理導出,最大熵原理是概率學習和估計的一個準則。最大熵原理認為在所有可能的概率模型的集合中,熵最大的模型是最好的模型。最大熵模型的學習等價於約束最優化問題:

求解之後可以得到最大熵模型的表達式為:

最大熵模型最終可以歸結為學習最佳的參數w。

2.2 從最大熵模型ME看邏輯回歸LR

如果將看作 y 二元變數,並且將特徵函數修改為: f(x,y)={g(x),y=y_{1};0,y=y_{0}}

即可得到sigmoid函數:

p(y_{1}|x)=frac{1}{1+exp(-w*g(x))}

從上所述,可以看出LR是最大熵模型ME的一個特例。 LR和ME均屬於對數線性模型。

2.3 從最大熵模型ME看CRF

條件隨機場(CRF)

條件隨機場CRF可以看作是最大熵模型ME在時間序列上的延伸。

3、HMM、MEMM vs CRF

本小節對HMM、MEMM和CRF進行對比。

1)HMM是有向圖模型,是生成模型;HMM有兩個假設:一階馬爾科夫假設和觀測獨立性假設;但對於序列標註問題不僅和單個詞相關,而且和觀察序列的長度,單詞的上下文,等等相關。

2)MEMM(最大熵馬爾科夫模型)是有向圖模型,是判別模型;MEMM打破了HMM的觀測獨立性假設,MEMM考慮到相鄰狀態之間依賴關係,且考慮整個觀察序列,因此MEMM的表達能力更強;但MEMM會帶來標註偏置問題:由於局部歸一化問題,MEMM傾向於選擇擁有更少轉移的狀態。這就是標記偏置問題。

最大熵模型(MEMM)

3)CRF模型解決了標註偏置問題,去除了HMM中兩個不合理的假設,當然,模型相應得也變複雜了。

HMM、MEMM和CRF的優缺點比較:

a)與HMM比較。CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文信息。特徵設計靈活(與ME一樣)

b)與MEMM比較。由於CRF計算全局最優輸出節點的條件概率,它還克服了最大熵馬爾可夫模型標記偏置(Label-bias)的缺點。

c)與ME比較。CRF是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分佈,而不是在給定當前狀態條件下,定義下一個狀態的狀態分佈.

首先,CRF,HMM(隱馬模型),MEMM(最大熵隱馬模型)都常用來做序列標註的建模,像分詞、詞性標註,以及命名實體標註

隱馬模型一個最大的缺點就是由於其輸出獨立性假設,導致其不能考慮上下文的特徵,限制了特徵的選擇最大熵隱馬模型則解決了隱馬的問題,可以任意選擇特徵,但由於其在每一節點都要進行歸一化,所以只能找到局部的最優值,同時也帶來了標記偏見的問題,即凡是訓練語料中未出現的情況全都忽略掉。條件隨機場則很好的解決了這一問題,他並不在每一個節點進行歸一化,而是所有特徵進行全局歸一化,因此可以求得全局的最優值。

推薦閱讀:

相關文章