機器學習最重要的任務,是根據一些已觀察到的證據(例如訓練樣本)來對感興趣的未知變數(例如類別標記)進行估計和推測。概率模型提供了一種描述框架,將學習任務歸結為計算變數的概率分佈。概率圖模型(probabilistic graphical model,簡稱PGM)是一類用圖來表達變數相關關係的概率模型,它以圖為表示工具,最常見的是用一個結點表示一個或一組隨機變數,結點之間的邊表示變數間的概率相關關係,即「變數關係圖」。

根據邊的性質不同,概率圖模型可大致分為兩類:第一類是使用有向無環圖表示變數間的依賴關係,稱為有向圖模型或貝葉斯網;第二類是使用無向圖表示變數間的相關關係,稱為無向圖模型或馬爾科夫網(Markov network).

關於貝葉斯網在上一篇文章中已有介紹,本文主要介紹馬爾科夫網。

目錄

一、隱馬爾科夫模型

二、馬爾科夫隨機場

三、條件隨機場


一、隱馬爾科夫模型(Hidden Markov Model,簡稱HMM)

隱馬爾科夫模型是結構最簡單的動態貝葉斯網,其基本思想來源於馬爾可夫過程,可看作是一個含有隱含未知參數的馬爾可夫過程。(對馬爾可夫過程不瞭解的同學可參考百度百科中的介紹

baike.baidu.com/item/%E

一個對馬爾科夫模型直觀的描述如下圖所示

上圖中的變數可分為兩組,一組是狀態變數{y1,y2,…,yn},yi∈У表示系統在第i時刻的狀態,通常假定狀態變數是隱藏的、不可被觀測的,因此狀態變數亦稱隱變數。第二組是觀測變數即可以被觀測到的變數{x1,x2,…,xn},其中xi∈Х表示第i時刻的觀測值。觀測變數的取值僅依賴於狀態變數,即xt由yt確定;而yt僅依賴於上一個時刻的狀態y(t-1),即系統下一時刻的狀態僅由當前狀態決定,不依賴於以往的任何狀態。基於這種依賴關係,所有變數的聯合概率分佈為

從上圖與上式可以看出,想要確定一個隱馬爾科夫模型主要需要知道模型的結構和三組與模型相關的參數。這三組參數分別為

1、狀態轉移概率:模型在各個狀態間轉換的概率,通常記為矩陣

2、輸出觀測概率:模型根據當前狀態獲得各個觀測值的概率,通常記為矩陣

其中

表示在任意時刻t,若狀態為si,則觀測值oj被獲取的概率。

3、初始狀態概率:模型在初始時刻各狀態出現的概率,通常記為

其中

表示模型的初始狀態為si的概率。

通過制定狀態空間y、觀測空間x和上述三組參數,就能確定一個隱馬爾科夫模型,通常用其參數λ=[A,B,π]來指代。給定隱馬爾科夫模型λ,它按如下過程產生觀測序列:

1、 設置t=1,並根據初始狀態概率π選擇初始狀態y1;

2、 根據狀態yt和輸出觀測概率B選擇觀測變數取值xt;

3、 根據狀態yt和狀態轉移矩陣A轉移模型狀態,即確定y(t+1);

4、 若t<n,設置t=t+1,並轉移到第2步,否則停止。

其中

分別為第t時刻的狀態和觀測值


二、馬爾科夫隨機場(Markov Random Field,簡稱MRF)

在開始介紹馬爾科夫隨機場前,我們先來看一看隨機場的概念。簡單來說,隨機場可以看作是一組對應於同一樣本空間的隨機變數的集合。一般來說,這些隨機變數之間存在依賴關係,也只有當它們之間存在依賴關係的時候,我們才會將其單獨拿出來看成一個隨機場纔有實際意義。

馬爾科夫隨機場(Markov Random Field,簡稱MRF),即滿足馬爾可夫性的隨機場,是一種無向圖模型,這個無向圖上的每一個節點對應一個隨機變數,節點之間的邊對應隨機變數之間有概率依賴關係。因此,馬爾科夫隨機場的結構本質上反應了其先驗關係,也就是哪些變數之間有依賴關係是要考慮的,哪些是可以忽略的。因此,馬爾科夫隨機場中還定義了一組勢函數,用於定義概率分佈函數。

下圖所示是一個簡單的馬爾科夫隨機場的模型

對於上圖中結點的一個子集,若其中任意兩結點間都有邊鏈接,則稱該結點子集為一個「團」。若在一個團中加入任何一個結點都不能再形成團,則稱該團為「極大團」。例如上圖中{x1,x2}為一個團,{x2,x5,x6}為一個極大團。

在馬爾科夫隨機場中,多個變數之間的聯合概率分佈能基於團分解為多個因子的乘積,每個因子僅與一個團相關。具體來說,對於n個變數x={x1,x2,….,xn},所有團構成的集合為C,與團Q∈C對應的變數記為

,則聯合概率P(x)定義為

其中

為與團Q對應的勢函數,用於對團Q中的變數關係進行建模,Z為規範化因子,以確保P(x)是被正確定義的概率。在實際應用中,精確計算Z通常很困難,但許多任務往往並不需獲得Z的精確值。

為了在馬爾可夫隨機場中得到「條件獨立性」,我們可以藉助「分離」的策略。對馬爾可夫隨機場,有

  • 全局馬爾可夫性:給定兩個變數子集的分離集,則這兩個變數子集條件獨立。
  • 局部馬爾可夫性:給定某變數的鄰接變數,則該變數條件獨立於其他變數。
  • 成對馬爾可夫性:給定所有其他變數,兩個非鄰接變數條件獨立。

三、條件隨機場(Conditional Random Field,簡稱CRF)

條件隨機場(Conditional Random Field,簡稱CRF)是一種判別式無向圖模型。因為其強大的表達能力和出色的性能,得到了廣泛的應用。條件隨機場試圖對多個變數在給定觀測值後的條件概率進行建模,具體來說,若令x={x1,x2,…,xn}為觀測序列,y={y1,y2,…,yn}為與之相應的標記序列,則條件隨機場的目標是構建條件概率模型P(y|x)。

從最通用的角度來看,條件隨機場本質上是給定了觀察值集合的馬爾可夫隨機場。如果給定的馬爾可夫隨機場中每個隨機變數下面還有觀察值,我們要確定的是給定觀察集合下,這個馬爾可夫隨機場的分佈,就是條件分佈,則這個馬爾科夫隨機場就是條件隨機場。條件隨機場的條件分佈形式完全類似於馬爾可夫隨機場的分佈形式,只不過多了一個觀察集x。

一個典型的鏈式條件隨機場如下圖右邊所示

在條件隨機場中,條件概率被定義為:

其中

1、 tj是定義在邊上的特徵函數,稱為轉移特徵,依賴於當前和前一位置。

2、 sk是定義在標記變數及結點上的特徵函數,稱為狀態特徵,依賴於當前位置。

3、 λi、μk是tj、sk對應的權值。

4、 特徵函數tj、sk取值為1或0,當滿足特徵條件時取值為1,否則為0.

參考文獻

1、 周志華,《機器學習》

2、 Daisy_HJL,《Markov隨機場(MRF)和條件隨機場(CRF)》,

blog.csdn.net/qq_286187

推薦閱讀:

相關文章