模式分類的途徑主要分為以下三種:

  1. 估計類條件概率密度 p(x|w_i) :通過p(w_i)p(x|w_i) ,利用貝葉斯規則計算後驗概率 ,然後通過最大後驗概率做出決策。可以採用兩種方法對概率密度進行估計。

1a:概率密度參數估計:基於對p(x|w_i)的含參數的描述,主要有最大似然估計和貝葉斯估計。

1b:概率密度非參數估計:基於對p(x|w_i)的非參數的描述,主要有Parzen窗方法。

2. 直接估計後驗概率 p(x|w_i) ,不需要先估計 p(x|w_i) 的。主要有K近鄰方法等。

3. 直接計算判別函數,不需要估計 p(x|w_i) 或者 p(w_i|x) 。常見的方法有神經網路等。

參數估計基於對 p(x|w_i) 用已知函數形式的參數化表示,估計未知概率密度函數 p(x|w_i) 的問題被簡化為估計已知函數形式中的未知參數。

在統計學中, 主要有兩個學派:

  • 頻率學派 是經典學派, 帶頭人是Pearson、Fisher、Neyman;他們的主要觀點是概率指的是相對頻率, 是真實世界的客觀屬性。參數是固定的未知常數。由於參數不會波動, 因此不能對其進行概率描述。而統計過程應該具有定義良好的頻率穩定性。如:一個95%的置信區間應覆蓋參數真實值至少95%的頻率。我們根據聯合分佈密度 p(x_1,x_2,..x_n;θ) )求解參數值。
  • 貝葉斯學派 概率描述的是主觀信念的程度, 而不是頻率。這樣除了對從隨機變化產生的數據進行概率描述外, 我們還可以對其他事物進行概率描述。可以對各個參數進行概率描述, 即使它們是固定的常數, 即為參數生成一個概率分佈來對它們進行推導, 點估計和區間估計可以從這些分佈得到。

統計學更多關注頻率推斷, 而機器學習和數據挖掘更偏愛貝葉斯推斷。在參數學習裡面,主要有最大似然估計(ML)和貝葉斯估計。這兩種方法的假設條件分屬於上面兩個學派。

最大似然估計(ML估計)

?假設:將待估計的參數看作確定的量,只是值未知。

?估計方式:將使得產生訓練樣本的概率最大的參數值作為這些參數的最佳估計。

貝葉斯估計(貝葉斯學習)

?假設:將待估計的參數看作符合某種先驗概率分佈的隨機變數。

?估計方式:通過觀察樣本,將先驗概率密度通過貝葉斯規則轉化為後驗概率密度。

ML估計與貝葉斯估計的關係:

? ML估計通常比貝葉斯估計簡單。

? ML估計給出參數的值,而貝葉斯估計給出所有可能的參數值的分佈。

? 當可用數據很多以至於減輕了先驗知識的作用時,貝葉斯估計可以退化為ML估計。

首先看,最大似然估計。

給定c個類: w_1,w_2,...,w_c

  • 假設所有的類條件概率密度函數 p(x|w_i,	heta_i),i=1,...,c 都具有已知的參數化形式。
  • 假設每個參數 	heta_i 對它所屬的類型起的作用是相互獨立的。

給定c個數據集(每個數據集對應一個類別): D_1,D_2,...,D_c

  • 假設每個數據集 D_i 中的樣本是獨立同分布的隨機變數,這些隨機變數均從某個概率密度函數 p(x|w_i,	heta_i) 中獨立抽取。
  • 由於不不同類的參數是相互獨立的,那麼 D_i 無法為 	heta_j,j
e i 的估計提供任何信息。

因此,可以對每個類別分別進行參數估計,省略下標,記 p(x|w_i,	heta_i)p(x|	heta)D_jD

	heta 相對於數據集 D={x_1,x_2,...,x_n} 的似然函數: p(D|	heta)=prod_{k=1}^{n}p(x_k|	heta)

	heta 的ML估計即使得似然函數 p(D|	heta) 最大的值 	heta_{ML}=arg max_	heta p(D|	heta)

直觀上講, 	heta_{ML} 是使得觀察到D中樣本的可能性最大化的值。

再看,貝葉斯估計。

給定

  • 參數形式的概率密度函數 p(x|	heta) ,其中的未知參數表示為向量 	heta
  • 有關 	heta 的先驗概率密度 p(	heta)
  • 數據集 D={x_1,x_2,...,x_n}

求解

  • 參數向量 	heta   的後驗概率密度 p(	heta|D)
  • x的後驗概率密度: p(x|D)=int p(x,	heta|D) d	heta=int p(x|	heta)p(	heta|D)d	heta

為明確數據集D的作用,類似於ML估計,貝葉斯決策所需後驗概率可重新寫作:

p(w_i|x,D_{i=1}^c)=frac{p(x|w_i,D_i)p(w_i)}{sum_{i=1}^cp(x|w_i,D_i)p(w_i)}

p(x|w_i,D_i)p(x|D)

核心問題

已知一組訓練樣本D,這些樣本都是從固定但未知的概率密度函數p(x)中獨立抽取的,要求根據這些樣本估計 p(x|D)

基本思路

p(x|D)=int p(x,	heta|D) d	heta=int p(x|	heta)p(	heta|D)d	heta

  • 假設 p(x|	heta) 為已知參數形式的概率密度。
  • p(	heta|D) 	hetaD 的後驗概率密度,通過貝葉斯估計得到的。
  • 如果 p(	heta|D) 在某個值 	heta_{peak} 附近形成最顯著的尖峯,則 p(x|D)approx p(x|	heta_{peak})

貝葉斯估計通過觀察數據集D,將先驗概率密度 p(	heta) 轉化為後驗概率密度 p(	heta |D) ,並期望其在真實的 	heta 值處有一個尖峯:

實例分析:

目標概率密度函數: p(x|mu,sigma^2)sim N(mu,sigma^2)

? mu 未知,但是其分佈 p(mu) 已知。

  • sigma^2 已知, p(x|mu,sigma^2) 可簡化為 p(x|mu)

我們假設均值 mu 服從: p(mu)sim N(mu_0,sigma_0^2) ,其中 mu_0 , sigma_0^2 是已知的。不嚴格的說,mu_0 代表了我們對均值 mu 的最好的先驗估計, sigma_0^2則表示了我們對這個估計的不確定程度。另外必須記住,在估計 mu 的過程中所作的關鍵假設並不是均值服從正態分佈這一具體形式,而是假設均值 mu 服從某個已知的分佈。

應用貝葉斯規則計算 mu 的後驗概率:

? p(mu|D) 也呈高斯分佈

假設p(mu|D)sim N(mu_n,sigma_n^2),則 p(mu|D)=frac{1}{sqrt{2π}}exp[-frac{1}{2}(frac{mu -mu_n}{sigma_n})^2]

聯立上式,得:

隨著樣本數n的遞增, sigma_n^2 單調遞減,即新增的樣本能夠減少關於 mu 的估計的不確定性。隨著n的增大, p(mu|D) 的波形變得越來越尖。並且在n趨於無窮大的時候,逼近於狄拉克函數。這一現象稱為貝葉斯學習過程。該過程如下圖所示:

觀察結論:

  • 如果 sigma_0
e 0 ,當 n
ightarrow infty 時, mu
ightarrow mu_ n(hat) ;
  • 如果 sigma_0=0 , mu_n=mu_0 ;
  • 如果 sigma_0gg sigma , mu_napprox mu_ n(hat) ;

先驗知識和經驗數據各自的貢獻取決於 sigma^2sigma_0^2 的比值,這個比值稱為決斷因子(dogmatism)。當獲得足夠多的樣本後, mu_0sigma_0^2 的具體數值的精確假定變得無關緊要, mu_n 將收斂於樣本均值。

有了均值的後驗密度之後,就可以計算類條件概率密度函數 p(x|D) 了。根據:

得:

其中:

由上式可知,作為x的函數:

最終我們得到了p(x|D),實現了對該模型的貝葉斯參數估計。

貝葉斯參數估計的一般理論

首先,做一些基本假設:

  • 條件概率密度函數 p(x|	heta) 是完全已知的,雖然參數向量 	heta 的具體數值未知。
  • 參數向量 	heta 的先驗概率密度函數p(	heta)包含了我們對 	heta 的全部先驗知識。
  • 其餘的關於參數向量 	heta 的信息就包含在觀察到的獨立樣本 x_1,x_2,...,x_n 中,這些樣本都服從未知的概率密度函數p(x)。

在貝葉斯估計問題中,最基本的問題就是計算後驗概率 p(	heta|D) ,因為一旦求的後驗概率密度函數,我們就可以用下式來計算 p(x|D) ,注意 p(x|D)p(x|w_i,D_i) 的簡寫形式。

p(x|D)=int p(x,	heta|D) d	heta=int p(x|	heta)p(	heta|D)d	heta

為了計算後驗概率p(	heta|D),使用貝葉斯公式:

p(	heta|D)=frac{p(D|	heta)p(	heta)} {int p(D|	heta)p(	heta)}dx

根據樣本的獨立性假設,我們有:

p(D|	heta)=prod_{k=1}^{n}p(x_k|	heta)

為了明確樣本集中的樣本個數,採用以下記號:

當n>1時,有

注意,當尚未有觀測樣本時,令 p(	heta|D^0)=p(	heta) 。反覆運用上述公式,能夠產生一系列的概率密度函數: p(	heta),p(	heta|x_1),p(	heta|x_1,x_2) 等等。這一過程被稱為參數估計的遞歸的貝葉斯估計。這一過程屬於增量學習或在線學習演算法,其特點是學習的過程隨著觀察數據的的不斷獲得而不斷進行。如果這一概密度函數的序列最終能夠收斂到一個中心在參數真實值附近的狄拉克函數,那麼就實現了貝葉斯學習過程。

實例分析:

問題:

一維樣本服從均勻分佈

已知:參數 	heta 有界,假設 p(	heta)sim U(0,10) #先驗知識

已有樣本集 D^4={4,7,2,8}

使用遞歸貝葉斯求解 p(x|D^4)

解:

觀察樣本之前:

觀察樣本 x_1=4 :

觀察樣本 x_2=7 :

觀察樣本 x_3=2 :

觀察樣本 x_4=8 :

迭代過程如下:

求的 p(x|D) 的分佈:


推薦閱讀:
相關文章