極大似然估計(Maximum Likelihood Estimation,MLE)和貝葉斯估計(Bayesian Estimation)是統計推斷中兩種最常用的參數估計方法,二者在機器學習中的應用也十分廣泛。本文將對這兩種估計方法做一個詳解。


考慮這樣一個問題:總體 X 的概率密度函數為 f(x|oldsymbol 	heta) ,觀測到一組樣本 (X_1,X_2,dots,X_n)=(x_1,x_2,dots,x_n) ,需要估計參數 oldsymbol 	heta 。下面我們將採用不同的估計方法來求解這個問題。

1、極大似然估計

極大似然估計是典型的頻率學派觀點,它的基本思想是:待估計參數 oldsymbol 	heta 是客觀存在的,只是未知而已,當 oldsymbol {hat 	heta}_{mle} 滿足「 oldsymbol 	heta=oldsymbol {hat 	heta}_{mle} 時,該組觀測樣本 (X_1,X_2,dots,X_n)=(x_1,x_2,dots,x_n) 更容易被觀測到「,我們就說 oldsymbol {hat 	heta}_{mle}oldsymbol 	heta 的極大似然估計值。也即,估計值 oldsymbol {hat 	heta}_{mle} 使得事件發生的可能性最大。

下面給出極大似然估計的數學描述:

L(oldsymbol 	heta|oldsymbol x)=f(oldsymbol x|oldsymbol 	heta)=f(x_1,x_2,dots,x_n|oldsymbol 	heta)=prod^{n}_{i=1}f(x_i|oldsymbol 	heta) \ oldsymbol {hat 	heta}_{mle}=argunderset {oldsymbol 	heta}{max} L(oldsymbol 	heta|oldsymbol x)

2、貝葉斯估計

貝葉斯估計是典型的貝葉斯學派觀點,它的基本思想是:待估計參數 oldsymbol 	heta 也是隨機的,和一般隨機變數沒有本質區別,因此只能根據觀測樣本估計參數 oldsymbol 	heta 的分佈。

貝葉斯估計利用了貝葉斯公式,給出貝葉斯公式的數學描述:

P(B_i|A)=frac {P(B_i)P(A|B_i)}{P(A)}=frac {P(B_i)P(A|B_i)}{sum^{n}_{j=1} P(B_j)P(A|B_j)}

下面給出貝葉斯估計的數學描述:

pi (oldsymbol 	heta|oldsymbol x)=frac {f(oldsymbol x|oldsymbol 	heta)pi (oldsymbol 	heta)}{m(oldsymbol x)}=frac {f(oldsymbol x|oldsymbol 	heta)pi (oldsymbol 	heta)}{int f(oldsymbol x|oldsymbol 	heta)pi (oldsymbol 	heta)d(oldsymbol 	heta)} \ oldsymbol {hat 	heta}_{be}=Epi (oldsymbol 	heta|oldsymbol x)

其中, pi (oldsymbol 	heta) 為參數 oldsymbol 	heta 的先驗分佈(prior distribution),表示對參數 oldsymbol 	heta 的主觀認識,是非樣本信息, pi (oldsymbol 	heta|oldsymbol x) 為參數 oldsymbol 	heta 的後驗分佈(posterior distribution)。因此,貝葉斯估計可以看作是,在假定 oldsymbol 	heta 服從 pi (oldsymbol 	heta) 的先驗分佈前提下,根據樣本信息去校正先驗分佈,得到後驗分佈 pi (oldsymbol 	heta|oldsymbol x) 。由於後驗分佈是一個條件分佈,通常我們取後驗分佈的期望作為參數的估計值。

2.1、最大後驗估計

在貝葉斯估計中,如果我們採用極大似然估計的思想,考慮後驗分佈極大化而求解 oldsymbol 	heta ,就變成了最大後驗估計(Maximum A Posteriori estimation,MAP):

oldsymbol {hat 	heta}_{map}=arg underset {oldsymbol 	heta}{max} pi (oldsymbol 	heta|oldsymbol x)=arg underset {oldsymbol 	heta}{max} frac {f(oldsymbol x|oldsymbol 	heta)pi (oldsymbol 	heta)}{m(oldsymbol x)}=arg underset {oldsymbol 	heta}{max}  {f(oldsymbol x|oldsymbol 	heta)pi (oldsymbol 	heta)}

由於 m(oldsymbol x)oldsymbol 	heta 無關,因此簡化了計算。

2.2、共軛先驗

在貝葉斯估計中,如果選取先驗分佈 pi (oldsymbol 	heta) ,使得後驗分佈 pi (oldsymbol 	heta|oldsymbol x)pi (oldsymbol 	heta) 屬於同一分佈簇(即共軛分佈),則稱 pi (oldsymbol 	heta) 為似然函數 f(oldsymbol x|oldsymbol 	heta) 的共軛先驗。

共軛先驗的選取有如下好處:a).符合直觀,先驗分佈和後驗分佈應該是相同形式的;b).可以給出後驗分佈的解析形式;c).可以形成一個先驗鏈,即現在的後驗分佈可以作為下一次計算的先驗分佈,如果形式相同,就可以形成一個鏈條。

常見的共軛先驗有:Beta分佈(二項分佈)、Dirichlet分佈(多項分佈)。

很顯然,共軛先驗的選取很大程度上是基於數學理論的方便性,帶有很強的主觀色彩,而這也是飽受頻率學派詬病的一點。頻率學派認為,只有在先驗分佈有一種不依賴主觀的意義,且能根據適當的理論或以往的經驗決定時,才允許在統計推斷中使用先驗分佈,否則就會喪失客觀性。關於這些,讀者可自行了解。


此文來自筆者對以前分享過的一個PPT的二次整理,內容略有刪減,感興趣的讀者可以直接查看PPT。


參考文獻

[1] blog.csdn.net/dyllove98

[2] blog.csdn.net/zouxy09/a

[3] (EM演算法)The EM Algorithm

[4] EM演算法存在的意義是什麼?

[5] 數據挖掘十大演算法----EM演算法(最大期望演算法) - 推酷

[6] blog.csdn.net/hechengha

[7] 最大似然估計和EM演算法的關係是什麼?

[8] 期望最大化演算法(EM演算法)有什麼缺陷?

[9] blog.csdn.net/lihaitao0

[10] 使用EM演算法時的初值選擇問題 - 計量經濟學與統計軟體 - 經管之家(原人大經濟論壇)

[11] blog.csdn.net/wsj998689

[12] blog.csdn.net/manji_lee

[13] 混合高斯模型(Mixtures of Gaussians)和EM演算法

[14] irwenqiang.iteye.com/bl

[15] 漫談 Clustering (3): Gaussian Mixture Model

[16] 請問如何用數學方法證明K-means是EM演算法的特例?

[17] blog.csdn.net/llp1992/a

[18] csdn.net/article/2012-0

以上為本文的全部參考文獻,對原作者表示感謝。


我的足跡

  • CSDN
  • GitHub

推薦閱讀:

相關文章