極大似然估計和貝葉斯估計
極大似然估計(Maximum Likelihood Estimation,MLE)和貝葉斯估計(Bayesian Estimation)是統計推斷中兩種最常用的參數估計方法,二者在機器學習中的應用也十分廣泛。本文將對這兩種估計方法做一個詳解。
考慮這樣一個問題:總體 的概率密度函數為 ,觀測到一組樣本 ,需要估計參數 。下面我們將採用不同的估計方法來求解這個問題。
1、極大似然估計
極大似然估計是典型的頻率學派觀點,它的基本思想是:待估計參數 是客觀存在的,只是未知而已,當 滿足「 時,該組觀測樣本 更容易被觀測到「,我們就說 是 的極大似然估計值。也即,估計值 使得事件發生的可能性最大。
下面給出極大似然估計的數學描述:
2、貝葉斯估計
貝葉斯估計是典型的貝葉斯學派觀點,它的基本思想是:待估計參數 也是隨機的,和一般隨機變數沒有本質區別,因此只能根據觀測樣本估計參數 的分佈。
貝葉斯估計利用了貝葉斯公式,給出貝葉斯公式的數學描述:
下面給出貝葉斯估計的數學描述:
其中, 為參數 的先驗分佈(prior distribution),表示對參數 的主觀認識,是非樣本信息, 為參數 的後驗分佈(posterior distribution)。因此,貝葉斯估計可以看作是,在假定 服從 的先驗分佈前提下,根據樣本信息去校正先驗分佈,得到後驗分佈 。由於後驗分佈是一個條件分佈,通常我們取後驗分佈的期望作為參數的估計值。
2.1、最大後驗估計
在貝葉斯估計中,如果我們採用極大似然估計的思想,考慮後驗分佈極大化而求解 ,就變成了最大後驗估計(Maximum A Posteriori estimation,MAP):
由於 與 無關,因此簡化了計算。
2.2、共軛先驗
在貝葉斯估計中,如果選取先驗分佈 ,使得後驗分佈 與 屬於同一分佈簇(即共軛分佈),則稱 為似然函數 的共軛先驗。
共軛先驗的選取有如下好處:a).符合直觀,先驗分佈和後驗分佈應該是相同形式的;b).可以給出後驗分佈的解析形式;c).可以形成一個先驗鏈,即現在的後驗分佈可以作為下一次計算的先驗分佈,如果形式相同,就可以形成一個鏈條。
常見的共軛先驗有:Beta分佈(二項分佈)、Dirichlet分佈(多項分佈)。
很顯然,共軛先驗的選取很大程度上是基於數學理論的方便性,帶有很強的主觀色彩,而這也是飽受頻率學派詬病的一點。頻率學派認為,只有在先驗分佈有一種不依賴主觀的意義,且能根據適當的理論或以往的經驗決定時,才允許在統計推斷中使用先驗分佈,否則就會喪失客觀性。關於這些,讀者可自行了解。
此文來自筆者對以前分享過的一個PPT的二次整理,內容略有刪減,感興趣的讀者可以直接查看PPT。
參考文獻
[1] http://blog.csdn.net/dyllove98/article/details/9385559
[2] http://blog.csdn.net/zouxy09/article/details/8537620
[3] (EM演算法)The EM Algorithm
[4] EM演算法存在的意義是什麼?
[5] 數據挖掘十大演算法----EM演算法(最大期望演算法) - 推酷
[6] http://blog.csdn.net/hechenghai/article/details/41896213
[7] 最大似然估計和EM演算法的關係是什麼?
[8] 期望最大化演算法(EM演算法)有什麼缺陷?
[9] http://blog.csdn.net/lihaitao000/article/details/51894496
[10] 使用EM演算法時的初值選擇問題 - 計量經濟學與統計軟體 - 經管之家(原人大經濟論壇)
[11] http://blog.csdn.net/wsj998689aa/article/details/46792543
[12] http://blog.csdn.net/manji_lee/article/details/41335307
[13] 混合高斯模型(Mixtures of Gaussians)和EM演算法
[14] http://irwenqiang.iteye.com/blog/1552680
[15] 漫談 Clustering (3): Gaussian Mixture Model
[16] 請問如何用數學方法證明K-means是EM演算法的特例?
[17] http://blog.csdn.net/llp1992/article/details/47058109
[18] http://www.csdn.net/article/2012-07-03/2807073-k-means
以上為本文的全部參考文獻,對原作者表示感謝。
我的足跡
- CSDN
- GitHub
推薦閱讀: