極大似然估計和貝葉斯估計

極大似然估計（Maximum Likelihood Estimation，MLE）和貝葉斯估計（Bayesian Estimation）是統計推斷中兩種最常用的參數估計方法，二者在機器學習中的應用也十分廣泛。本文將對這兩種估計方法做一個詳解。

考慮這樣一個問題：總體的概率密度函數為，觀測到一組樣本，需要估計參數。下面我們將採用不同的估計方法來求解這個問題。

1、極大似然估計

極大似然估計是典型的頻率學派觀點，它的基本思想是：待估計參數是客觀存在的，只是未知而已，當 $oldsymbol {hat heta}_{mle}$ 滿足「 $oldsymbol heta=oldsymbol {hat heta}_{mle}$ 時，該組觀測樣本更容易被觀測到「，我們就說 $oldsymbol {hat heta}_{mle}$ 是的極大似然估計值。也即，估計值 $oldsymbol {hat heta}_{mle}$ 使得事件發生的可能性最大。

下面給出極大似然估計的數學描述：

$L(oldsymbol heta|oldsymbol x)=f(oldsymbol x|oldsymbol heta)=f(x_1,x_2,dots,x_n|oldsymbol heta)=prod^{n}_{i=1}f(x_i|oldsymbol heta) \ oldsymbol {hat heta}_{mle}=argunderset {oldsymbol heta}{max} L(oldsymbol heta|oldsymbol x)$

2、貝葉斯估計

貝葉斯估計是典型的貝葉斯學派觀點，它的基本思想是：待估計參數也是隨機的，和一般隨機變數沒有本質區別，因此只能根據觀測樣本估計參數的分佈。

貝葉斯估計利用了貝葉斯公式，給出貝葉斯公式的數學描述：

$P(B_i|A)=frac {P(B_i)P(A|B_i)}{P(A)}=frac {P(B_i)P(A|B_i)}{sum^{n}_{j=1} P(B_j)P(A|B_j)}$

下面給出貝葉斯估計的數學描述：

$pi (oldsymbol heta|oldsymbol x)=frac {f(oldsymbol x|oldsymbol heta)pi (oldsymbol heta)}{m(oldsymbol x)}=frac {f(oldsymbol x|oldsymbol heta)pi (oldsymbol heta)}{int f(oldsymbol x|oldsymbol heta)pi (oldsymbol heta)d(oldsymbol heta)} \ oldsymbol {hat heta}_{be}=Epi (oldsymbol heta|oldsymbol x)$

其中，為參數的先驗分佈（prior distribution），表示對參數的主觀認識，是非樣本信息，為參數的後驗分佈（posterior distribution）。因此，貝葉斯估計可以看作是，在假定服從的先驗分佈前提下，根據樣本信息去校正先驗分佈，得到後驗分佈。由於後驗分佈是一個條件分佈，通常我們取後驗分佈的期望作為參數的估計值。

2.1、最大後驗估計

在貝葉斯估計中，如果我們採用極大似然估計的思想，考慮後驗分佈極大化而求解，就變成了最大後驗估計（Maximum A Posteriori estimation，MAP）：

$oldsymbol {hat heta}_{map}=arg underset {oldsymbol heta}{max} pi (oldsymbol heta|oldsymbol x)=arg underset {oldsymbol heta}{max} frac {f(oldsymbol x|oldsymbol heta)pi (oldsymbol heta)}{m(oldsymbol x)}=arg underset {oldsymbol heta}{max} {f(oldsymbol x|oldsymbol heta)pi (oldsymbol heta)}$

由於與無關，因此簡化了計算。

2.2、共軛先驗

在貝葉斯估計中，如果選取先驗分佈，使得後驗分佈與屬於同一分佈簇（即共軛分佈），則稱為似然函數的共軛先驗。

共軛先驗的選取有如下好處：a).符合直觀，先驗分佈和後驗分佈應該是相同形式的；b).可以給出後驗分佈的解析形式；c).可以形成一個先驗鏈，即現在的後驗分佈可以作為下一次計算的先驗分佈，如果形式相同，就可以形成一個鏈條。

常見的共軛先驗有：Beta分佈（二項分佈）、Dirichlet分佈（多項分佈）。

很顯然，共軛先驗的選取很大程度上是基於數學理論的方便性，帶有很強的主觀色彩，而這也是飽受頻率學派詬病的一點。頻率學派認為，只有在先驗分佈有一種不依賴主觀的意義，且能根據適當的理論或以往的經驗決定時，才允許在統計推斷中使用先驗分佈，否則就會喪失客觀性。關於這些，讀者可自行了解。

此文來自筆者對以前分享過的一個PPT的二次整理，內容略有刪減，感興趣的讀者可以直接查看PPT。

參考文獻

[1] http://blog.csdn.net/dyllove98/article/details/9385559

[2] http://blog.csdn.net/zouxy09/article/details/8537620

[3] （EM演算法）The EM Algorithm

[4] EM演算法存在的意義是什麼？

[5] 數據挖掘十大演算法----EM演算法（最大期望演算法） - 推酷

[6] http://blog.csdn.net/hechenghai/article/details/41896213

[7] 最大似然估計和EM演算法的關係是什麼？

[8] 期望最大化演算法（EM演算法）有什麼缺陷？

[9] http://blog.csdn.net/lihaitao000/article/details/51894496

[10] 使用EM演算法時的初值選擇問題 - 計量經濟學與統計軟體 - 經管之家(原人大經濟論壇)

[11] http://blog.csdn.net/wsj998689aa/article/details/46792543

[12] http://blog.csdn.net/manji_lee/article/details/41335307

[13] 混合高斯模型（Mixtures of Gaussians）和EM演算法

[14] http://irwenqiang.iteye.com/blog/1552680

[15] 漫談 Clustering (3): Gaussian Mixture Model

[16] 請問如何用數學方法證明K-means是EM演算法的特例？

[17] http://blog.csdn.net/llp1992/article/details/47058109

[18] http://www.csdn.net/article/2012-07-03/2807073-k-means

以上為本文的全部參考文獻，對原作者表示感謝。

我的足跡

CSDN
GitHub

極大似然估計和貝葉斯估計

1、極大似然估計

2、貝葉斯估計

2.1、最大後驗估計

2.2、共軛先驗

參考文獻

我的足跡

熱門新聞

週熱門

極大似然估計和貝葉斯估計

1、極大似然估計

2、貝葉斯估計

2.1、最大後驗估計

2.2、共軛先驗

參考文獻

我的足跡

為什麼softmax很少會出現[0.5，0.5]？

人工智慧領域裡的Interpretability和Explainability有什麼區別嗎？

如何自學《模式識別與機器學習》這本書？

有哪些非黑箱的機器學習模型，或者預測演算法？

ACL 2019將會有哪些值得關注的論文？

如果不從事機器學習，人工智慧，大數據這塊，未來還有機會在互聯網賺錢養家嗎？本人三本院校軟體專業。？

新手如何上手機器學習？

本人碩一小白，最近找課題，想問問深度學習GAN這個方向有哪些具有實際應用價值還好發文章的課題?

為什麼batch_size 增大會增加每一步的運算時間？

經典Python入門書籍都是python2.x, 先學這些再轉3.x難不難？

深度學習如何解決低信噪比下的檢測識別問題？

在2019年，使用AMD顯卡是否相當於告別深度學習，未來CUDA在機器學習領域的壟斷有可能被打破嗎？

在深度學習領域，預訓練有一定作用的本質原因是什麼？

小領域知識圖譜應該怎麼構建？

李宏毅 吳恩達誰的課更好?

熱門新聞

週熱門

李宏毅吳恩達誰的課更好?