最大似然估計可以說是應用非常廣泛的一種參數估計的方法。它的原理也很簡單:利用已知的樣本,找出最有可能找出生成該樣本的參數。

1.似然函數

似然性(likelihood)與概率(possibility)同樣可以表示事件發生的可能性大小,但是二者有著很大的區別,概率用於在已知參數的情況下,預測接下來的觀測所得到的結果;而似然性則是已知某些觀測的結果,對參數進行估計。

事實上,似然和概率是可以相互轉換的。假設事件 B 發生,那麼某個事件 A 會發生的概率為下式:

P(A|B)=frac{P(B|A)P(A)}{P(B)}

我們稍作轉換,得到下式:

P(B|A)=frac{P(A|B)P(B)}{P(A)}

注意式中,事件 B 已經發生, A 未知是否發生。P(A|B) 表示事件 B 發生的情況下,事件 A 發生的概率;而 P(B|A) 則表示,事件 A 的發生會導致 B 發生的概率。

可能聽著不是那麼好理解。我們用一個似然函數來表示,即

??(	heta|??)=??(??|	heta)

其中 x 已知, 	heta 未知。若 L(	heta_1|x)=p(x|	heta_1)>p(x|	heta_2)=L(	heta_2|x) ,意味著 	heta=	heta_1 時,隨機變數 X 得到 x 的概率大於當 	heta=	heta_2 時。這也正是似然的意義所在,通過已有的觀測數據 x ,估計出最有可能生成 x 的分佈函數參數 	heta 。下結論:

  • 	heta 已知,x 為變數的情況下,??(??|	heta) 為概率,表示通過已知的分佈函數與參數,隨機生成出 x 的概率;
  • 	heta 為變數,x 已知的情況下,??(??|	heta) 為似然函數,它表示對於不同的 	heta ,出現 x 的概率是多少。此時可寫成 ??(??|??)=??(??|??) ,更嚴格地,我們也可寫成 ??(??|??)=??(??;??)

給出維基百科的例子來加深理解:

2.離散型隨機變數的最大似然估計

其實在看懂了似然函數後,最大似然估計也迎刃而解了。離散型隨機變數 X 的分佈律為 ??{??=??}=??(??;??) ,設 ??_1,?,??_?? 為來自 X 的樣本,??_1,?,??_?? 為相應的觀察值,?? 為待估參數。

隨機取到??_1,?,??_?? 的概率為

prod_{i=1}^{n}p(x_{i};	heta)

構造似然函數:

L(	heta|x)=prod_{i=1}^{n}p(x_{i};	heta)

可知似然函數是一個關於 ?? 的式子,要找到最大概率生成 x 的參數,即找到當 ??(??|??) 取最大值時的 ??

求解出最大值,通常的方法就是求導=0:

frac{d}{d	heta}L(	heta|x)=0

由於式子通常是累乘的形式,我們藉助對數函數來簡化問題:

frac{d}{d	heta}lnL(	heta|x)=0

上式也通常被稱作對數似然方程。如果 θ 包含多個參數 ??_1,?,??_?? ,可對多個參數分別求偏導來連立方程組。下面舉一個例子:

3.連續型隨機變數的最大似然估計

連續型隨機變數 ?? 的概率密度為 ??(??;??) ,設 ??_1,?,??_?? 為來自 ?? 的樣本,??_1,?,??_?? 為相應的觀察值,同樣地,θ 為待估參數。

概率密度的圖像與橫軸所圍成的面積大小代表了概率的大小,當隨機變數 ?? 取到了某一個值 ??_1 ,可看做是選取到了 ??(??_1;??)???? 所圍成的小矩形。例如如圖所示:

接著與離散型隨機變數類似,隨機取到觀察值 ?? 的概率為:

p(x;	heta)=prod_{i=1}^{n}f(x_{i};	heta)dx

構造似然函數:

L(	heta|x)=prod_{i=1}^{n}f(x_{i};	heta)dx

由於 prod_{i=1}^{n}dx 不隨參數變化,故我們選擇忽略,似然函數變為:

L(	heta|x)=prod_{i=1}^{n}f(x_{i};	heta)

接著計算步驟和離散型類似,取對數求導=0。例如:

參考資料

  • 《概率論與數理統計》第四版
  • 維基百科-似然性
  • 最大似然估計和最大後驗估計(轉) - 段子手實習生 - 博客園
  • 概率論:p(x|theta)和p(x;theta)的區別 - 皮皮blog - CSDN博客
  • 詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解 - nebulaf91的博客 - CSDN博客
  • 如何理解似然函數?

推薦閱讀:

相關文章