台湾 || 语言: 大陆简体港澳繁體台灣正體

極大似然&貝葉斯估計

雪花臺灣 2019-03-10 14:50

模式分類的途徑主要分為以下三種：

估計類條件概率密度：通過和，利用貝葉斯規則計算後驗概率，然後通過最大後驗概率做出決策。可以採用兩種方法對概率密度進行估計。

1a：概率密度參數估計：基於對的含參數的描述，主要有最大似然估計和貝葉斯估計。

1b：概率密度非參數估計：基於對的非參數的描述，主要有Parzen窗方法。

2. 直接估計後驗概率，不需要先估計的。主要有K近鄰方法等。

3. 直接計算判別函數，不需要估計或者。常見的方法有神經網路等。

參數估計基於對用已知函數形式的參數化表示，估計未知概率密度函數的問題被簡化為估計已知函數形式中的未知參數。

在統計學中, 主要有兩個學派：

頻率學派 是經典學派, 帶頭人是Pearson、Fisher、Neyman；他們的主要觀點是概率指的是相對頻率, 是真實世界的客觀屬性。參數是固定的未知常數。由於參數不會波動, 因此不能對其進行概率描述。而統計過程應該具有定義良好的頻率穩定性。如：一個95％的置信區間應覆蓋參數真實值至少95％的頻率。我們根據聯合分佈密度 )求解參數值。
貝葉斯學派 概率描述的是主觀信念的程度, 而不是頻率。這樣除了對從隨機變化產生的數據進行概率描述外, 我們還可以對其他事物進行概率描述。可以對各個參數進行概率描述, 即使它們是固定的常數, 即為參數生成一個概率分佈來對它們進行推導, 點估計和區間估計可以從這些分佈得到。

統計學更多關注頻率推斷, 而機器學習和數據挖掘更偏愛貝葉斯推斷。在參數學習裡面，主要有最大似然估計（ML）和貝葉斯估計。這兩種方法的假設條件分屬於上面兩個學派。

最大似然估計（ML估計）

?假設：將待估計的參數看作確定的量，只是值未知。

?估計方式：將使得產生訓練樣本的概率最大的參數值作為這些參數的最佳估計。

貝葉斯估計（貝葉斯學習）

?假設：將待估計的參數看作符合某種先驗概率分佈的隨機變數。

?估計方式：通過觀察樣本，將先驗概率密度通過貝葉斯規則轉化為後驗概率密度。

ML估計與貝葉斯估計的關係：

? ML估計通常比貝葉斯估計簡單。

? ML估計給出參數的值，而貝葉斯估計給出所有可能的參數值的分佈。

? 當可用數據很多以至於減輕了先驗知識的作用時，貝葉斯估計可以退化為ML估計。

首先看，最大似然估計。

給定c個類：

假設所有的類條件概率密度函數都具有已知的參數化形式。
假設每個參數對它所屬的類型起的作用是相互獨立的。

給定c個數據集（每個數據集對應一個類別）：

假設每個數據集中的樣本是獨立同分布的隨機變數，這些隨機變數均從某個概率密度函數中獨立抽取。
由於不不同類的參數是相互獨立的，那麼無法為的估計提供任何信息。

因此，可以對每個類別分別進行參數估計，省略下標，記為，為。

相對於數據集 $D={x_1,x_2,...,x_n}$ 的似然函數: $p(D| heta)=prod_{k=1}^{n}p(x_k| heta)$ 。

對的ML估計即使得似然函數最大的值 $heta_{ML}=arg max_ heta p(D| heta)$ 。

直觀上講， $heta_{ML}$ 是使得觀察到D中樣本的可能性最大化的值。

再看，貝葉斯估計。

給定

參數形式的概率密度函數，其中的未知參數表示為向量。
有關的先驗概率密度
數據集 $D={x_1,x_2,...,x_n}$

求解

參數向量的後驗概率密度
x的後驗概率密度：。

為明確數據集D的作用，類似於ML估計，貝葉斯決策所需後驗概率可重新寫作：

$p(w_i|x,D_{i=1}^c)=frac{p(x|w_i,D_i)p(w_i)}{sum_{i=1}^cp(x|w_i,D_i)p(w_i)}$

記為。

核心問題

已知一組訓練樣本D，這些樣本都是從固定但未知的概率密度函數p(x)中獨立抽取的，要求根據這些樣本估計。

基本思路

假設為已知參數形式的概率密度。
是在的後驗概率密度，通過貝葉斯估計得到的。
如果在某個值 $heta_{peak}$ 附近形成最顯著的尖峯，則 $p(x|D)approx p(x| heta_{peak})$ 。

貝葉斯估計通過觀察數據集D，將先驗概率密度轉化為後驗概率密度，並期望其在真實的值處有一個尖峯：

p(x|mu,sigma^2)sim N(mu,sigma^2)

相關文章