極大似然&貝葉斯估計
模式分類的途徑主要分為以下三種:
- 估計類條件概率密度 :通過和 ,利用貝葉斯規則計算後驗概率 ,然後通過最大後驗概率做出決策。可以採用兩種方法對概率密度進行估計。
1a:概率密度參數估計:基於對的含參數的描述,主要有最大似然估計和貝葉斯估計。
1b:概率密度非參數估計:基於對的非參數的描述,主要有Parzen窗方法。
2. 直接估計後驗概率 ,不需要先估計 的。主要有K近鄰方法等。
3. 直接計算判別函數,不需要估計 或者 。常見的方法有神經網路等。
參數估計基於對 用已知函數形式的參數化表示,估計未知概率密度函數 的問題被簡化為估計已知函數形式中的未知參數。
在統計學中, 主要有兩個學派:
- 頻率學派 是經典學派, 帶頭人是Pearson、Fisher、Neyman;他們的主要觀點是概率指的是相對頻率, 是真實世界的客觀屬性。參數是固定的未知常數。由於參數不會波動, 因此不能對其進行概率描述。而統計過程應該具有定義良好的頻率穩定性。如:一個95%的置信區間應覆蓋參數真實值至少95%的頻率。我們根據聯合分佈密度 )求解參數值。
- 貝葉斯學派 概率描述的是主觀信念的程度, 而不是頻率。這樣除了對從隨機變化產生的數據進行概率描述外, 我們還可以對其他事物進行概率描述。可以對各個參數進行概率描述, 即使它們是固定的常數, 即為參數生成一個概率分佈來對它們進行推導, 點估計和區間估計可以從這些分佈得到。
統計學更多關注頻率推斷, 而機器學習和數據挖掘更偏愛貝葉斯推斷。在參數學習裡面,主要有最大似然估計(ML)和貝葉斯估計。這兩種方法的假設條件分屬於上面兩個學派。
最大似然估計(ML估計)
?假設:將待估計的參數看作確定的量,只是值未知。
?估計方式:將使得產生訓練樣本的概率最大的參數值作為這些參數的最佳估計。
貝葉斯估計(貝葉斯學習)
?假設:將待估計的參數看作符合某種先驗概率分佈的隨機變數。
?估計方式:通過觀察樣本,將先驗概率密度通過貝葉斯規則轉化為後驗概率密度。
ML估計與貝葉斯估計的關係:
? ML估計通常比貝葉斯估計簡單。
? ML估計給出參數的值,而貝葉斯估計給出所有可能的參數值的分佈。
? 當可用數據很多以至於減輕了先驗知識的作用時,貝葉斯估計可以退化為ML估計。
首先看,最大似然估計。
給定c個類:
- 假設所有的類條件概率密度函數 都具有已知的參數化形式。
- 假設每個參數 對它所屬的類型起的作用是相互獨立的。
給定c個數據集(每個數據集對應一個類別):
- 假設每個數據集 中的樣本是獨立同分布的隨機變數,這些隨機變數均從某個概率密度函數 中獨立抽取。
- 由於不不同類的參數是相互獨立的,那麼 無法為 的估計提供任何信息。
因此,可以對每個類別分別進行參數估計,省略下標,記 為 , 為 。
相對於數據集 的似然函數: 。
對 的ML估計即使得似然函數 最大的值 。
直觀上講, 是使得觀察到D中樣本的可能性最大化的值。
再看,貝葉斯估計。
給定
- 參數形式的概率密度函數 ,其中的未知參數表示為向量 。
- 有關 的先驗概率密度
- 數據集
求解
- 參數向量 的後驗概率密度
- x的後驗概率密度: 。
為明確數據集D的作用,類似於ML估計,貝葉斯決策所需後驗概率可重新寫作:
記 為 。
核心問題
已知一組訓練樣本D,這些樣本都是從固定但未知的概率密度函數p(x)中獨立抽取的,要求根據這些樣本估計 。
基本思路
- 假設 為已知參數形式的概率密度。
- 是 在 的後驗概率密度,通過貝葉斯估計得到的。
- 如果 在某個值 附近形成最顯著的尖峯,則 。
貝葉斯估計通過觀察數據集D,將先驗概率密度 轉化為後驗概率密度 ,並期望其在真實的 值處有一個尖峯: