機器學習-參數估計-基礎
Frequentist & Bayesian
Frequentist
Bayesian
貝葉斯公式
: 先驗概率,未給定樣本時, 發生的概率
: 後驗概率,給定樣本時, 發生的概率
: 似然函數,給定 下,樣本的概率分布
共軛先驗分布
共軛分布 & 共軛先驗分布
若後驗概率 和先驗概率 有同樣的分布律,
則後驗分布和先驗分布被為共軛分布,
且先驗分布為似然函數的共軛先驗分布。
例1 伯努利分布/二項分布的共軛先驗分布為Beta分布
Beta Distribution
1)概率密度函數
2)期望
3)參數
越大,分布越瘦高;
,為均勻分布;
例2 多項分布的共軛先驗分布是Dirichlet分布
Dirichlet Distribution
1)概率密度函數
2)期望
3)參數
越大,分布越瘦高;
Symmetric Dirichlet Distribution
個分量每個都相同
1)概率密度函數
2)參數分析
,退化為均勻分布,即每個主題的概率 都相同;
, 概率增大,即少數主題概率較大,大部分主題概率幾近為0;
, 概率增大,即出現很多主題;
! 多項分布是二項分布的推廣,Dirichlet分布是Beta分布的推廣。
ML & MAP & Bayesian
Notations:
Maximum Likelihood Estimation (frequentist)
Maximum A Posteri Estimation (frequentist)
Bayesian Estimation (bayesian)
對比
ML:未考慮先驗知識,易造成過擬合;
MAP:加入驗,且先驗起到正則化作用,若先驗服從高斯分布,相當於L2正則,若先驗服從拉普拉斯分布相當於L1正則。
Bayesian:貝葉斯估計給出參數的一個分布(一個參數空間),而ML和MAP只給出一個最優參數解;預測時,利用參數分布中所有參數去預測不同值,每個參數的模型都有其權重,最終決策根據所有模型權重決策;此種集成模型可減小方差。
此文有所借鑒,如有不足錯誤之處,請予以指教,多謝。
https://www.cnblogs.com/little-YTMM/p/5399532.html
推薦閱讀: