台湾 || 语言: 大陆简体港澳繁體台灣正體

機器學習-參數估計-基礎

雪花台灣 2019-06-11 06:20

Frequentist & Bayesian

Frequentist

$widehat{mu } = overline{x},quad sigma ^2=frac{1}{n-1}sum(x-widehat{mu})^2$

Bayesian

貝葉斯公式

$P( heta|x) = frac{P(x| heta)P( heta)}{P(x)}=P(x| heta)frac{P( heta)}{P(x)}$

: 先驗概率，未給定樣本時，發生的概率

: 後驗概率，給定樣本時，發生的概率

: 似然函數，給定下，樣本的概率分布

共軛先驗分布

$P( heta|x) = frac{P(x| heta)P( heta)}{P(x)}propto P(x| heta)P( heta)$

共軛分布 & 共軛先驗分布

若後驗概率和先驗概率有同樣的分布律，

則後驗分布和先驗分布被為共軛分布，

且先驗分布為似然函數的共軛先驗分布。

例1 伯努利分布/二項分布的共軛先驗分布為Beta分布

Beta Distribution

1)概率密度函數

$f(x) = left{ egin{array}{lr} frac{1}{B(alpha,eta)}x^{alpha-1}(1-x)^{eta-1}, xin [0,1]\ 0, otherwise end{array} ight.$

$B(alpha,eta)=int_0^1 x^{alpha-1}(1-x)^{eta-1}dx = frac{Gamma(alpha)Gamma(eta)}{Gamma(alpha+eta)}$

2)期望

$E(X) = frac{alpha}{alpha+eta}$

3)參數

越大，分布越瘦高；

，為均勻分布；

例2 多項分布的共軛先驗分布是Dirichlet分布

Dirichlet Distribution

1)概率密度函數

$Dir(overrightarrow{p}|overrightarrow{alpha})=f(overrightarrow{p}|overrightarrow{alpha})=left{ egin{array}{lr} frac{1}{ riangle{(overrightarrow{alpha})}}prodlimits_{k=1}^{K}P_k^{alpha_k - 1}, P(k)in [0,1], sumlimits_{k=1}^{K}P_k=1\ 0, otherwise end{array} ight.$

$riangle{(overrightarrow{alpha})}=frac{prodlimits_{k=1}^{K}Gamma(alpha_k)}{Gamma(sumlimits_{k=1}^{K}alpha_k)}$

2)期望

$E(P_i)=frac{alpha_i}{sumlimits_{k=1}^{K}alpha_k}$

3)參數

越大，分布越瘦高；

Symmetric Dirichlet Distribution

個分量每個都相同

1)概率密度函數

$Dir(overrightarrow{P} | alpha, K) = frac{1}{ riangle_K(alpha)}prodlimits_{k=1}^{K}P_k^{alpha-1}$

${ riangle_K(alpha)}=frac{Gamma^K(alpha_K)}{Gamma(K cdot alpha)}quadalpha ext{: called the concentration parameter}$

2)參數分析

，退化為均勻分布，即每個主題的概率都相同;

，概率增大，即少數主題概率較大，大部分主題概率幾近為0;

， $p_i=1，p_{ eg i}=0$ 概率增大，即出現很多主題;

! 多項分布是二項分布的推廣，Dirichlet分布是Beta分布的推廣。

ML & MAP & Bayesian

Notations:

Training data: X

New data: x^*

Maximum Likelihood Estimation (frequentist)

$qquad qquad heta^*_{ML}=mathop{argmax}_ heta P(X| heta)$

$qquad qquad frac{partial P(X| heta)}{partial heta} = 0$

Maximum A Posteri Estimation (frequentist)

$qquad qquad Bayes rule:P( heta|X) = frac{P(X| heta)P( heta)}{P(X)}$

$qquad qquad heta^*_{MAP}=mathop{argmax}_ heta P( heta|X) =mathop{argmax}_ heta P(X| heta)P( heta)$

$qquad qquad heta^*_{MAP}=mathop{argmax}_ heta log(P(X| heta)) + log(P( heta))$

Bayesian Estimation (bayesian)

$qquad qquad P(widehat{y} | x^*, X)=int_ heta P(widehat{y}|x^* , heta)P( heta|X)d heta$

對比

ML：未考慮先驗知識，易造成過擬合；

MAP：加入驗，且先驗起到正則化作用，若先驗服從高斯分布，相當於L2正則，若先驗服從拉普拉斯分布相當於L1正則。

Bayesian：貝葉斯估計給出參數的一個分布(一個參數空間)，而ML和MAP只給出一個最優參數解；預測時，利用參數分布中所有參數去預測不同值，每個參數的模型都有其權重，最終決策根據所有模型權重決策；此種集成模型可減小方差。

此文有所借鑒，如有不足錯誤之處，請予以指教，多謝。

https://www.cnblogs.com/little-YTMM/p/5399532.html

推薦閱讀：

相关文章