Frequentist & Bayesian

Frequentist

Parameters  are  fixed.

Data  are  a  repeatable  random  sample  -  there  is  a  frequency.

Underlying  parameters remain constant during  this  repeatable  process.

 widehat{mu } = overline{x},quad sigma ^2=frac{1}{n-1}sum(x-widehat{mu})^2

Bayesian

Data  are  fixed.

Data are observed from the realized sample.

Parameters are unknown and described probabilistically.

Prior distribution P(	heta) + Data X Rightarrow  Posterior  distribution P(	heta|X)


貝葉斯公式

P(	heta|x) = frac{P(x|	heta)P(	heta)}{P(x)}=P(x|	heta)frac{P(	heta)}{P(x)}

P(	heta) : 先驗概率,未給定樣本時, 	heta 發生的概率

P(	heta|x) : 後驗概率,給定樣本時, 	heta 發生的概率

P(x|	heta) : 似然函數,給定 	heta 下,樣本的概率分布

共軛先驗分布

P(	heta|x) = frac{P(x|	heta)P(	heta)}{P(x)}propto P(x|	heta)P(	heta)

共軛分布 & 共軛先驗分布

若後驗概率 P(	heta|x) 和先驗概率 P(	heta) 有同樣的分布律,

則後驗分布和先驗分布被為共軛分布,

且先驗分布為似然函數的共軛先驗分布。

例1 伯努利分布/二項分布的共軛先驗分布為Beta分布

Beta Distribution

1)概率密度函數

f(x) = left{ egin{array}{lr} frac{1}{B(alpha,eta)}x^{alpha-1}(1-x)^{eta-1}, xin [0,1]\ 0, otherwise end{array} 
ight.

B(alpha,eta)=int_0^1 x^{alpha-1}(1-x)^{eta-1}dx = frac{Gamma(alpha)Gamma(eta)}{Gamma(alpha+eta)}

Gamma(n)=(n-1)!

2)期望

E(X) = frac{alpha}{alpha+eta}

3)參數

alpha 越大,分布越瘦高;

alpha=eta=1 ,為均勻分布;

例2 多項分布的共軛先驗分布是Dirichlet分布

Dirichlet Distribution

1)概率密度函數

Dir(overrightarrow{p}|overrightarrow{alpha})=f(overrightarrow{p}|overrightarrow{alpha})=left{ egin{array}{lr} frac{1}{	riangle{(overrightarrow{alpha})}}prodlimits_{k=1}^{K}P_k^{alpha_k - 1},  P(k)in [0,1],  sumlimits_{k=1}^{K}P_k=1\ 0, otherwise end{array} 
ight.

	riangle{(overrightarrow{alpha})}=frac{prodlimits_{k=1}^{K}Gamma(alpha_k)}{Gamma(sumlimits_{k=1}^{K}alpha_k)}

2)期望

E(P_i)=frac{alpha_i}{sumlimits_{k=1}^{K}alpha_k}

3)參數

alpha 越大,分布越瘦高;

Symmetric Dirichlet Distribution

K 個分量每個alpha_k都相同

1)概率密度函數

Dir(overrightarrow{P} | alpha, K) = frac{1}{	riangle_K(alpha)}prodlimits_{k=1}^{K}P_k^{alpha-1}

{	riangle_K(alpha)}=frac{Gamma^K(alpha_K)}{Gamma(K cdot alpha)}quadalpha 	ext{: called the concentration parameter}

2)參數分析

alpha_k=1,退化為均勻分布,即每個主題的概率 P_k都相同;

alpha>1p_1=p_2=...=p_k概率增大,即少數主題概率較大,大部分主題概率幾近為0;

alpha<1p_i=1,p_{
eg i}=0概率增大,即出現很多主題;

! 多項分布是二項分布的推廣,Dirichlet分布是Beta分布的推廣。


ML & MAP & Bayesian

Notations:

Training  data: X

Model  parameter: 	heta

New  data: x^*

Maximum Likelihood Estimation (frequentist)

objective( learning:  find  	heta^* such  that  maximize  P(X|	heta)):

qquad qquad 	heta^*_{ML}=mathop{argmax}_	heta P(X|	heta)

solution:

qquad qquad frac{partial P(X|	heta)}{partial 	heta} = 0

Maximum A Posteri Estimation (frequentist)

objective( learning:  find  	heta^* such  that  maximize  P(	heta|X)):

qquad qquad Bayes  rule:P(	heta|X) = frac{P(X|	heta)P(	heta)}{P(X)}

qquad qquad 	heta^*_{MAP}=mathop{argmax}_	heta P(	heta|X) =mathop{argmax}_	heta P(X|	heta)P(	heta)

qquad qquad 	heta^*_{MAP}=mathop{argmax}_	heta log(P(X|	heta)) + log(P(	heta))

Bayesian Estimation (bayesian)

learning:  calculating  fully  the  posterior  distribution  P(	heta|X)

prediction:  making prediction by considering all possible 	heta

qquad qquad P(widehat{y} | x^*, X)=int_	heta P(widehat{y}|x^* , 	heta)P(	heta|X)d	heta

對比

ML:未考慮先驗知識,易造成過擬合;

MAP:加入驗,且先驗起到正則化作用,若先驗服從高斯分布,相當於L2正則,若先驗服從拉普拉斯分布相當於L1正則。

Bayesian:貝葉斯估計給出參數的一個分布(一個參數空間),而ML和MAP只給出一個最優參數解;預測時,利用參數分布中所有參數去預測不同值,每個參數的模型都有其權重,最終決策根據所有模型權重決策;此種集成模型可減小方差。

此文有所借鑒,如有不足錯誤之處,請予以指教,多謝。

cnblogs.com/little-YTMM

推薦閱讀:

相关文章