Frequentist & Bayesian

Frequentist

Parameters  are  fixed.

Data  are  a  repeatable  random  sample  -  there  is  a  frequency.

Underlying  parameters remain constant during  this  repeatable  process.

 widehat{mu } = overline{x},quad sigma ^2=frac{1}{n-1}sum(x-widehat{mu})^2

Bayesian

Data  are  fixed.

Data are observed from the realized sample.

Parameters are unknown and described probabilistically.

Prior distribution P(	heta) + Data X Rightarrow  Posterior  distribution P(	heta|X)


贝叶斯公式

P(	heta|x) = frac{P(x|	heta)P(	heta)}{P(x)}=P(x|	heta)frac{P(	heta)}{P(x)}

P(	heta) : 先验概率,未给定样本时, 	heta 发生的概率

P(	heta|x) : 后验概率,给定样本时, 	heta 发生的概率

P(x|	heta) : 似然函数,给定 	heta 下,样本的概率分布

共轭先验分布

P(	heta|x) = frac{P(x|	heta)P(	heta)}{P(x)}propto P(x|	heta)P(	heta)

共轭分布 & 共轭先验分布

若后验概率 P(	heta|x) 和先验概率 P(	heta) 有同样的分布律,

则后验分布和先验分布被为共轭分布,

且先验分布为似然函数的共轭先验分布。

例1 伯努利分布/二项分布的共轭先验分布为Beta分布

Beta Distribution

1)概率密度函数

f(x) = left{ egin{array}{lr} frac{1}{B(alpha,eta)}x^{alpha-1}(1-x)^{eta-1}, xin [0,1]\ 0, otherwise end{array} 
ight.

B(alpha,eta)=int_0^1 x^{alpha-1}(1-x)^{eta-1}dx = frac{Gamma(alpha)Gamma(eta)}{Gamma(alpha+eta)}

Gamma(n)=(n-1)!

2)期望

E(X) = frac{alpha}{alpha+eta}

3)参数

alpha 越大,分布越瘦高;

alpha=eta=1 ,为均匀分布;

例2 多项分布的共轭先验分布是Dirichlet分布

Dirichlet Distribution

1)概率密度函数

Dir(overrightarrow{p}|overrightarrow{alpha})=f(overrightarrow{p}|overrightarrow{alpha})=left{ egin{array}{lr} frac{1}{	riangle{(overrightarrow{alpha})}}prodlimits_{k=1}^{K}P_k^{alpha_k - 1},  P(k)in [0,1],  sumlimits_{k=1}^{K}P_k=1\ 0, otherwise end{array} 
ight.

	riangle{(overrightarrow{alpha})}=frac{prodlimits_{k=1}^{K}Gamma(alpha_k)}{Gamma(sumlimits_{k=1}^{K}alpha_k)}

2)期望

E(P_i)=frac{alpha_i}{sumlimits_{k=1}^{K}alpha_k}

3)参数

alpha 越大,分布越瘦高;

Symmetric Dirichlet Distribution

K 个分量每个alpha_k都相同

1)概率密度函数

Dir(overrightarrow{P} | alpha, K) = frac{1}{	riangle_K(alpha)}prodlimits_{k=1}^{K}P_k^{alpha-1}

{	riangle_K(alpha)}=frac{Gamma^K(alpha_K)}{Gamma(K cdot alpha)}quadalpha 	ext{: called the concentration parameter}

2)参数分析

alpha_k=1,退化为均匀分布,即每个主题的概率 P_k都相同;

alpha>1p_1=p_2=...=p_k概率增大,即少数主题概率较大,大部分主题概率几近为0;

alpha<1p_i=1,p_{
eg i}=0概率增大,即出现很多主题;

! 多项分布是二项分布的推广,Dirichlet分布是Beta分布的推广。


ML & MAP & Bayesian

Notations:

Training  data: X

Model  parameter: 	heta

New  data: x^*

Maximum Likelihood Estimation (frequentist)

objective( learning:  find  	heta^* such  that  maximize  P(X|	heta)):

qquad qquad 	heta^*_{ML}=mathop{argmax}_	heta P(X|	heta)

solution:

qquad qquad frac{partial P(X|	heta)}{partial 	heta} = 0

Maximum A Posteri Estimation (frequentist)

objective( learning:  find  	heta^* such  that  maximize  P(	heta|X)):

qquad qquad Bayes  rule:P(	heta|X) = frac{P(X|	heta)P(	heta)}{P(X)}

qquad qquad 	heta^*_{MAP}=mathop{argmax}_	heta P(	heta|X) =mathop{argmax}_	heta P(X|	heta)P(	heta)

qquad qquad 	heta^*_{MAP}=mathop{argmax}_	heta log(P(X|	heta)) + log(P(	heta))

Bayesian Estimation (bayesian)

learning:  calculating  fully  the  posterior  distribution  P(	heta|X)

prediction:  making prediction by considering all possible 	heta

qquad qquad P(widehat{y} | x^*, X)=int_	heta P(widehat{y}|x^* , 	heta)P(	heta|X)d	heta

对比

ML:未考虑先验知识,易造成过拟合;

MAP:加入验,且先验起到正则化作用,若先验服从高斯分布,相当于L2正则,若先验服从拉普拉斯分布相当于L1正则。

Bayesian:贝叶斯估计给出参数的一个分布(一个参数空间),而ML和MAP只给出一个最优参数解;预测时,利用参数分布中所有参数去预测不同值,每个参数的模型都有其权重,最终决策根据所有模型权重决策;此种集成模型可减小方差。

此文有所借鉴,如有不足错误之处,请予以指教,多谢。

cnblogs.com/little-YTMM

推荐阅读:

相关文章