台湾 || 语言: 大陆简体港澳繁體台灣正體

机器学习-参数估计-基础

雪花台湾 2019-06-11 06:20

Frequentist & Bayesian

Frequentist

$widehat{mu } = overline{x},quad sigma ^2=frac{1}{n-1}sum(x-widehat{mu})^2$

Bayesian

贝叶斯公式

$P( heta|x) = frac{P(x| heta)P( heta)}{P(x)}=P(x| heta)frac{P( heta)}{P(x)}$

: 先验概率，未给定样本时，发生的概率

: 后验概率，给定样本时，发生的概率

: 似然函数，给定下，样本的概率分布

共轭先验分布

$P( heta|x) = frac{P(x| heta)P( heta)}{P(x)}propto P(x| heta)P( heta)$

共轭分布 & 共轭先验分布

若后验概率和先验概率有同样的分布律，

则后验分布和先验分布被为共轭分布，

且先验分布为似然函数的共轭先验分布。

例1 伯努利分布/二项分布的共轭先验分布为Beta分布

Beta Distribution

1)概率密度函数

$f(x) = left{ egin{array}{lr} frac{1}{B(alpha,eta)}x^{alpha-1}(1-x)^{eta-1}, xin [0,1]\ 0, otherwise end{array} ight.$

$B(alpha,eta)=int_0^1 x^{alpha-1}(1-x)^{eta-1}dx = frac{Gamma(alpha)Gamma(eta)}{Gamma(alpha+eta)}$

2)期望

$E(X) = frac{alpha}{alpha+eta}$

3)参数

越大，分布越瘦高；

，为均匀分布；

例2 多项分布的共轭先验分布是Dirichlet分布

Dirichlet Distribution

1)概率密度函数

$Dir(overrightarrow{p}|overrightarrow{alpha})=f(overrightarrow{p}|overrightarrow{alpha})=left{ egin{array}{lr} frac{1}{ riangle{(overrightarrow{alpha})}}prodlimits_{k=1}^{K}P_k^{alpha_k - 1}, P(k)in [0,1], sumlimits_{k=1}^{K}P_k=1\ 0, otherwise end{array} ight.$

$riangle{(overrightarrow{alpha})}=frac{prodlimits_{k=1}^{K}Gamma(alpha_k)}{Gamma(sumlimits_{k=1}^{K}alpha_k)}$

2)期望

$E(P_i)=frac{alpha_i}{sumlimits_{k=1}^{K}alpha_k}$

3)参数

越大，分布越瘦高；

Symmetric Dirichlet Distribution

个分量每个都相同

1)概率密度函数

$Dir(overrightarrow{P} | alpha, K) = frac{1}{ riangle_K(alpha)}prodlimits_{k=1}^{K}P_k^{alpha-1}$

${ riangle_K(alpha)}=frac{Gamma^K(alpha_K)}{Gamma(K cdot alpha)}quadalpha ext{: called the concentration parameter}$

2)参数分析

，退化为均匀分布，即每个主题的概率都相同;

，概率增大，即少数主题概率较大，大部分主题概率几近为0;

， $p_i=1，p_{ eg i}=0$ 概率增大，即出现很多主题;

! 多项分布是二项分布的推广，Dirichlet分布是Beta分布的推广。

ML & MAP & Bayesian

Notations:

Training data: X

New data: x^*

Maximum Likelihood Estimation (frequentist)

$qquad qquad heta^*_{ML}=mathop{argmax}_ heta P(X| heta)$

$qquad qquad frac{partial P(X| heta)}{partial heta} = 0$

Maximum A Posteri Estimation (frequentist)

$qquad qquad Bayes rule:P( heta|X) = frac{P(X| heta)P( heta)}{P(X)}$

$qquad qquad heta^*_{MAP}=mathop{argmax}_ heta P( heta|X) =mathop{argmax}_ heta P(X| heta)P( heta)$

$qquad qquad heta^*_{MAP}=mathop{argmax}_ heta log(P(X| heta)) + log(P( heta))$

Bayesian Estimation (bayesian)

$qquad qquad P(widehat{y} | x^*, X)=int_ heta P(widehat{y}|x^* , heta)P( heta|X)d heta$

对比

ML：未考虑先验知识，易造成过拟合；

MAP：加入验，且先验起到正则化作用，若先验服从高斯分布，相当于L2正则，若先验服从拉普拉斯分布相当于L1正则。

Bayesian：贝叶斯估计给出参数的一个分布(一个参数空间)，而ML和MAP只给出一个最优参数解；预测时，利用参数分布中所有参数去预测不同值，每个参数的模型都有其权重，最终决策根据所有模型权重决策；此种集成模型可减小方差。

此文有所借鉴，如有不足错误之处，请予以指教，多谢。

https://www.cnblogs.com/little-YTMM/p/5399532.html

推荐阅读：

相关文章