机器学习-参数估计-基础
Frequentist & Bayesian
Frequentist
Bayesian
贝叶斯公式
: 先验概率,未给定样本时, 发生的概率
: 后验概率,给定样本时, 发生的概率
: 似然函数,给定 下,样本的概率分布
共轭先验分布
共轭分布 & 共轭先验分布
若后验概率 和先验概率 有同样的分布律,
则后验分布和先验分布被为共轭分布,
且先验分布为似然函数的共轭先验分布。
例1 伯努利分布/二项分布的共轭先验分布为Beta分布
Beta Distribution
1)概率密度函数
2)期望
3)参数
越大,分布越瘦高;
,为均匀分布;
例2 多项分布的共轭先验分布是Dirichlet分布
Dirichlet Distribution
1)概率密度函数
2)期望
3)参数
越大,分布越瘦高;
Symmetric Dirichlet Distribution
个分量每个都相同
1)概率密度函数
2)参数分析
,退化为均匀分布,即每个主题的概率 都相同;
, 概率增大,即少数主题概率较大,大部分主题概率几近为0;
, 概率增大,即出现很多主题;
! 多项分布是二项分布的推广,Dirichlet分布是Beta分布的推广。
ML & MAP & Bayesian
Notations:
Maximum Likelihood Estimation (frequentist)
Maximum A Posteri Estimation (frequentist)
Bayesian Estimation (bayesian)
对比
ML:未考虑先验知识,易造成过拟合;
MAP:加入验,且先验起到正则化作用,若先验服从高斯分布,相当于L2正则,若先验服从拉普拉斯分布相当于L1正则。
Bayesian:贝叶斯估计给出参数的一个分布(一个参数空间),而ML和MAP只给出一个最优参数解;预测时,利用参数分布中所有参数去预测不同值,每个参数的模型都有其权重,最终决策根据所有模型权重决策;此种集成模型可减小方差。
此文有所借鉴,如有不足错误之处,请予以指教,多谢。
https://www.cnblogs.com/little-YTMM/p/5399532.html
推荐阅读: