台湾 || 语言: 大陆简体港澳繁體台灣正體

【理解机器学习（一）】理解极大似然估计和EM演算法（中）盘一盘优化目标求解的那些小九九

雪花台湾 2019-07-14 06:26

读者背景知识：线性回归、逻辑回归、SVM、最大熵模型、拉格朗日乘子法

说在前面的废话：

前面已经讲清楚了最大似然估计(MLE)与EM演算法的关系，按照计划，是要讨论EM演算法求解优化问题的思想的
不过细想，优化目标求解问题其实就那么几种，而EM演算法只不过是其中某种大类求解策略下的一种具体实现而已，一个是道，一个是术，道的高度是大于术的，讲清楚了道，则一通百通，术便不再是问题所以，这一节，我就给大家理一理那些优化目标求解问题中的几大求解策略

1. 两种优化目标：有约束与无约束

首先，大家要知道，优化目标按照是否有额外的约束条件可以分为以下两种情况：

无约束的最优化问题

这种情况是最常见的，也是比较容易求解的优化问题

比如：

（1）线性回归的损失函数最小化目标（又称为最小二乘法）：

$min_w frac 12 sum_{i=1}^m(h(x_i)-y_i)^2$

如果再在原始最小二乘法损失函数的基础上加上正则化项，又变成了新的优化目标：

$min_w frac 12 sum_{i=1}^m(h(x_i)-y_i)^2+lambdasum_{j=1}^n|w_i|quad LASSO$

$min_w frac 12 sum_{i=1}^m(h(x_i)-y_i)^2+lambdasum_{j=1}^n|w_i|_2^2quad ext{岭回归}$

其中，是正则化项的系数，用于权衡模型结构风险与经验风险的比重，可以看到LASS回归于岭回归的差别仅仅在于使用的正则化项而已，LASS使用的是L1正则化，岭回归使用的是L2正则化

（2）逻辑回归的最大对数似然估计：

$egin{aligned} &max_w logprod_{i=1}^m P(y_i mid x_i) \ &= logprod_{i=1}^m P(y_i=1 mid x_i)^{y_i}P(y_i=0 mid x_i)^{1-y_i} \ &= sum_{i=1}^m y_ilog P(y_i=1 mid x_i)+(1-y_i)log(1-P(y_i=1 mid x_i)) end{aligned}$

其中，

$h(x)=P(y=1mid x)=frac{1}{1+e^{wx}}\ P(y=0mid x)=1-P(y=1mid x)=frac{e^{wx}}{1+e^{wx}}$

则，优化目标可以写成：

$max_w sum_{i=1}^m y_ilog h(x_i)+(1-y_i)log(1-h(x_i))$

有约束的最优化问题

这一类优化问题除了有目标函数项，还有其他约束项

比如：

（1）支持向量机的最大化几何间隔 (max margin)

它的优化目标为最大化几何间隔，即

$max_w r=frac {hat r}{||W||}$

相关文章