台湾 || 语言: 大陆简体港澳繁體台灣正體

【理解機器學習（一）】理解極大似然估計和EM演算法（中）盤一盤優化目標求解的那些小九九

雪花台灣 2019-07-14 06:26

讀者背景知識：線性回歸、邏輯回歸、SVM、最大熵模型、拉格朗日乘子法

說在前面的廢話：

前面已經講清楚了最大似然估計(MLE)與EM演算法的關係，按照計劃，是要討論EM演算法求解優化問題的思想的
不過細想，優化目標求解問題其實就那麼幾種，而EM演算法只不過是其中某種大類求解策略下的一種具體實現而已，一個是道，一個是術，道的高度是大於術的，講清楚了道，則一通百通，術便不再是問題所以，這一節，我就給大家理一理那些優化目標求解問題中的幾大求解策略

1. 兩種優化目標：有約束與無約束

首先，大家要知道，優化目標按照是否有額外的約束條件可以分為以下兩種情況：

無約束的最優化問題

這種情況是最常見的，也是比較容易求解的優化問題

比如：

（1）線性回歸的損失函數最小化目標（又稱為最小二乘法）：

$min_w frac 12 sum_{i=1}^m(h(x_i)-y_i)^2$

如果再在原始最小二乘法損失函數的基礎上加上正則化項，又變成了新的優化目標：

$min_w frac 12 sum_{i=1}^m(h(x_i)-y_i)^2+lambdasum_{j=1}^n|w_i|quad LASSO$

$min_w frac 12 sum_{i=1}^m(h(x_i)-y_i)^2+lambdasum_{j=1}^n|w_i|_2^2quad ext{嶺回歸}$

其中，是正則化項的係數，用於權衡模型結構風險與經驗風險的比重，可以看到LASS回歸於嶺回歸的差別僅僅在於使用的正則化項而已，LASS使用的是L1正則化，嶺回歸使用的是L2正則化

（2）邏輯回歸的最大對數似然估計：

$egin{aligned} &max_w logprod_{i=1}^m P(y_i mid x_i) \ &= logprod_{i=1}^m P(y_i=1 mid x_i)^{y_i}P(y_i=0 mid x_i)^{1-y_i} \ &= sum_{i=1}^m y_ilog P(y_i=1 mid x_i)+(1-y_i)log(1-P(y_i=1 mid x_i)) end{aligned}$

其中，

$h(x)=P(y=1mid x)=frac{1}{1+e^{wx}}\ P(y=0mid x)=1-P(y=1mid x)=frac{e^{wx}}{1+e^{wx}}$

則，優化目標可以寫成：

$max_w sum_{i=1}^m y_ilog h(x_i)+(1-y_i)log(1-h(x_i))$

有約束的最優化問題

這一類優化問題除了有目標函數項，還有其他約束項

比如：

（1）支持向量機的最大化幾何間隔 (max margin)

它的優化目標為最大化幾何間隔，即

$max_w r=frac {hat r}{||W||}$

相关文章