機器學習入門之旅（四）線性模型之損失函數的迭代演算法

本節是上一節的延續，主要介紹一下損失函數的概率解釋，以及梯度下降和牛頓法兩種可以用於極值求解的優化演算法。

1. 損失函數的概率解釋

對於線性回歸模型，為什麼最小化損失函數J是一種合理的選擇？

假設目標變數和輸入的關係如下：

其中， $varepsilon ^{(i)}$ 代表偏差，可能是一些模型未覆蓋的因素導致的偏差或者隨機雜訊，並且進一步假設它們服從高斯分佈且獨立同分布， $varepsilon ^{(i)} sim N(0,sigma ^2)$ 。

即：

$p(y^{(i)} |x^{(i)}; w)$ 表示給定 $x^{(i)}$ 情況下 $y ^{(i)}$ 的條件分佈。注意w是參數，並非隨機變數，因此不能表示成 $p(y^{(i)} |x^{(i)}, w)$ 。

給定X（design matrix，包含所有的 $x^{(i)}$ ）和參數w，採用極大似然法來求取Y的分佈：

因此，最大化即為最小化 $frac{1}{2} sum_{i=1}^{m}(y^{(i)} - w^T x^{(i)})^2$ ，即最小二乘法的損失函數。需要注意的是，的大小對最終參數w的選擇沒有影響。

2. 梯度下降法（Gradient descent）

梯度下降法是一種求取函數的局部極小值的迭代演算法，每一步沿當前點的負梯度的方向按一定比例下降。

按照導數的定義：

由公式可見， $x_{0}$ 處的導數反映了函數在該點的瞬時變化速率，或者叫做在 $x_{0}$ 處的斜率。推廣到多維函數中，就有了梯度的概念，梯度是一個向量組合，反映了多維圖形中變化速率最快的方向。

也就是說，多元可微函數，在 $x_{n}$ 處下降最快的方向即為。當在足夠小時，對於 $x_{(n+1)}= x_{n} - gamma f(x_n)$ 可以保證 $f{(x_n)}geq f(x_{(n+1)})$ 。根據這個結論，為求得函數的局部最小值，我們從初始位置開始，進行減去的迭代操作得到 $x_{0}$ ， $x_{1}$ ， $x_{2}$ ，……，可以得到 $f(x_{0} )geq f(x_{1} )geq f(x_{2} )geq cdot cdot cdot geq f(x_{n} )$ ，因此 $F(x_{n} )$ 將有可能收斂至預期的局部最小值。其中，每次迭代時的步長並不一定要固定不變。