數據的歸一化,標準化和正則化

數據的歸一化和標準化是特徵縮放(feature scaling)的方法,是數據預處理的關鍵步驟.

雖然存在決策樹和隨機森林這種少數不需要特徵縮放的機器學習演算法,但是對於大部分機器學習演算法和優化演算法來說,如果特徵都在同一範圍內,會獲得更好的結果.

歸一化

歸一化就是將數據映射到指定的範圍之內(通常映射到[0, 1]或者[-1, 1]之間)

常見的歸一化方法有最小-最大縮放(min-max scaling)

公式如下:

$x_{norm}^{(i)} = frac{x^{(i)}-x_{min}}{x_{max}-x_{min}}$

標準化就是將數據縮放到以0為中心,標準差為1

標準化後的特徵形式服從正態分布，這樣學習權重參數更容易。此外，標準化後的數據保持異常值中的有用信息，使得演算法對異常值不太敏感，這一點歸一化就無法保證。

標準化的公式如下:

$x_{std}^{(i)} = frac{x^{(i)}-mu_{x}}{sigma_{x}}$

下面用一張表來展示標準化和歸一化的區別