数据的归一化,标准化和正则化

数据的归一化和标准化是特征缩放(feature scaling)的方法,是数据预处理的关键步骤.

虽然存在决策树和随机森林这种少数不需要特征缩放的机器学习演算法,但是对于大部分机器学习演算法和优化演算法来说,如果特征都在同一范围内,会获得更好的结果.

归一化

归一化就是将数据映射到指定的范围之内(通常映射到[0, 1]或者[-1, 1]之间)

常见的归一化方法有最小-最大缩放(min-max scaling)

公式如下:

$x_{norm}^{(i)} = frac{x^{(i)}-x_{min}}{x_{max}-x_{min}}$

标准化就是将数据缩放到以0为中心,标准差为1

标准化后的特征形式服从正态分布，这样学习权重参数更容易。此外，标准化后的数据保持异常值中的有用信息，使得演算法对异常值不太敏感，这一点归一化就无法保证。

标准化的公式如下:

$x_{std}^{(i)} = frac{x^{(i)}-mu_{x}}{sigma_{x}}$

下面用一张表来展示标准化和归一化的区别