台湾 || 语言: 大陆简体港澳繁體台灣正體

特徵工程之特徵縮放&特徵編碼

雪花臺灣 2019-04-10 20:44

機器學習入門系列（2）--如何構建一個完整的機器學習項目，第五篇！

該系列的前四篇文章：

機器學習入門系列(2)--如何構建一個完整的機器學習項目(一)
機器學習數據集的獲取和測試集的構建方法
特徵工程之數據預處理（上）
特徵工程之數據預處理（下）

本篇文章會繼續介紹特徵工程的內容，這次會介紹特徵縮放和特徵編碼，前者主要是歸一化和正則化，用於消除量綱關係的影響，後者包括了序號編碼、獨熱編碼等，主要是處理類別型、文本型以及連續型特徵。

3.2 特徵縮放

特徵縮放主要分為兩種方法，歸一化和正則化。

3.2.1 歸一化

歸一化(Normalization)，也稱為標準化，這裡不僅僅是對特徵，實際上對於原始數據也可以進行歸一化處理，它是將特徵（或者數據）都縮放到一個指定的大致相同的數值區間內。
歸一化的兩個原因：

某些演算法要求樣本數據或特徵的數值具有零均值和單位方差；
為了消除樣本數據或者特徵之間的量綱影響，即消除數量級的影響。如下圖所示是包含兩個屬性的目標函數的等高線

數量級的差異將導致量級較大的屬性佔據主導地位。從下圖左看到量級較大的屬性會讓橢圓的等高線壓縮為直線，使得目標函數僅依賴於該屬性。
數量級的差異會導致迭代收斂速度減慢。原始的特徵進行梯度下降時，每一步梯度的方向會偏離最小值（等高線中心點）的方向，迭代次數較多，且學習率必須非常小，否則非常容易引起寬幅震蕩。但經過標準化後，每一步梯度的方向都幾乎指向最小值（等高線中心點）的方向，迭代次數較少。
所有依賴於樣本距離的演算法對於數據的數量級都非常敏感。比如 KNN 演算法需要計算距離當前樣本最近的 k 個樣本，當屬性的量級不同，選擇的最近的 k 個樣本也會不同。

X_{norm}=frac{X-X_{min}}{X_{max}-X_{min}}

相關文章