【特徵工程】分類變數的處理技術

分類變數是另一類常見的變數，用於表示類別或標記。與數值變數不同的是，分類變數的值是不能被排序的，所以也稱無序變數。

分類變數有大小型之分，小型分類變數如性別、學歷；大型分類變數如用戶ID、IP地址、單詞。

分類變數處理的核心是如何編碼類別。最簡單的方式就是使用正整數編碼類別，但是這樣就使得類別之間有了順序，相當於是引入了額外的特徵信息，是不允許的。

小型分類變數一般是每個類別都進行編碼，而大型分類變數的編碼過程包含了特徵壓縮。

小型特徵的處理技術

一.one-hot編碼

one-hot編碼(獨熱編碼)用一個比特位表示一種可能的編碼。一般每個變數只屬於一個類別，所以只有一個比特位是1，這就是『獨熱『』這個詞的由來。

使用獨熱編碼後，一個有k個類別的分類變數就被編碼為一個長度為k的特徵向量。相當於一個有k個取值的分類特徵轉換為了k個二值特徵。

獨熱編碼的問題是，使用的比特位比實際所需多一位，因為所有位都為0這個編碼沒有被使用。

因為有且只有一個比特位是1，各比特位bn表示，則有b1+b2+...+bn=1。這是一個線性關係，而線性相關的特徵有個缺點，會導致訓練出的模型不唯一，特徵的不同線性組合可以做出相同的預測。

機器學習，特徵值A的取值大部分是a，極少數是b，應該怎麼處理？