特徵選擇與特徵工程初探

特徵工程是機器學習的第一步，涉及清理現有數據集、提高信噪比和降低維數的所有技術。大多數演算法對輸入數據有很強的假設，當使用原始數據集時，它們的性能可能會受到負面影響。

另外有些特徵之間高度相關，在其中一個特徵提供了足夠的信息之後，與之相關的其他特徵往往無法提供額外的信息。這時我們就需要了解如何減少特徵數量或者僅選擇最佳特徵。

一、scikit-learn數據集

scikit-learn提供了一些用於測試的內置數據集，這些數據集包含在sklearn.datasets中，每個數據集都包含了輸入集（特徵集）X和標籤（目標值）y。比如波士頓房價的數據集（用於回歸問題）：

from sklearn.datasets import load_boston

boston = load_boston()
X = boston.data
y = boston.target

print(特徵集的shape：, X.shape)
print(目標集的shape：, y.shape)
特徵集的shape： (506, 13)
目標集的shape： (506,)

可以看到，這個數據集包含了506個樣本、13個特徵，以及1個目標值。

假如我們不想使用scikit-learn提供的數據集，那麼我們還可以使用scikit-learn提供的工具來手動創建特定的數據集。相關的方法有：

make_classification()：用於創建適用於測試分類演算法的數據集；
make_regression()：用於創建適用於測試回歸模型的數據集；
make_blobs()：用於創建適用於測試聚類演算法的數據集。

二、創建訓練集和測試集

一般來說，我們要在正式應用我們訓練的模型前對它進行測試。因此我們需要將數據集分為訓練集和測試集，顧名思義，前者用於訓練模型參數，後者用於測試模型性能。在某些情況下，我們甚至還會再分出一個數據集作為交叉驗證集，這種處理方式適用於有多種模型可供選擇的情況。

數據集的分割有一些注意事項：首先，兩個數據集必須要能反映原始數據的分佈，否則在數據集失真的情況下得到的模型對於真實樣本的預測效力會比較差；其次，原始數據集必須在分割之前隨機混合，以避免連續元素之間的相關性。

在scikit-learn中，我們可以使用train_test_split()函數來快速實現數據集的分割。

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1000)

這裡前兩個位置參數分別是特徵集和目標集，test_size用於指定測試集大小佔整個數據集的比例，random_state則是指定一個隨機種子，這樣可以確保我們在重複試驗時數據不會發生變化（數據集都變了，那模型效果的變化就不知道該歸因於模型的優化還是歸因於數據集的變化了。）

三、管理分類數據

在許多分類問題中，目標數據集由各種類別標籤組成。但是很多演算法是不支持這種數據格式的，因此我們要對其進行必要的編碼。

假設我們有一個由10個樣本組成的數據集，每個樣本有兩個特徵。

import numpy as np

X = np.random.uniform(0.0, 1.0, size=(10, 2))
y = np.random.choice((Male, Female), size=(10))

print(X:, X)
print(y:, y)
X: [[0.48463048 0.21682675]
[0.27987595 0.28061459]
[0.13723177 0.45159025]
[0.42727284 0.99834867]
[0.61113219 0.31892401]
[0.14985227 0.71565914]
[0.048201 0.49254257]
[0.54466226 0.8419817 ]
[0.94426201 0.78924785]
[0.36877342 0.53250431]]
y: [Female Female Male Female Female Female Male Male
Female Male]

1. 使用`LabelEncoder`類

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
yt = le.fit_transform(y)

print(y)
print(yt)
print(le.classes_)
[Female Female Male Female Female Female Male Male
Female Male]
[0 0 1 0 0 0 1 1 0 1]
[Female Male]

獲得逆變換的方法很簡單：

output = [1, 0, 1, 1, 0, 0] decoded_output = [le.classes_[i] for i in output] print(decoded_output) [Male, Female, Male, Male, Female, Female]

這種方法很簡單，但是有個缺點：所有的標籤都變成了數字，然後使用真實值的分類器會根據其距離考慮相似的數字，而忽略其代表的分類含義。因此我們通常優先選擇獨熱編碼（one-hot encoding，又稱一次有效編碼），將數據二進位化。

2. 使用`LabelBinarizer`類

from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
yb = lb.fit_transform(y)

print(y)
print(yb)
print(lb.inverse_transform(yb))
[Female Female Male Female Female Female Male Male
Female Male]
[[0]
[0]
[1]
[0]
[0]
[0]
[1]
[1]
[0]
[1]]
[Female Female Male Female Female Female Male Male
Female Male]

可以看到，這裡我們可以使用LabelBinarizer類的inverse_transform方法進行逆轉化。

當存在多個標籤時，這種方法會將其中一個標籤變換為1，其餘標籤全部為0。這可能會導致的問題顯而易見，也就是我們將多分類問題轉換成了二分類問題。

四、管理缺失特徵

我們可能會經常碰見數據缺失的情況，有以下選項可以解決該問題：

刪除整行：這個選項比較激進，一般只有當數據集足夠大、缺少的特徵值數量很多而且預測風險大時才會選擇；
創建子模型來預測這些特徵值：第二個選項實現起來比較困難，因為需要確定一個監督策略來訓練每個特徵的模型，最後預測它們的值；
使用自動策略根據其他已知值插入這些缺失的特徵值：考慮到以上的利弊，這可能是最好的選項了。

from sklearn.preprocessing import Imputer

data = np.array([[1, np.nan, 2],
[2, 3, np.nan],
[-1, 4, 2]])

# 插入均值
imp = Imputer(strategy=mean)
print(Mean:
, imp.fit_transform(data))

# 插入中位數
imp = Imputer(strategy=median)
print(Median:
, imp.fit_transform(data))

# 插入眾數
imp = Imputer(strategy=most_frequent)
print(Mode:
, imp.fit_transform(data))
Mean:
[[ 1. 3.5 2. ]
[ 2. 3. 2. ]
[-1. 4. 2. ]]
Median:
[[ 1. 3.5 2. ]
[ 2. 3. 2. ]
[-1. 4. 2. ]]
Mode:
[[ 1. 3. 2.]
[ 2. 3. 2.]
[-1. 4. 2.]]

五、數據縮放和歸一化

一般的數據集是由不同的值組成的，可以從不同的分佈得到且具有不同的尺度，有時還會有異常值。當不同特徵的取值範圍差異過大時，很可能會對模型產生不良影響。因此我們往往需要先規範數據集。

我們來對比一下原始數據集和經過縮放和中心化的數據集：

from sklearn.preprocessing import StandardScaler from sklearn.datasets import load_iris import seaborn as sns import matplotlib.pyplot as plt sns.set()