特徵選擇總結之過濾式特徵選擇（附代碼）——單變數過濾式特徵選擇方法總結

單變數過濾方法主要是基於特徵變數和目標變數之間的相關性、互信息等計算出來的，總結如下：

1、最簡單的方差選擇法

from sklearn.feature_selection import VarianceThreshold result=VarianceThreshold(threshold=0.5).fit_transform(data.data) #然後根據各個特徵的方差的結果來刪除方差太小的特徵 #如果嫌人工看麻煩可以使用selectkbest或者selectprecentile來自動選擇

這種方法雖然簡單，但是最大的問題是將特徵的重要性完全歸結於統計學上的方差，然而問題在於在實際的業務場景中，可能方差很小的特徵攜帶了非常重要的信息。舉個例子，比如正負樣本非常不均衡的二分類問題中，正樣本有10個，負樣本有10000個，我們的建模目標是盡量用模型將這10個正樣本分辨出來，假設我們存在某個特徵恰好正樣本在該特徵上取值為1，負樣本在該特徵上取值為0，則這個特徵的方差會很小，但是確具有重要的意義，另外，方差的計算還會受到異常值的影響所以使用前可能還需要事先對異常值進行相應的處理。所以，個人一般傾向於使用這種方法來篩選方差為0或者極其接近於0的特徵。

2、覆蓋率

from《美團機器學習實戰》，主要是針對類別型特徵來計算的一個衡量指標，假設樣本個數一共有10000個，某個類別特徵f1一共有「A」，「B」，「C」三種，並且分別有8000個「A」，1950個「B」以及50個「C」，則「A」，「B」，「C」的覆蓋率分別為：8000/10000,1950/10000,50/10000。類似的，覆蓋率小的特徵更容易被剔除。

#假設f1為類別型特徵則： from collections import Counter Counter(f1) #即可計算出不同的類別特徵的數量，然後分別除以總樣本數量即可

這個其實簡單說就是根據類別特徵中各個子類別的數量來進行處理，比如100000個樣本某些類別出現的次數很小例如就5次或者10次，這這些出現次數很少的類別可以合併為「other」類，這樣進行onehot展開的時候一方面能降低高基數類別特徵的onehot展開之後維度太高的問題，一方面能夠降低過擬合的風險。是高基類類別特徵的一種比較常規常見而且簡單好理解的處理方式，問題在於到底出現多少次算是「少數類」要合併到「other」中去？這個目前沒有什麼明確的標準，個人經驗是根據分佈圖的情況來人工嘗試劃分幾次然後比較最終的模型評價的結果。