台湾 || 语言: 大陆简体港澳繁體台灣正體

異常檢測的特徵選擇方法

雪花臺灣 2019-06-11 05:34

在上一章我們提到可以用遺傳演算法進行特徵選擇，這章就來講一講。

在構建分類模型時，經常需要對自變數進行篩選。特別是在異常檢測領域，特徵選擇是非常重要的，它會讓模型輸出業務上感興趣的異常點，而不是一些無關異常。通常情況下，離羣點往往會體現在幾個具體的特徵維度上，有效的特徵選擇既能降低模型訓練時間，又能保證模型精度。

本文主要介紹三種不同的特徵選擇方法，如下所示。

(1) 評分卡方法，該方法是風控行業常用的模型，利用信息價值（Information Value，以下簡稱IV）和證據權重（Weight of Evidence，以下簡稱WOE）選擇合適的特徵；

(2) 遺傳演算法，利用優化演算法來選擇特徵，選擇標記為1，不選標記為0，通過選擇最優個體、組合交叉和變異，使適應度函數達到最優解，進而得到合適的特徵；

(3) 峯度檢驗，通過對數據自身的分佈和統計量來估計該特徵是否包含異常值。

以上提到的三種方法，前兩種方法要依賴於部分標籤樣本，適合半監督或者監督學習，而第三種方法則完全不需要，適合無監督學習。

IV

IV可以用來衡量自變數的預測能力。類似的指標還有信息增益和基尼係數，IV的計算是以WOE為基礎的。首先來介紹WOE。

WOE是對原始變數的一種編碼形式，要對一個變數進行編碼，首先要對它進行離散化（分箱處理）。分組後，對於第 i 組，WOE的計算公式如下所示。

pleft( y_{i}
ight)

相關文章