台湾 || 语言: 大陆简体港澳繁體台灣正體

評分卡模型構建介紹（一）

雪花臺灣 2019-04-08 22:10

用戶屬性有千千萬萬個維度，而評分卡模型所選用的欄位在30個以下，那麼怎樣挑選這些欄位呢？
評分卡模型採用的是對每個欄位的分段進行評分，那麼怎樣對評分卡進行有效的分段呢？
最關鍵的，怎麼對每個欄位的每個分段進行評分呢？這個評分是怎麼來的？

評分卡構建流程

變數選擇

選擇上基本幾個方面：客戶的物理屬性；貸前、貸中、貸後的表現，比如逾期、餘額等；實際應用中，很多根據業務背景，構造特徵變數（或者稱為衍生變數），形如：(aX+bY)/z。

因變數：一般逾期90天以上的客戶標記為0（壞客戶），其他為1（好客戶）。

變數篩選

單變數：歸一化，離散化，缺失值處理

多變數：降維，相關係數，卡方檢驗，信息增益，決策樹等。

行業經常使用基於IV值進行篩選的方式。

IV（Information Value）

IV的全稱是Information Value，中文意思是信息價值，或者信息量。求IV值得先求WOE，這裡又引入WOE的概念。

WOE（Weight of Evidence）證據權重

對於WOE，首先把變數分組（怎麼分後面說），然後對於每個組i，對於第i組有：

相關文章