當一個做反欺詐的小屌絲聽到如下問題:

黃姐姐,我們最近想拓展業務,能幫我做好人回撈嗎?

黃姐姐,怎麼評價我們的評分卡在總體申請人上的表現,而不僅僅是授信用戶?

黃姐姐,我怎麼知道我們的評分卡拒絕的對不對?會不會有很多誤傷?你可以幫我改善評分卡的判別能力嗎?

黃姐姐表示,臣妾做不到啊!但奈何客戶爸爸的需求是第一生產力,於是,黃姐姐開始了對拒絕推斷的研究和應用探索,今天過來交個作業。

拒絕推斷(reject inference)的提出,是因為在建立申請評分卡(以下簡稱A卡)時,我們是用已授信用戶作為建模樣本的,而沒有考慮那些被拒絕用戶的好壞狀態,這樣就導致我們的A卡總是「使用部分樣本數據去估計總體」,因而存在參數估計的偏差。拒絕推斷就是為了推斷出拒絕用戶所缺失的這個狀態,從而更準確地評估評分卡的表現,甚至改善評分卡的判別能力。

我們先來看一些業界成熟的拒絕推斷方法[1]。

一重新分類法(Reclassification)

重新分類的核心思想對被拒絕用戶做好壞屬性的重新劃分,舉個最簡單的例子,當一個被拒絕的申請者具有一些負面特徵,比如通過人行徵信,我們發現其在過去3個月內有逾期行為,則可以把他劃分成壞人。

二分散打包法(Parceling)

分散打包是指根據前面的「狀態值」給被拒絕用戶一個隨機的好壞狀態,假設好人概率P(G)=0.9,那麼使得被拒絕用戶的好人概率是0.9,壞人概率是0.1。還有一種處理方法是在「狀態值」上設定一個臨界值,使得大於該值的為好人,反之為壞人。

三重新加權法(Reweighting)

重新加權法沒有將被拒絕用戶加入到樣本中,而是將樣本中現存的處於相同「狀態值」分數段的好壞借款人的權重同步增加,增加幅度是分數段中被拒絕用戶的數量。舉個例子,假設某分數段中有90個好人,10個壞人和50個被拒絕用戶,每個好壞借款人都被賦予150/100=1.5的權重,所以看起來好像該組有135個好人和15個壞人。

特別說明,以上三種方法,僅重新分類法和分散打包法有被拒絕用戶的特徵,重新加權法的個體特徵與原始樣本相同。

四展開法(Augmentation)

在展開法中,我們試圖計算「狀態值」,這裡的狀態值通常指好人概率。我們先假設存在一個統計量Z,有相同Z值的被拒絕用戶和授信用戶的好人概率相同。數學上表示如下:

這裡,A = accept,表示授信用戶組;R = reject,表示被拒絕用戶組;我們可以建立「授信/拒絕」評分卡來區分樣本中誰被接受誰被拒絕。Z是這個評分卡的分數。為了更符合實際,我們假定被拒絕用戶組中的好人比例小於授信用戶的好人比例,且隨z變動,即:

得到被拒絕用戶的好人概率後,我們就可以使用分散打包法或重新加權法來增加樣本容量了。

五外推法(Extrapolation)

外推法的依據是存在一些特徵X,在授信用戶和被拒絕用戶之間沒有任何重疊。然後我們構造函數g,使其將好人概率P(G)和x關聯起來。設授信用戶的區域為XA,被拒絕用戶的區域為XR,則函數g可表示為:

接下來,我們將這個函數外推為g~,有:

以上各種拒絕推斷方法,究其本質,都是對每個或者部分已拒絕的申請者給出好壞狀態值,增加樣本總體的大小,從而減小參數估計偏差。從這個意義上來看,拒絕推斷實際上是一個典型的缺失數據問題(missing data problem)[2]。

但不得不說的是,以上方法大都是在一定程度上假設了好人概率P(G)在授信用戶和被拒絕用戶之間的關係,這種假設存在的最大問題是被拒絕用戶並非是「隨機缺失」(missing not at ramdom,MNR),而是因為在某個或某些維度上體現出了壞人屬性。因此,如不隨機放一些被拒絕用戶進來,則無法被實踐檢驗。而如果實踐中,我們隨機放一些拒絕用戶進來,可以想像,必然會造成一筆不小的損失(例如,我們放進來一批學歷低&失業&多頭借貸用戶)。實際應用中,我們可以通過第三方數據去做評估。第三方數據可能來自於企業之間的數據交換,也可通過購買獲得。也就是,通過手機號/設備指紋/身份證等關鍵字去查詢那些被我們拒絕的用戶在其他平臺的借貸行為表現如何。儘管如此,通過第三方數據的補充,我們能夠增加的樣本依然非常有限,這也是為什麼,拒絕推斷在評分卡構建中仍然佔有一席之地的原因。


參考資料:

[1]Lyn C.Thomas, Consumer Credit Models: Pricing, Profit, and Protfolios, P71-74

[2] A.J. Feelders, An Overview of Model Based Reject Inference for Credit Scoring, 2003


推薦閱讀:
相關文章