摘要:隨著互聯網在傳統金融和電子商務領域的不斷滲透,風控+互聯網的融合也對傳統的風控提出了新的要求和挑戰。以評分卡為例,互聯網形態下的評分卡需要面臨更多維數據、更實時數據、更異常數據的挑戰。因此,懂得互聯網業務下的風控評分卡已經成為互聯網風控從業人員的新要求

關鍵詞:風控;評分卡;互聯網金融;邏輯回歸;電子商務

引言:互聯網風控的評分卡概述

這兩年隨著互聯網電商業務和互聯網金融業務的興起,原本著力於銀行、證券、信託等傳統金融領域的風控職能的HC,在這兩大塊也越來越多,而互聯網自身獨特屬性的加入又給這個已經存在了近一百年的崗位賦予了新的外延與生命。

無論是風控職能中的什麼崗位,產品、策略、數據分析、模型等等,最終都是要跟業務掛鉤,而孕育風控崗位的金融業務又是一個天生以數據驅動的行業,這也就決定了風控天生的「數字」屬性,這個屬性無論是在傳統金融領域、新興的互聯網金融乃至更為廣泛的電商領域,都無法磨滅其數學的印跡。

「數據驅動業務」是風控的核心,無論是金融風控還是電商風控!數學是定量解決複雜問題最有效的工具,在做風控的過程中你會發現你遺失多年的概率論、矩陣都開始有了新的用武之地。

在當前的互聯網環境下,互聯網風控已經成為了一項數學、金融學、信息安全、管理科學、行為心理學等多學科交叉的複雜業務,以定量/定性分析的思維,使用傳統的經濟學分析範式,在橫向時間線上需要做到預知風險、監控風險和處置風險,在縱向流程線上做到發現問題、分析問題和解決問題

而作為風控最重要的工具之一「評分卡」自然而然就是這種套路的產物,所以作為風控從業者,看懂評分卡已經成為了風控從業人員的基本素質之一。本文以經典的邏輯回歸模型為主,完成一套標準評分卡構建。

樣本準備與數據處理

本文所使用數據來源於某平台某年度數十萬信貸樣本數據,為保證業務隱私業務指標與關鍵變數已做脫敏處理,僅用於展示評分卡構建過程。

樣本選取

選取一定時間周期內該平台上的信貸樣本數據(以人為維度),按照會員號尾號(0-9)切分的方式做隨機樣本集,最終選取訓練集17萬,測試集11萬,驗證集11萬。

為了更好表述樣本特徵,其中以逾期超過X天為bad樣本(label為1),逾期小於y天為good樣本(lable為0),中間模糊樣本暫不進入模型訓練。

具體以0-1樣本的劃分標準以實際業務為準,信貸業務中重點還是看貸後的遷移情況。

2.變數選取

基於選中的數十萬樣本,結合業務的經驗,選擇數百描述性變數,並對變數做進一步衍生工作。基於不同的業務形式有不同的變數選擇,每一個模型會有不同的樣式,具體需要結合對業務的理解進行模型構建。此處讀者可針對性的學習「特徵選擇」相關知識。

以下為模型選擇的一小部分變數截圖,部分敏感變數做脫敏處理。

3.數據處理

數據處理是模型構建之前最核心的也是最費工時的步驟,需要數據處理人員對於數據的來源、特點、欄位本質有著較為深入的理解,才能有效處理好數據,失去了意義的數據僅僅是數字而已。

3.1異常數據處理

異常數據指的是因為多種不可預知的原因(數據原因、樣本原因、技術原因、歷史原因)導致的不能建模數據,常見的主要指的是缺失值和極端值。

3.1.1 缺失值處理

這種情況在現實問題中非常普遍,尤其線上徵信數據因為徵信渠道覆蓋不全、超時、前期未取數等多原因經常會出現大批量的數據確實問題,這會導致一些不能處理缺失值的分析方法無法應用,因此,在評分卡模型開發的第一步我們就要進行缺失值處理。缺失值處理的方法,包括如下幾種:直接刪除含有缺失值的樣本;根據樣本之間的相似性填補缺失值;根據變數之間的相關關係填補缺失值。

3.1.2 極端值處理

缺失值處理完畢後,我們還需要進行異常值處理。異常值是指明顯偏離大多數抽樣數據的數值,比如個人客戶的年齡為0時,通常認為該值為異常值。找出樣本總體中的異常值,通常採用離群值檢測的方法。

3.2 探索性分析、變數處理和選擇

3.2.1 探索性分析

探索性分析有助於幫助我們對數據結構有較為直觀的認知,通過對已有的數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索,常用的探索性數據分析方法有:直方圖、散點圖和箱線圖等

3.2.2 變數處理

完成了數據異常處理之後並不是直接可以進模型的,需要對特定變數進行處理,如對定性變數進行量化(如婚姻狀態,並不能簡單的用枚舉值1、2、3、4代替)。我個人常用的方法主要有:

  1. 變數分箱(binning)是對連續變數離散化(discretization)的一種稱呼。信用評分卡開發中一般有常用的等距分段、等深分段、最優分段。如年齡,在外面的業務場景中年齡越小和年齡越大,違約概率都會偏大,所以這塊需要做好分箱處理
  2. WoE分析是對指標分箱、計算各個檔位的WoE值並觀察WoE值隨指標變化的趨勢。在進行分析時,我們需要對各指標從小到大排列,並計算出相應分檔的WoE值。其中正向指標越大,WoE值越小;反向指標越大,WoE值越大

3.2.3 變數選擇

我們會用經過清洗後的數據看一下變數間的相關性。注意,這裡的相關性分析只是初步的檢查,進一步檢查模型的VI(證據權重)作為變數篩選的依據。此處較簡單,在此不贅述。

總之,數據處理的過程是佔據整個標準評分卡構建的最大的工作量,整體的目標是:排除異常值對模型訓練的干擾,將所有變數進行量化處理,自變數對因變數有明顯的解釋性,變數之間無明顯相關性。

模型構建與評分卡轉換

  1. 模型構建

將處理好的變數進入模型,邏輯回歸模型較為簡單,訓練速度也很快,實現邏輯回歸模型的工具也很多,在此不多贅述,讀者可以根據自己的興趣選擇合適的實現方法。

邏輯回歸的表達形式如下:

p=frac{1}{1+e^{-(alpha+Sigmaeta*x)}}

p代表一個樣本是bad樣本的概率,P越大bad概率越大,x指的是進入模型的各個變數,β為該變數的係數,通過上述表達式,我們知道如果某個變數的β為正值,那麼x越大則p越大,代表這個變數越大越壞。

通過工具,我們可以計算出一組訓練集對應的變數,下為展示截圖:

部分進入模型的變數效果

評分卡轉換

上為邏輯回歸模型的構建過程,而邏輯回歸模型可以通過以下步驟轉化為評分卡。

由邏輯回歸的基本原理,我們將客戶違約的概率表示為p,則正常的概率為1-p。因此,可以設:

此時,客戶違約的概率p可表示為:

根據邏輯回歸計算可得:

評分卡設定的分值刻度可以通過將分值表示為比率對數的線性表達式來定義,即可表示為下式:

其中,A和B是常數。式中的負號可以使得違約概率越低,得分越高。通常情況下,這是分值的理想變動方向,即高分值代表低風險,低分值代表高風險。

式中的常數A、B的值可以通過將兩個已知或假設的分值帶入計算得到。通常情況下,需要設定兩個假設:

(1)給某個特定的比率設定特定的預期分值;

(2)確定比率翻番的分數(PDO)

根據以上的分析,我們首先假設比率為x的特定點的分值為P。則比率為2x的點的分值應該為P-PDO。代入式中,可以得到如下兩個等式:

假設我們期望x=(bad/good)=5%時的分值為50分,PDO為10分(即每增加10分bad/good比例就會縮減一半),代入式中求得:B=14.43,A=6.78,這個時候bad/good=10%時score=40

評分卡刻度參數A和B確定以後,就可以計算比率和違約概率,以及對應的分值了。通常將常數A稱為補償,常數B稱為刻度。

則評分卡的分值可表達為:

式中:變數x1…xn是出現在最終模型中的自變數,即為入模指標。由於此時所有變數都用WOE轉換進行了轉換,可以將這些自變數中的每一個都寫(βiωij)δij的形式:

式中ωij 為第i行第j個變數的WOE,為已知變數;βi為邏輯回歸方程中的係數,為已知變數;δij為二元變數,表示變數i是否取第j個值。上式可重新表示為:

此式即為最終評分卡公式。如果x1…xn變數取不同行並計算其WOE值,式中表示的標準評分卡格式,基礎分值等於(A?Bβ0);由於分值分配公式中的負號,模型參數β0,β1,…,βn也應該是負值;變數xi的第j行的分值取決於以下三個數值:

總的來說整體的思想就是根據每個變數的係數進行評分轉換,好的變數我們給與高的評分,壞的變數給與低分或者負分。

本文構建的評分卡如下(本文的odds設為50):

從上表來看,評分卡的表達形式是很簡單的,如學歷是碩士加幾分這樣。但是很多人就以為評分卡是拍腦袋出來的,這是個非常錯誤的想法,每一個變數的評分多少都是基於模型的結果,所以在此也給部分風控從業者小小的提示一下:評分卡是一個科學的度量工具,不是拍腦袋盲人摸象就能出來的,只知其一不知其二是很可怕的事情。

本文樣本中在驗證集上最終構建的評分卡結果表現如下:

不同區間對應人數及違約率

X軸代表不同的評分區間,柱狀圖代表驗證集下該評分區間的人數,折線圖代表該評分區間的bad比例,我們發現柱狀人數在整體評分區間下基本呈現正態分布,整體bad佔比隨著評分上升違約率不斷下降,證明這是一個較為行之有效的評分卡,可以利用評分卡的結果做更多的策略應用(為保護業務數據隱私,已隱藏)。

上述是根據模型訓練出來的結果在驗證集中的表現情況,當有一個新的進件申請時,參考上述評分卡,可以對新進件有一個直觀的評分,並基於模型表現可以大概預計新進件的違約概率,以此在業務決策中給出決定性的意見。

結論與展望

本文以經典的邏輯回歸模型為主,結合實際業務數據構建一套評分卡模型,以此來幫助更好的理解評分卡模型的構建流程,以期能夠幫助風控從業者更好的理解評分卡的本質、目的和應用。

更進一步的,我們在實際的風控業務應用中,評分卡模型的思路除了傳統的申請信用平分之外,已經拓展到更多的業務場景,關鍵是在於定義好尋求的目標target,如是否團伙、是否羊毛黨、是否DDOS攻擊等等,並結合對目標的理解尋覓適合的變數。

用評分卡這種通用的方法可以解決在風控領域絕大多數拍腦袋的問題,真正的以數據來驅動業務。當然評分卡的模型可以是多種的,讀者在了解評分卡的本質基礎上可以嘗試做更多試探性的研究。

參考文獻

[1]Wood S, Reynolds J. Leveraging locational insights within retail store development? Assessing the use of location planners』 knowledge in retail marketing[J]. Geoforum, 2012, 43(6):1076-1087.

[2]Maio V D, Prodan R, Benedict S, et al. Modelling energy consumption of network transfers and virtual machine migration [J]. Future Generation Computer Systems, 2016, 56(C):388-406.

[3]Murthi, B. P S, Steffes. Developing a measure of risk adjusted revenue (RAR) in credit cards;market: Implications for customer relationship management[J]. European Journal of Operational Research, 2013, 224(2):425-434.

[4]丁衛東. 信用評分卡在電商小微企業信貸中的應用[D]. 浙江大學, 2016.

[5]鞠勐. N銀行Y支行個人貸款信用風險管理研究[D]. 南京師範大學, 2015.


推薦閱讀:
相关文章