之前在一些機器學習交流羣裡面有看見,一些朋友想找金融風控方面的工作,但是網上對這個領域的解析比較少,今天給大家講解一下這個神祕的領域。

其實所謂的信貸風控,就是有人缺錢想貸款,來平臺借錢。平臺不知道這個人會不會借了錢就跑路,於是產生了相應的風控。整個貸款業務流程其實內容很多,從資金方運營,數據採集到放款和催收。但是從風控的角度來看,基本上可以歸結為以下幾個部分。

從圖裡可以看見,在整個貸款業務裏,風控所涉及到的只有:

【數據採集、反欺詐、策略、模型、催收】

其中數據採集會涉及到埋點和爬蟲技術,基本上業內的數據都大同小異。免費的運營商數據,和安卓可爬的手機內部信息(app名稱,手機設備信息,部分app內容信息),以及收費的徵信數據,外部黑名單之類的。還有一些特定場景的現金貸和消費金融會有自有的數據可供使用,這裡就不多說了。

反欺詐引擎主要包括兩個部分,反欺詐規則反欺詐模型。大部分的公司都使用的是反欺詐規則,這也是主要提倡的。一個原因是欺詐標籤不好得到,很難做監督學習的訓練。還有一個原因是傳統的機器學習對欺詐的檢測效果很差。因為所謂欺詐,就是一些黑產或者個人將自己包裝成信用良好的用戶,進行借款後失聯或者拒不還錢。既然都偽裝成了好客戶,基於風控人員主觀思考建立的統計模型,又怎麼可能有好的效果。但是經過一段時間的實驗,這一塊其實用深度學習反而有意想不到的效果,基本思想可以理解為,簡單評分卡解釋性強,帶來的壞處就是可以被逆向破解,而複雜模型的黑箱操作雖然解釋性差,卻有一定的安全性,尤其是搭配了在線學習等動態手段之後。後面到這一塊會具體說。

規則引擎其實就是我們常說的策略,主要通過數據分析手段統計不同欄位各個區間的壞賬率(badrate),然後得到篩選後信用較好的一批特定人羣進行放款。這一塊主要有單變數分析和一些關鍵指標的計算和監控,後面會講到。

風控模型就是我們這個專欄的主要內容了。當然前面提到的反欺詐模型也是重點之一。只其中包含了A/B/C卡。模型演算法之間並沒有顯著區別,而是根據其發生的時間點不同而進行劃分的(貸前/貸中/貸後),也就是y產生的方式不一樣。通常信貸領域都是用逾期天數來定義y。A卡可以用客戶歷史逾期天數最大的天數。B卡則可以多期借款中逾期最大的一次。C卡因為用途不同有不同的建立方法。比如你們公司有內催,有外催。外催肯定是回款率低,單價貴的。那麼就可以根據是否被內催催回來定義y。

催收是風控的最終手段。這個環節可以產生很多對模型有幫助的數據。比如催收記錄的文字描述、觸達率、欺詐標籤等等。並且壞賬的客戶會被列入黑名單。其實只要是能被催回來的,都不是壞賬。但是很多公司為了保險起見,逾期超過一定時間的客戶,即使被催回來,也會被拉入黑名單。

接下來會先講一下策略涉及的數據分析技巧、單變數分析方法等,以及一些業內比較好用的特徵工程方法。這一塊講完之後就會正式進入風控演算法的內容。

推薦閱讀:

相關文章