謝邀,剛好之前收錄了一篇關於銀行欺詐風險預測模型的研究。現在摘錄一些分享給出來提供參考,內容大概如下:

機器學習是一種重要的金融科技創新手段,近年來在國內外金融機構和金融科技企業中被嘗試應用到風險防範、反欺詐等領域。在信用卡申請審批這一典型業務場景,應用機器學習技術可以進行欺詐風險管理並設計數據產品對異常客戶進行監控預警。區別於將機器學習技術應用到單一反欺詐規則制定的典型做法,通過嘗試從整體視角對欺詐風險進行評估,實現精準量化預測並以此作為應對欺詐風險的強有力手段。

整個智能模型組成包括客戶畫像、數據挖掘模型和決策引擎三個組成部分。數據挖掘模型是智能化的核心,客戶畫像為建模過程持續提供特徵輸入,決策引擎將模型輸出成果轉換為實際業務行動。通過結合傳統風險管控和社交網路分析技術,加工基礎維度信息和社交維度信息特徵指標組成反欺詐客戶畫像,並應用隨機森林等分散式機器學習演算法建立欺詐風險預測模型。

1、構造客戶特徵信息

分析信用卡進件審批數據,確定數據中包含四種角色,分別是申請人、申請人親屬、聯繫人和推廣人。在建模實施過程中將申請人角色作為社交網路的關鍵節點,把申請人、申請人親屬、聯繫人及推廣人這四種角色的行動電話、家庭電話、辦公電話的相同作為關係類型。建模過程中構建的社交網路包括780萬節點,2.33億條關係。

構建完成社交網路後,設計並計算一二階度、一二階欺詐數、一二階欺詐佔比、最短路徑等網路指標。從網路視角衡量欺詐風險的傳播,度反映節點關聯好友數量,最短路徑反映網路中節點間親密程度。此外,建模中的客戶基礎信息包括申請人年齡、手機號、單位電話、電子郵箱、學歷、年收入、職位等,針對這些信息需要進行結構化分解、離散化、頻度計算等數據預處理操作,共同構建特徵以用於後續模型的訓練和驗證。

2、建模方案設計

演算法選擇上分別選擇邏輯回歸(LogisticsRegression, LR),隨機森林(Random Forests, RF)。邏輯回歸是銀行風控領域的經典演算法,以此作為模型結果的標杆參考。隨機森林是一種集成學習演算法,利用多棵決策樹對樣本進行訓練並預測;通常單棵樹性能表現較弱,但進行組合之後能夠提供較好的分類性能,同時演算法穩定性較好。

3、建模結果分析

三組數據是在整合數據集上應用三種不同演算法,整體表現邏輯回歸演算法較弱,深度學習居中,隨機森林表現最優。結果表明目前模型輸入特徵與預測目標關聯性較好,並且總體特徵數量為數十個的量級,還不足以發揮深度學習海量特徵無監督優化選擇的特性,相比之下隨機森林、GBDT等集成學習演算法表現更為突出。

4、構建欺詐監控數據產品

針對信用卡申請反欺詐場景,設計專項數據產品對接相關業務系統。數據產品提供全國進件審批疑似欺詐情況分布圖,實時獲得所關注區域的欺詐進件分布、欺詐發展趨勢、欺詐比重等動態。另外,提供分地區信息概要、進件詳情、明細檢索和社交網路檢索等功能,能夠在系統頁面查詢基礎指標統計圖(手機和電話特徵分布)、不同模型輸出的欺詐風險概率值、進件基本信息、進件網路特徵、社交指標統計(一度、二度、最短路徑)等內容。


如果你對學習人工智慧和深度學習感興趣,可以訂閱我的頭條號,我會在這裡發布所有與演算法、機器學習以及深度學習有關的有趣文章。

(碼字不易,若文章對你幫助可點個贊~)


推薦閱讀:
相关文章