編者導讀

現在很多玩金融的朋友,參與行業聚會的時候基本都會提起大數據智能風控這個概念。概念很火,但是其中的運行邏輯和操作流程,大家卻不一定十分清楚。尤其是對於AI構建風控模型這一塊的技術原理,因其高門檻而將大部分業務線人員堵在門外。

今天,我以「知識圖譜」為核心,向大家簡單介紹大數據建模過程中涉及到的一些主要技術原理。

大數據和人工智慧發展原因

目前, 中國信用體系不夠成熟, 85%的人沒有足夠的信用記錄從傳統銀行進行借貸。因此P2P行業將傳統銀行覆蓋不了的人群定為目標客戶,發展迅速但還不足以和傳統銀行形成競爭關係。

由於缺乏個人信用記錄,P2P公司需要額外的數據對個人信用情況進行評估。為了使整個申請流程高效,大數據和人工智慧的應用至關重要。

知識圖譜(Knowledge graph)

知識圖譜是一個語義的網路,其中每個結點是一個實體,每條邊代表一種關係。與很多傳統圖的區別在於,知識圖譜強調多種類型的實體都可包含在其中。任何兩個實體只要他們之間存在一種關係,都可以在圖中關聯起來。知識圖譜是從關係的角度,提供一種有效的分析工具。

知識圖譜的應用十分廣泛。反欺詐模型中里涉及很多關係分析,知識圖譜作為有效的工具可以解決此類問題。用Google進行關鍵字搜索,從知識圖譜中會溢出相關信息。除此之外,知識圖譜在推薦系統的應用也越來越受歡迎,很多電子商務公司都用它做商品推薦。

作為一個完整的關係網路,知識圖譜需要可靠的工具來存儲網路信息。針對知識圖譜存儲的資料庫有很多,下圖列出了資料庫存儲公司排名及發展情況。

知識圖譜的關鍵技術

知識圖譜推理(Knowledge Graph Reasoning)是技術的核心。即給定實體與關係,推斷出新的關係。通常有三種類型,基於邏輯的推理,基於概率的推理(例如,distributed representation)和基於前兩種的混合方法(Hybrid approach)。

案例一:反欺詐(Anti-fraud)

反欺詐是整個金融和P2P行業的重點,它是公司盈利或虧損的關鍵點。反欺詐的本質是關係的分析,已定義的反欺詐規則有上百條,其中有些是基於複雜的邏輯關係。例如以下規則:

多個申請人共同使用同一電話號碼,則這些申請人可列為懷疑對象。

不屬於同一公司的申請人,卻有同樣的辦公電話號碼,則可列為懷疑對象。

申請人的有關用戶曾被拒絕貸款,則需重點查看此申請人的歷史信息。

檢測三角關係(cycle detection)

知識圖譜可快速檢測出申請人之間的三角關係,阻止一些代辦公司,團體組織的惡意欺詐。而傳統的方式很難進行關係檢測,例如在關係型資料庫中做數據查詢,則需要大量表的合併,在實際中無法應用。

矛盾關係檢測(inconsistentrelationship)

在一個圖庫里有些關係是存在矛盾的。如左圖:申請人和申請人1是父母關係,申請人1和申請人2也是父母關係,但申請人和申請人2卻是配偶關係。這樣一個矛盾的關係網說明申請人有異常,需要更多的背景調查。準確的判斷用戶關係,需要複雜的知識推理過程。目前的技術只支持簡單的知識推理方式,提前定義所有的邏輯規則,並在整個圖庫中運行一遍,便可檢測出異常用戶。

可疑團體檢驗(suspicious group)

利用知識圖庫,也可檢驗組團式欺詐。如圖,多個用戶共享很多屬性,則這些用戶可能存在問題。

通過案例設計反欺詐規則

知識圖譜這種展示實體和關係的方式,對業務人員更為直觀易懂。例如:已確定一欺詐申請,可用在API上檢驗此案件與其他案件的關係。這種通過案例,設計規則流程的方式更為直觀有效。

快速變化的關係結構

如果在短時間內,關係的結構發生很大的變化,則需要做異常檢測。這一種較難但實用的反欺詐規則,難點在於如何把某個時間段的關係結構存儲在時間圖譜上。

反欺詐系統框架

整個流程分為特徵分析,模型選取還有利用分數進行判斷。首先,我們將選取的特徵數據,運行所有反欺詐規則所得的返回值,還有用戶基本信息和網上獲取的行為記錄,進行整合組成上百維的特徵組。

然後,將之前整合的數據帶入模型庫得出分數。模型庫包括常見的模型,例如線性回歸、決策樹、隨機森林、支持向量機、神經網路和深度神經網路等。這個分數代表一個反欺詐的風險評估,用來支持決策。例如:在1-100的分數體系里,當分數介於80-100之間,則判斷此申請人欺詐概率較大,可免去人工審核直接拒絕申請。隨著系統的不斷優化,分數的準確性提高,希望可以減少人工參與,達到整個流程的自動化。

案例二:失聯管理

貸款人消失,所有聯繫方式無效時稱之為失聯客戶。 通常利用數據挖掘的方法,進行潛在聯繫人查找。例如:對借款人近期通話記錄分析排序,進行關係預測。除一度擴展外,也可進行二度,三度擴展。但結果以指數倍增長,此時進行排序與關係預測面臨較大挑戰。

排序方法

簡單排序法:通話時長排序、通話頻次排序

高級排序法:利用機器學習方法得出排序分數

關係預測

選取特徵數據,帶入模型中得出預測關係。一般有六關係類型,如父母關係、朋友關係、同事關係等。準確的關係預測在很多領域都有實際應用,例如精準營銷。

知識圖譜其他應用

聚類分析、精準營銷、許可權控制、人力資源等等

面臨的挑戰

非結構化數據:如何將文字、圖像、音頻等非結構化數據轉化為結構化數據,使之可以直接進入模型做出預測。此部分涉及機器學習、自然語言處理和數據挖掘技術。

消歧分析:如何讓系統自動判斷,名字相似的幾個公司是否是同一家公司。

推理問題:如何從已有的信息推測出潛在的信息。

樣本不足:大數據,小樣本導致難以建立模型 。例如反欺詐模型,申請人很多但欺詐樣本非常少,沒有足夠的訓練數據建立模型。


推薦閱讀:
相关文章