寫在最前面的話

最近看有些同學在找金融風控方面的工作。咱們課程涉及到的,主要是建模的過程。有些同學對整個業務框架不是很了解,所以總結了一下平時面試聊的比較多的一些點。

前九道題都是工作中一定會碰到的基本內容,如果有一些這方面的工作經驗,基本上都會聊到。後面的因人而異,工作經驗少的同學,面試官可能會重點看一下對演算法的理解,以及一些SQL能力。

PS:我們的風控項目是很精彩,也是我們的簡歷的核心內容,但是不要寫的太過詳細了,感覺像是在讀一個完整的建模文檔一樣。最好是每一步寫幾個概括性的詞語,細節留在面試的時候給面試官講出來,不然面試的時候,就成了你背簡歷,他讀論文......

第一題:你們公司的主要業務是什麼?

  • 屬於什麼類型的貸款產品(現金貸、消費分期等等)
  • 客戶一般來自什麼渠道,是特定的群體(比如滴水貸只借給滴滴平台的司機),還是面向所有人的(比如常規的p2p公司)
  • 貸款額度、還款周期

第二題:你們的業務做得怎麼樣?

  • 通過率是多少
  • pd0、pd7、pd30 大概是多少

注意:這些都反應了你的模型做的如何,通過率越高,逾期率越低,模型越好。

ps:pd0指的是到期當天,pd1指的是逾期一天。

第三題:你都負責哪些業務?

  • 准入策略
  • 風控模型
  • 貸後監控

我們平台的學員,主要是風控模型這塊。監控也是必須的,我們要時刻關心模型的通過率和貸後表現是否有異常,警惕欺詐。

第四題:你講一講你模型是怎麼做的?

  • 確定y如何標記(逾期幾天為1,幾天為0,每種產品不一樣,如果不知道,我建議你說15天為分割點,沒什麼大問題)
  • 前期數據準備(數據來自 HIVE?MySQL?MongoDB?Spark?)
  • 這裡就可以接上學過的風控項目

包括各種演算法,建模技巧,基本上都是這裡引出的。

第五題:你是標記客戶好壞的?

  • 逾期天數作為標記好壞的依據
  • 因為本身樣本不均衡,會偏向擴充壞人的數量(比如以pd1來標記好壞,壞人肯定比pd15會多很多)
  • 注意很多公司建模的時候,去除一部分灰色客戶(比如去掉pd1~pd5的客戶)

第六題:你做模型時用到了哪些數據源?

  • 徵信數據
  • 運營商數據
  • 埋點數據
  • 平台自有數據
  • 用戶手填數據

數據有很多,每家都各有不同,小心點也可能問你數據來自哪家平台哦。

ps:見過很多小型公司都喜歡用運營商數據,因為便宜,很多都是免費的。

第七題 模型的效果怎麼樣?

  • 測試集和跨時間驗證集的KS和AUC是多少
  • 上線後一個月或者幾個月後,模型的KS是多少,AUC是多少

第八題:你們模型是怎麼部署上線的?

我經歷過的幾種上線方法可以分享給大家。

  • 最簡單的,把評分卡每個區間加多少分減多少分,怎麼做映射的邏輯,講給開發小哥,他會幫你在線上寫 if else
  • 生成一個pmml文件,給開發小哥調用
  • 公司自己做的決策引擎,或者是租的,自己寫變數邏輯上線
  • 用flask或者Django自己寫介面上線

第九題:上線需要注意什麼?

  • 線上線下變數的邏輯必須完全一致,這是最重要的
  • 很多公司會做類似於AB test,兩套模型競爭(一個champion做決策,和一個challenger空跑,也有可能champion 70%,challenger 30%)

第十題:推導一下邏輯回歸 & XGBOOST

  • 對於別人可能有些難度,但我相信咱們平台的學員是完全沒有問題的

第十一題:講一下評分卡的分數映射公式

  • 推導主要是換底公式,詳見評分卡文檔
  • 如果現在刻度區間過大應該如何調整

這裡的邏輯要搞清楚,不然通過率出了問題,連怎麼調整都不知道

第十二題:手寫一下SQL代碼

一般演算法崗對SQL能力都是有要求的,稍加練習基本沒有問題,這裡放一個我們公司的筆試題。

  • 請取出,每個班級 所有課程 平均分大於80分的 學生名字

希望你們都是offer收割機~


推薦閱讀:
相关文章