写在最前面的话

最近看有些同学在找金融风控方面的工作。咱们课程涉及到的,主要是建模的过程。有些同学对整个业务框架不是很了解,所以总结了一下平时面试聊的比较多的一些点。

前九道题都是工作中一定会碰到的基本内容,如果有一些这方面的工作经验,基本上都会聊到。后面的因人而异,工作经验少的同学,面试官可能会重点看一下对演算法的理解,以及一些SQL能力。

PS:我们的风控项目是很精彩,也是我们的简历的核心内容,但是不要写的太过详细了,感觉像是在读一个完整的建模文档一样。最好是每一步写几个概括性的词语,细节留在面试的时候给面试官讲出来,不然面试的时候,就成了你背简历,他读论文......

第一题:你们公司的主要业务是什么?

  • 属于什么类型的贷款产品(现金贷、消费分期等等)
  • 客户一般来自什么渠道,是特定的群体(比如滴水贷只借给滴滴平台的司机),还是面向所有人的(比如常规的p2p公司)
  • 贷款额度、还款周期

第二题:你们的业务做得怎么样?

  • 通过率是多少
  • pd0、pd7、pd30 大概是多少

注意:这些都反应了你的模型做的如何,通过率越高,逾期率越低,模型越好。

ps:pd0指的是到期当天,pd1指的是逾期一天。

第三题:你都负责哪些业务?

  • 准入策略
  • 风控模型
  • 贷后监控

我们平台的学员,主要是风控模型这块。监控也是必须的,我们要时刻关心模型的通过率和贷后表现是否有异常,警惕欺诈。

第四题:你讲一讲你模型是怎么做的?

  • 确定y如何标记(逾期几天为1,几天为0,每种产品不一样,如果不知道,我建议你说15天为分割点,没什么大问题)
  • 前期数据准备(数据来自 HIVE?MySQL?MongoDB?Spark?)
  • 这里就可以接上学过的风控项目

包括各种演算法,建模技巧,基本上都是这里引出的。

第五题:你是标记客户好坏的?

  • 逾期天数作为标记好坏的依据
  • 因为本身样本不均衡,会偏向扩充坏人的数量(比如以pd1来标记好坏,坏人肯定比pd15会多很多)
  • 注意很多公司建模的时候,去除一部分灰色客户(比如去掉pd1~pd5的客户)

第六题:你做模型时用到了哪些数据源?

  • 征信数据
  • 运营商数据
  • 埋点数据
  • 平台自有数据
  • 用户手填数据

数据有很多,每家都各有不同,小心点也可能问你数据来自哪家平台哦。

ps:见过很多小型公司都喜欢用运营商数据,因为便宜,很多都是免费的。

第七题 模型的效果怎么样?

  • 测试集和跨时间验证集的KS和AUC是多少
  • 上线后一个月或者几个月后,模型的KS是多少,AUC是多少

第八题:你们模型是怎么部署上线的?

我经历过的几种上线方法可以分享给大家。

  • 最简单的,把评分卡每个区间加多少分减多少分,怎么做映射的逻辑,讲给开发小哥,他会帮你在线上写 if else
  • 生成一个pmml文件,给开发小哥调用
  • 公司自己做的决策引擎,或者是租的,自己写变数逻辑上线
  • 用flask或者Django自己写介面上线

第九题:上线需要注意什么?

  • 线上线下变数的逻辑必须完全一致,这是最重要的
  • 很多公司会做类似于AB test,两套模型竞争(一个champion做决策,和一个challenger空跑,也有可能champion 70%,challenger 30%)

第十题:推导一下逻辑回归 & XGBOOST

  • 对于别人可能有些难度,但我相信咱们平台的学员是完全没有问题的

第十一题:讲一下评分卡的分数映射公式

  • 推导主要是换底公式,详见评分卡文档
  • 如果现在刻度区间过大应该如何调整

这里的逻辑要搞清楚,不然通过率出了问题,连怎么调整都不知道

第十二题:手写一下SQL代码

一般演算法岗对SQL能力都是有要求的,稍加练习基本没有问题,这里放一个我们公司的笔试题。

  • 请取出,每个班级 所有课程 平均分大于80分的 学生名字

希望你们都是offer收割机~


推荐阅读:
相关文章