当一个做反欺诈的小屌丝听到如下问题:

黄姐姐,我们最近想拓展业务,能帮我做好人回捞吗?

黄姐姐,怎么评价我们的评分卡在总体申请人上的表现,而不仅仅是授信用户?

黄姐姐,我怎么知道我们的评分卡拒绝的对不对?会不会有很多误伤?你可以帮我改善评分卡的判别能力吗?

黄姐姐表示,臣妾做不到啊!但奈何客户爸爸的需求是第一生产力,于是,黄姐姐开始了对拒绝推断的研究和应用探索,今天过来交个作业。

拒绝推断(reject inference)的提出,是因为在建立申请评分卡(以下简称A卡)时,我们是用已授信用户作为建模样本的,而没有考虑那些被拒绝用户的好坏状态,这样就导致我们的A卡总是「使用部分样本数据去估计总体」,因而存在参数估计的偏差。拒绝推断就是为了推断出拒绝用户所缺失的这个状态,从而更准确地评估评分卡的表现,甚至改善评分卡的判别能力。

我们先来看一些业界成熟的拒绝推断方法[1]。

一重新分类法(Reclassification)

重新分类的核心思想对被拒绝用户做好坏属性的重新划分,举个最简单的例子,当一个被拒绝的申请者具有一些负面特征,比如通过人行征信,我们发现其在过去3个月内有逾期行为,则可以把他划分成坏人。

二分散打包法(Parceling)

分散打包是指根据前面的「状态值」给被拒绝用户一个随机的好坏状态,假设好人概率P(G)=0.9,那么使得被拒绝用户的好人概率是0.9,坏人概率是0.1。还有一种处理方法是在「状态值」上设定一个临界值,使得大于该值的为好人,反之为坏人。

三重新加权法(Reweighting)

重新加权法没有将被拒绝用户加入到样本中,而是将样本中现存的处于相同「状态值」分数段的好坏借款人的权重同步增加,增加幅度是分数段中被拒绝用户的数量。举个例子,假设某分数段中有90个好人,10个坏人和50个被拒绝用户,每个好坏借款人都被赋予150/100=1.5的权重,所以看起来好像该组有135个好人和15个坏人。

特别说明,以上三种方法,仅重新分类法和分散打包法有被拒绝用户的特征,重新加权法的个体特征与原始样本相同。

四展开法(Augmentation)

在展开法中,我们试图计算「状态值」,这里的状态值通常指好人概率。我们先假设存在一个统计量Z,有相同Z值的被拒绝用户和授信用户的好人概率相同。数学上表示如下:

这里,A = accept,表示授信用户组;R = reject,表示被拒绝用户组;我们可以建立「授信/拒绝」评分卡来区分样本中谁被接受谁被拒绝。Z是这个评分卡的分数。为了更符合实际,我们假定被拒绝用户组中的好人比例小于授信用户的好人比例,且随z变动,即:

得到被拒绝用户的好人概率后,我们就可以使用分散打包法或重新加权法来增加样本容量了。

五外推法(Extrapolation)

外推法的依据是存在一些特征X,在授信用户和被拒绝用户之间没有任何重叠。然后我们构造函数g,使其将好人概率P(G)和x关联起来。设授信用户的区域为XA,被拒绝用户的区域为XR,则函数g可表示为:

接下来,我们将这个函数外推为g~,有:

以上各种拒绝推断方法,究其本质,都是对每个或者部分已拒绝的申请者给出好坏状态值,增加样本总体的大小,从而减小参数估计偏差。从这个意义上来看,拒绝推断实际上是一个典型的缺失数据问题(missing data problem)[2]。

但不得不说的是,以上方法大都是在一定程度上假设了好人概率P(G)在授信用户和被拒绝用户之间的关系,这种假设存在的最大问题是被拒绝用户并非是「随机缺失」(missing not at ramdom,MNR),而是因为在某个或某些维度上体现出了坏人属性。因此,如不随机放一些被拒绝用户进来,则无法被实践检验。而如果实践中,我们随机放一些拒绝用户进来,可以想像,必然会造成一笔不小的损失(例如,我们放进来一批学历低&失业&多头借贷用户)。实际应用中,我们可以通过第三方数据去做评估。第三方数据可能来自于企业之间的数据交换,也可通过购买获得。也就是,通过手机号/设备指纹/身份证等关键字去查询那些被我们拒绝的用户在其他平台的借贷行为表现如何。尽管如此,通过第三方数据的补充,我们能够增加的样本依然非常有限,这也是为什么,拒绝推断在评分卡构建中仍然占有一席之地的原因。


参考资料:

[1]Lyn C.Thomas, Consumer Credit Models: Pricing, Profit, and Protfolios, P71-74

[2] A.J. Feelders, An Overview of Model Based Reject Inference for Credit Scoring, 2003


推荐阅读:
相关文章