台湾 || 语言: 大陆简体港澳繁體台灣正體

减少信用卡欺诈识别误杀：实现基于代价敏感的AdaCost演算法

雪花台湾 2019-07-01 13:14

我们平时训练一个辨别好坏的分类模型，会遇到两个棘手的问题：
1、类别不平衡，坏的样本量往往远远小于好的；2、错分代价不均等，漏杀和误杀带来的影响视具体问题完全不同。本文改写了sklearn中的AdaBoost的源码，使大家可以自由决定漏杀和误杀对分类器的影响。采用的样例数据是kaggle信用卡欺诈数据集。

代价矩阵

——让我们一起复习一下西瓜书第35-36页的内容

在一些场景下，当分类器将一个样本错分时，造成的后果是不同的，

有的时候需要保证正确：医生把患者误诊为健康比把健康人误诊为患者后果更严重；

有的时候需要保证全面：门禁系统宁可冤枉好人也不能漏掉坏人；

所以可以根据分类任务的领域知识设定一个代价矩阵：

相关文章