欺诈是一项超过十亿美元的业务,而且每年都在增长。普华永道2018年全球经济犯罪调查发现,在被调查的7,200家公司中,有约一半(49%)经历过某种形式的欺诈。而相关第三方数据调查显示,消费金融及互联网金融公司的坏账中接近50%来自于欺诈。其中,身份冒用类占比例最高,其次是团伙欺诈以及恶意违约等。另外,多头借贷行为也非常猖獗。反欺诈简单来说,就是为了找出「羊群中的狼」,其必要性和紧迫性不言而喻。
用于欺诈检测的技术可分为两大类:统计分析和人工智慧。
统计分析技术的例子包括:
- 数据预处理 - 用于检测、验证、纠正和填充缺失或不正确数据;
- 计算各种统计参数 - 例如平均值、分位数、性能指标、概率分布等。例如,用户通话记录的平均呼叫时长,每月平均呼叫次数和账单支付的平均延迟天数;
- 时间序列分析 - 预测变化趋势与风险;
- 聚类分析 - 查找数据之间的模式和关联性;
- 匹配演算法 - 检测交易或用户行为中的异常。
用于欺诈管理的主要人工智慧技术包括:
- 数据挖掘 - 对数据进行分类、聚类和分段,并自动查找数据中潜在的模式和规则,包括与欺诈相关的模式;
- 专家系统 - 规则的形式来检测欺诈的专业知识;
- 机器学习 - 自动识别欺诈特征;
- 神经网路 - 从样本中学习可疑模式,并在未来检测它们。
其他人工智慧技术,如链接分析、贝叶斯网路、决策理论和知识图谱等,也可用于欺诈检测。
欺诈的新手段和方式层出不穷,仅依靠单一或简单的方法远远不够。上述方法和技术已经在业界获得一定程度的应用,业界对于相关技术的认可度和重视度也在与日俱增。
事实证明,充分利用统计分析、机器学习技术乃至复杂的人工智慧模型等,能够极大地提升公司的反欺诈水平,降低欺诈损失。
在下文中,笔者将主要介绍机器学习技术的反欺诈应用,讨论建立反欺诈机器学习模型的流程以及分享一些提升模型效果的思路。
01 机器学习技术的反欺诈应用
实际业务中,常见的反欺诈手段主要包括:黑名单法、反欺诈规则系统以及机器学习技术。前两种方法实施简单,且可解释性较强,但往往存在滞后性严重和准确度低的问题。而建立反欺诈模型,特别是基于机器学习的反欺诈模型,可以通过多样的演算法来准确地识别欺诈属性,降低欺诈风险。