智能反欺诈演算法概览

自20世纪末开始，由于反欺诈领域的数据量大和时效性高的要求，机器学习技术逐步实现应用。

1997年，弗拉基米尔·科基纳基（vladimir Kokkinaki）提出了一种基于决策树的模型，其子节点代表不同变数，分叉路径代表不同的条件。

2000年，乔恩·本特利（Jon Bentley）使用基因演算法搭建了一套逻辑规则，它可以根据最大发生概率将交易行为划分为可疑交易和非可疑交易。

2002年，理查德·博尔顿（Richard Bolton）和戴维·汉德（David Hand）利用对等组分析和断点分析，从账户和个体角度判断行为链上的欺诈。

1997年，何塞·多隆索罗（José Dorronsoro）基于神经网路演算法设计了一套在线欺诈跟踪系统。

2002年，山姆·梅斯（Sam Maes）将贝叶斯网路应用到信用卡领域。

以上发现都属于有监督机器学习（Supervised Machine Learning），需要大量带有标签的历史数据来训练模型。

但是，每一个标签都代表已经发生过的欺诈事件，在实际应用中，银行往往没有足够的标签。

目前，风控领域使用的反欺诈手段主要是规则系统，基于业务专家经验以及过去发生的欺诈事件建立规则。

然而，这种方法建立的规则系统通常无法做到及时更新，因此误报率较高，同时，维护费用高昂，因此，金融领域迫切需要应用先进技术构建新的智能反欺诈模型。

目前，适用于银行反欺诈的机器学习和深度学习演算法主要包括有监督机器学习和无监督机器学习两个方面。

SKM演算法

种子k均值聚类演算法（Seeded k-means Clustering Algorithm），简称SKM，是利用好坏用户人群区分度较高的特点，将用户人群分为两类，使同一类中的用户相似度较高，而不同类间用户的相似度较低。

选取用户数量少的类作为异常客户，将每个异常用户到正常用户类中心点的距离记作「用户异常评分」，评分越高，用户越可疑。

聚类分析擅长从多个维度综合分析用户之间的差异，分布在极值两端的变数对模型结果的影响大，运算效率高，结果可解释性好，但是容易忽略单个指标的决定性作用，且划分结果不够精确。

既然Python的库能对大数据进行分析，那为何还要用Hadoop和Spark?