编者导读

现在很多玩金融的朋友,参与行业聚会的时候基本都会提起大数据智能风控这个概念。概念很火,但是其中的运行逻辑和操作流程,大家却不一定十分清楚。尤其是对于AI构建风控模型这一块的技术原理,因其高门槛而将大部分业务线人员堵在门外。

今天,我以「知识图谱」为核心,向大家简单介绍大数据建模过程中涉及到的一些主要技术原理。

大数据和人工智慧发展原因

目前, 中国信用体系不够成熟, 85%的人没有足够的信用记录从传统银行进行借贷。因此P2P行业将传统银行覆盖不了的人群定为目标客户,发展迅速但还不足以和传统银行形成竞争关系。

由于缺乏个人信用记录,P2P公司需要额外的数据对个人信用情况进行评估。为了使整个申请流程高效,大数据和人工智慧的应用至关重要。

知识图谱(Knowledge graph)

知识图谱是一个语义的网路,其中每个结点是一个实体,每条边代表一种关系。与很多传统图的区别在于,知识图谱强调多种类型的实体都可包含在其中。任何两个实体只要他们之间存在一种关系,都可以在图中关联起来。知识图谱是从关系的角度,提供一种有效的分析工具。

知识图谱的应用十分广泛。反欺诈模型中里涉及很多关系分析,知识图谱作为有效的工具可以解决此类问题。用Google进行关键字搜索,从知识图谱中会溢出相关信息。除此之外,知识图谱在推荐系统的应用也越来越受欢迎,很多电子商务公司都用它做商品推荐。

作为一个完整的关系网路,知识图谱需要可靠的工具来存储网路信息。针对知识图谱存储的资料库有很多,下图列出了资料库存储公司排名及发展情况。

知识图谱的关键技术

知识图谱推理(Knowledge Graph Reasoning)是技术的核心。即给定实体与关系,推断出新的关系。通常有三种类型,基于逻辑的推理,基于概率的推理(例如,distributed representation)和基于前两种的混合方法(Hybrid approach)。

案例一:反欺诈(Anti-fraud)

反欺诈是整个金融和P2P行业的重点,它是公司盈利或亏损的关键点。反欺诈的本质是关系的分析,已定义的反欺诈规则有上百条,其中有些是基于复杂的逻辑关系。例如以下规则:

多个申请人共同使用同一电话号码,则这些申请人可列为怀疑对象。

不属于同一公司的申请人,却有同样的办公电话号码,则可列为怀疑对象。

申请人的有关用户曾被拒绝贷款,则需重点查看此申请人的历史信息。

检测三角关系(cycle detection)

知识图谱可快速检测出申请人之间的三角关系,阻止一些代办公司,团体组织的恶意欺诈。而传统的方式很难进行关系检测,例如在关系型资料库中做数据查询,则需要大量表的合并,在实际中无法应用。

矛盾关系检测(inconsistentrelationship)

在一个图库里有些关系是存在矛盾的。如左图:申请人和申请人1是父母关系,申请人1和申请人2也是父母关系,但申请人和申请人2却是配偶关系。这样一个矛盾的关系网说明申请人有异常,需要更多的背景调查。准确的判断用户关系,需要复杂的知识推理过程。目前的技术只支持简单的知识推理方式,提前定义所有的逻辑规则,并在整个图库中运行一遍,便可检测出异常用户。

可疑团体检验(suspicious group)

利用知识图库,也可检验组团式欺诈。如图,多个用户共享很多属性,则这些用户可能存在问题。

通过案例设计反欺诈规则

知识图谱这种展示实体和关系的方式,对业务人员更为直观易懂。例如:已确定一欺诈申请,可用在API上检验此案件与其他案件的关系。这种通过案例,设计规则流程的方式更为直观有效。

快速变化的关系结构

如果在短时间内,关系的结构发生很大的变化,则需要做异常检测。这一种较难但实用的反欺诈规则,难点在于如何把某个时间段的关系结构存储在时间图谱上。

反欺诈系统框架

整个流程分为特征分析,模型选取还有利用分数进行判断。首先,我们将选取的特征数据,运行所有反欺诈规则所得的返回值,还有用户基本信息和网上获取的行为记录,进行整合组成上百维的特征组。

然后,将之前整合的数据带入模型库得出分数。模型库包括常见的模型,例如线性回归、决策树、随机森林、支持向量机、神经网路和深度神经网路等。这个分数代表一个反欺诈的风险评估,用来支持决策。例如:在1-100的分数体系里,当分数介于80-100之间,则判断此申请人欺诈概率较大,可免去人工审核直接拒绝申请。随著系统的不断优化,分数的准确性提高,希望可以减少人工参与,达到整个流程的自动化。

案例二:失联管理

贷款人消失,所有联系方式无效时称之为失联客户。 通常利用数据挖掘的方法,进行潜在联系人查找。例如:对借款人近期通话记录分析排序,进行关系预测。除一度扩展外,也可进行二度,三度扩展。但结果以指数倍增长,此时进行排序与关系预测面临较大挑战。

排序方法

简单排序法:通话时长排序、通话频次排序

高级排序法:利用机器学习方法得出排序分数

关系预测

选取特征数据,带入模型中得出预测关系。一般有六关系类型,如父母关系、朋友关系、同事关系等。准确的关系预测在很多领域都有实际应用,例如精准营销。

知识图谱其他应用

聚类分析、精准营销、许可权控制、人力资源等等

面临的挑战

非结构化数据:如何将文字、图像、音频等非结构化数据转化为结构化数据,使之可以直接进入模型做出预测。此部分涉及机器学习、自然语言处理和数据挖掘技术。

消歧分析:如何让系统自动判断,名字相似的几个公司是否是同一家公司。

推理问题:如何从已有的信息推测出潜在的信息。

样本不足:大数据,小样本导致难以建立模型 。例如反欺诈模型,申请人很多但欺诈样本非常少,没有足够的训练数据建立模型。


推荐阅读:
相关文章