《一种基于弱监督学习的线上借贷反欺诈方法.docx》由会员分享,可在线阅读,更多相关《一种基于弱监督学习的线上借贷反欺诈方法.docx(10页珍藏版)》请在优知文库上搜索。
1、O引近些年,随着网络通信技术的日新月异,人们能够高效收集到各种各样的信息,而各行各业也都已经完成了大量数据的积累。这些海地数据在极大改善和丰富人们生活的同时,不免让人们重新思考如何更好地进行信息组织、查找与分析.陵者应用场景越来越复杂,人工方式已经不再能够面对如此庞大的信息。基于这些变化,处理数据的机器学习(MaChineIearning)方法的地位迅速提升。目前,网络安全与金融经济等众多领域均非常关心机器学习相关的研究进展,其中网络借贷由了便捷性逐渐受到了广泛关注。但是,网络借贷中存在大量欺诈申请,若借贷人无法及时归还借贷金额,会造成借贷公司的经济损失。关于欺诈和欺诈活动有很多定义注册欺诈审
2、查员协会(AssociationofCertifiedFraudExaminers)将“欺诈”定义为通过故意滥用或误用雇佣组织的资源或资产来占用他人个人资产的行为.提到欺诈的主要成因是通过非法手段获取虚假的利益,将对经济、法律乃至人类道德价值观产生巨大影响.文献中提到涉及金钱和服务的几乎所有技术系统都可能受到欺诈行为的影响,如信用卡、电信、医疗保险、汽车保险和在线拍卖系统等。反欺诈本质上可以表示为一个二分类的异常检测问题,其中正常数据为一类,欺诈和异常数据为另一类.反欺诈模型建立的目的是将欺诈数据从所有数据中区分开来。但是,与传统的二分类问题相比,该领域所使用的数据有很大不同。反欺诈领域中,数
3、据集中的异常数据样例通常较少,而正常数据通常占据绝大部分,同时异常数据的某些或者全部特征通常与其他数据点差别较大。监督学习恻重于对有标签的数据进行训练,而时无标签样本逐一进行标记往往不现实,需要耗费大量的人力物力。面对这种标签数量缺失的情况,无监督学习应运而生。相比监督学习,无监督学习是一种无标签数据进行挖掘的学习模式。换而言之,无监督学习是在不需要给数据打标签的基础上进行数据挖掘工作。无监督学习的特点是在仅对其提供无标签的数据情况下,能够自动从这些数据中找出其潜在的类别规则,在学习完毕并经测试后应用到新的数据上。无监督学习模型在学习时并不知道其分类结果是否正确,也就是说没有标签告诉模型何种学
4、习是正确的。显然,如果只进行监督训练,使用少量“昂货的”有标记的样本而抛弃大量“廉价的”无标记的样本,是对数据资源的一种极大浪费。如果使用无监督学习,则数据集中的标签不能被有效利用,同时训练出的模型具有很大不确定性。针时这两种情况,目前已有研尢人员提出将少量的有标签样本与大量的无标签样本一起进行学习的策略,即弱监督学习算法.人们希里能铭使用弱监督学习的办法,将有限的标签信息和大量未标记数据中的信息有效利用起来,结合少量有标签数据和大量未标记数据中的信息,达到相应的分类和预测效果。在这个过程中,本文主要做出了以卜贡献:基于借贷数据集构成的关系图,实现基r图的半监督克法。利用在数据集上构建关系图,
5、并在关系图上用Iouvain算法进行社区发现,能够在大规模数据集上高效快速完成模型构建。其中,详细展示1.ouvain算法的实现、如何对社区发现结果进行标签传播以及使用K-S(ft衡量反欺诈模型的效果并调盛参数。本文旨在研究分析弱监停算法在互联网金融反欺诈领域的应用,选取网络借贷场景进行研究。结合理论和实证分析,在借贷数据集上构建申请信息的关系图:结合借贷欺诈场景中非数值型数据集的特征,设计相应的弱监督反欺诈模型:在标签数量不足的情况卜.,基于图进行半监督反欺诈模型的构建,并评估相应算法在该数据集上的表现.实验表明,该算法能够在实际应用中有效识别出欺诈.1相关工作最初的欺诈检测研窕主要集中在统
6、计模型,如逻辑网归和神经网络.1988年,神经网络就被用在金融预测领域。1995年,首先使用反向传播神经网络预测财务报表欺诈。2001年和2002年,用统计学习方法时欺诈检测进行了一些一般性分析。2006年,使用过程挖掘方法研尢医疗保健欺诈。而在近期的相关研究中,使用逻辑回归和支持向量机调查了一系列台湾公司的财务报表欺诈行为。利用人工免疫系统识别了一家匿名巴西银行的信用卡欺诈行为,使用决策树对欺诈用户建模,认为在模型评估上准确率和TPR并不适合这种问题,并以此改进了决策树的损失函数。利用集成学习分类器,对比朴素贝叶斯,支出向fi机和K近邻算法进行信用卡用户的反欺诈建模,发现集成学习的效果好于堆
7、一的算法。讨论计.算机智能和云计算在金融反欺诈系统上的运用。使用神经网络并引入用户地理位置信息建立反欺诈系统,效果能够提升80%.弱监督学习方法适用于在构建模型的过程中,使用的训练数据只有一小部分数据有标签,而大部分数据没有标笺,且只用这一小部分有标签的数据不足以训练一个好的模型的情况。弱监督学习是一个较为总括性的术语,涵盖了试图通过较弱的监督来构建预测模型的各种研究.其中,数据标签可能存在数量不足、粗粒度较大以及不够准确的情况。在针时数据集标签数量不足的半监督学习中,有两个基本假设,即聚类假设(C1.usterAssumption)和流形假设(ManifoIdAssumption)这两个假设
8、都是关于数据分布的前者假设数据具有内在的聚类(C1.uster)结构,处在相同聚类中的数据有较大的可能拥有相同的标记。根据该假设,决策边界应该尽可能通过数据较为稀疏的地方,从而避免把稠密的聚类中的数据点分到决策边界两侧.后者假设数据分布在一个流形上,处于一个很小的局部邻域内的示例具有相似的性质。这一设定反映J决策函数的局部“平滑”性.和聚类假设着眼整体特性不同,流形假设主要考虑的是模型的局部特性。这两个假设都揭示了数据分布信息与其类别标记相互联系.利用未标注数据中的数据分布信息,可以更好地找到样本点之间的关联和预估样本点的标签,从而提高模型性能。2方法设计1.OUVain算法是一种基丁模块度(
9、MOduIarity)的社区发现算法,在效率和效果上都表现较好,并且能够发现层次性的社区结构。算法优化的目标是圾大化推个图属性结构(社区网络)的模块度。IoUVain算法得到的社区结构是分值的,每一轮计算完成后得到的新图都是对一个大社区内若干细分社区发现的结果。这样的分丛结构得到的是每个网络的自然属性,使人们能够深入/解某个社区的内部结构和形成机制。同时,1.ouvain鸵法的性能较好,对图的大小几乎没有上限要求,并且能在迭代几轮后快速收敛,使得该算法有能力处理拥有百万级别以上节点的大型网络。1.ouvain算法主要包括两个阶段”第一阶段,不断遍历网络中的结点。假设每个节点为1个社区,N个节点
10、。初始化N个社区,尝试将雌个结点加入能膨使模块度提升最大的社区中,直到所有结点不再变化.第二阶段,处理第一阶段结果,将一个个小社区归并为一个超结点,重新构造网络。.算法不断迭代这两个步骤,直至所有子社区模块度相加值不再变化。模块度Q提出,能用来评估算法结果的好坏。模块度Q的公式定义为:_k.kt/、P=-4厂)2nImJ,其中图片代表节点连接节点i、j的边的权值:图片表示与节点i相连的所有边权值之和;图片为节点i所归属的社区:而图片为一个关于节点归属社区的函数,函数中两个变员相同时取值为1.反之为OoQ值的取值范闱为01,值越大,说明网络划分的社区结构准确度越高。首先,假设网络中每个节点归属于
11、个社区。对其中任节点i.计算将我并入相邻社区后整个网络Q值的变化Q:(2)找到Q值变化最大的社区(若计算得到图片为负,则不改变i的归属社区)。按照Q价增加的方向,将一个社团的节点不断移至另一个社团,直至Q函数达到峰值。当Q值不再发生变化,即将一个节点转移到网络内的另一个相邻社区不能带图片的提升时,此时网络内所有节点不再移动,得到的各个社区将作为新图的节点。当执行完I。UVain算法后,划分出若干个社区,其中每个社区可以看作是数据中的一个样体。到目前为止,需要对得到的社区中的节点进行分类,即为每个社区打上标签。根据社区发现算法的原理,所得到的最佳划分的每个子旗都代表一个社区,每个社区内部的标签应
12、该一致.根据每个子社区中有标签节点的标签时整个子社区进行标注。当存在标签为。的节点时,将子社区其他未标记数据标为0,如图1所示。图1标记过程示意1当存在标格为1的节点时,可以聘子社区其他未标记数据标为1,如图2所示O图2标记过程示意2当子社区中同时存在标签为0和标签为1的节点时,将子社区其他节点标为数量多的那方的标签,如图3所示。图3标记过程示意3实验验证3.1 数据集简介本实暗中使用的数据集为某银行的借贷数据集,数据集已经过脱敏处理,不会泄露客户个人信息.该数据集是一个非常典型的非数值型数据集,共有38个特征。除了Iabe1.特征用来表示每条数据的标签外,其余特征皆是字符串类型的数据.数据集
13、共有229407条数据,其中包含了大量无标签数据1.a据I为。,表示交易正常,共28171条数据:IabeI为1,表示交易存在欺诈中请,共2546条数据:Iabe1.为2和空,表示交易无法判断是否存在欺诈中请,共198690条数据3.2 模里评估指标KS值是一个常用来衡量风控模型优劣的指标,在模型中能够用区分预测正负样本分隔程度,因此#常适合用于评估反欺诈分类的效果。计算KS值时涉及到的各项指标、含义和计尊方法,如表1所示。我1模型评估相关指标描述指标含义计更方法TP(TruePositive)识别出的正例数直文标签为1,亍页测标签为1TO(TrueNegative)识别出的负例数真实标签为0
14、,预测标签为0FN(Fa1.seNegative)遗漏的正例数自实标签为1,预测标签为0FP(TruePositive)遗漏的负例数算实标签为0,强测标签为1召回率(TPR)所有正例中,识别出正例的比例TPTP+FN误判率(FPR)所有负例中,误判成正例的比例FPFP+TN漏判率(FKR)所有正例中,误判成负例的比例FNTP+FN特异度(TBR)所有负例中,识别出负例的比例TNFP+TNKS值的计算公式为:KS=TPR-FPR(3)KS值越大,说明模型区分正例和反例的效果越好3.3 实验性能利用NetWOrkX导出Neo4j数据库中的图。在数据库中为每种关系都建立边,因而存在两个节点之间有多条
15、边的情况。这里合并节点间的多条边,将关系图存储成无权图的格式.最终,所得无权图共含有197862条边。在关系图上运行1.ouvain算法,得到的最佳划分的模块度为0.9048执行完1.OUVain算法后,得到了关关系图的一个划分,对得到的社区中的节点进行分类,即为每个社区打上标签。标注过程结束后,在训练集对应的测忒系上评估预测结果,得到的KS值为0.446,混清矩阵如表2所示。表2IOUVain尊法性能教量O1O414161251235通过调整标签标记的方式来提高模型的性能。在标签标记过程中,当一个子社区中同时出现标签为1的节点和标签为。的节.点时,根据双方数量的多少来判断剩下节点的标签。现在改变这一判定标准,定义欺诈占比Fn_子社区巾标签为1的节点数(4)一子社区中标签为1的节点数+子社区中标签为。的节点政根据Fr可以制定更精细的标注方法。首先,分别统计每个子社区中的欺诈占比Fr.其次,设定划分基准rate.当Frrate时,子社区标签为1,否则标签为0。可知,当rate=05时,根据1和0的数量多少来判定标签,即式(3)中使用的方法得到的KS值为0.446通过改变rate的值,可以得到KS关于rate变化的曲线。根据图4,当rate设置在0.2时,得到的KS值最高.因此