基于weka平台的个人信用评级模型设计与实现.docx

上传人:王** 文档编号:718438 上传时间:2023-12-24 格式:DOCX 页数:9 大小:29.07KB
下载 相关 举报
基于weka平台的个人信用评级模型设计与实现.docx_第1页
第1页 / 共9页
基于weka平台的个人信用评级模型设计与实现.docx_第2页
第2页 / 共9页
基于weka平台的个人信用评级模型设计与实现.docx_第3页
第3页 / 共9页
基于weka平台的个人信用评级模型设计与实现.docx_第4页
第4页 / 共9页
基于weka平台的个人信用评级模型设计与实现.docx_第5页
第5页 / 共9页
基于weka平台的个人信用评级模型设计与实现.docx_第6页
第6页 / 共9页
基于weka平台的个人信用评级模型设计与实现.docx_第7页
第7页 / 共9页
基于weka平台的个人信用评级模型设计与实现.docx_第8页
第8页 / 共9页
基于weka平台的个人信用评级模型设计与实现.docx_第9页
第9页 / 共9页
亲,该文档总共9页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于weka平台的个人信用评级模型设计与实现.docx》由会员分享,可在线阅读,更多相关《基于weka平台的个人信用评级模型设计与实现.docx(9页珍藏版)》请在优知文库上搜索。

1、基于weka平台的个人信用评级模型设计与实现目录第一章概论31.l课题背景31.2 实验目的31.3 问题与挑战3第二章数据准备与预处理42.1 数据采集42.2 数据预处理42.2.1 数据清理4222数据变换5第三章建立模型与分类实现53.1 贝叶斯分类方法53.2 基于决策树的方法53.3 支持向量机方法6第四章模型评估与比拟74.1 预测精确度及效率比拟74.1.1 预测精度比拟74.1.2 效率比拟74.2 模型应用分析与限制74.2.1 个人信用评估模型应用分析74.2.2 个人信用评估模型应用限制8第五章后记错误!未定义书签。5.1 任务分配95.2 个人收获10基于weka平台

2、的个人信用评级模型设计与实现第一章概论1.1 课题背景随着改革开放步伐的加快,世界经济全球化的融合,越来越多的中小型企业在机遇和挑战的夹缝中艰难求存,越来越多的工薪族在面对价格不断上涨的房子面前望而却步,贫富差距增加,贫困人口想要改变现状步履艰难。在这种状况下,贷款融资成为一个走向成功的突破口。然而,曾经普通人想要向贷款不啻于上青天。首先,大的国有银行通常只效劳大客户,商业贷款动辄上百上千万,对于中小型企业和个人,因为风险大,收益少,通常不在其考虑之列。其次,中小型城市迅速开展,但是城市底层,农村乡镇等地方,银行深入不到。最后,民间贷款(高利贷)现象纷乱,扰乱市场秩序。至此,许多小额贷款公司应

3、运而生,某些大企业,诸如阿里等大型企业也开始将目光放注于这土地,纷纷开启小额贷款。小额贷款(MiCroCredit)是以个人或家庭为核心的经营类贷款,其主要的效劳对象为广阔工商个体户、小作坊、小业主。贷款的金额一般为100O元以上,1000万元以下。然而,无论是对个人还是对信贷公司来说,贷款都不能盲目。贷款金额的大小,是否具有归还能力等等都是需要仔细考量的。1.2 实验目的为信贷公司建立一个信用等级评估系统,对贷款人的家庭状况,个人年收入,固定资产估值,教育水平,有无历史拖欠记录等属性进行分析,由此来对贷款人进行信用等级的划分,目前将其分为A,B,C三个等级,属于对应信用等级的贷款人具有相应的

4、贷款金额上限。1.3 问题与挑战对目前己有的贷款人数据的婚姻状况,个人年收入,固定资产估值,教育水平,有无历史拖欠记录等属性在Weka平台上按等级进行划分,每个人的属性都属于不同的等级,全方位综合的将其分类为不同信用等级,以此作为训练集估测出一个分类模型,对于今后需要贷款的人在此模型上进行评估以确定该贷款人的信用等级,信贷公司可依据此等级来确定对其的贷款金额的大小。第二章数据准备与预处理2.1 数据采集个人客户信用评级从婚姻、年收入、工作年限、固定资产估值、教育水平、拖欠记录次数等六个方面来分析借款人的信用状况。在实际的商业银行环境中,并非对所有的大客户的个人信息都有科学的管理,根据我国商业银

5、行的实际情况以及国外多家金融机构的信用评级情况,评估客户的信用情况要考虑四大主要因素:申请人的自然情况、职业情况、家庭情况、与银行的业务往来关系。这四大因素实际上是对信用评级体系的一种综合反映,具体包括以下因素:(1)自然情况:年龄、性别、婚姻状况、健康状况、文化程度、住宅类型、当前住宅居住时间:(2)职业情况:单位性质、职业、职位、职称、在当前单位的工作年限、月收入:(3)家庭情况:家庭人均月收入、家庭债务收入比例;(4)与银行的业务往来关系:账户、存款金额、业务往来、其他借款情况。由于实验时间和个人能力所限,经小组讨论后我们在四大主要因素中选取了婚姻、年收入、工作年限、固定资产估值、教育水

6、平、拖欠记录次数六个属性,其中婚姻划分三个等级,年收入、工作年限、固定资产估值、教育水平、拖欠记录次数均划分为四个等级,总共收集300分数据样本。2.2 数据预处理初步采集的数据很多是不完整的、有噪声的,所以在获取数据源后,需要进行数据的清洗和转换,使其符合数据挖掘算法的要求,并能够产生最为可靠和准确的结果。2.2.1 数据清理先对数据进行整理、对噪声数据进行处理,以增加数据挖掘结果的准确性。(1)对空值的处理:空值出现的可能性很多,主要是由于数据采集时缺乏样本数据产生。对空值的处理有很多方法,比方:最大频数填充、平均值填充、人工随机填充等。根据本数据样本的具体情况我们决定采用人工随机填充的方

7、法。(2)对噪声数据的处理:可以采用分箱、聚类、回归等。本实验采用分箱的方法对噪声数据进行处理。2.2.2 数据变换在所得的原始信息中绝大局部的字段值都是字符值,为了在数据处理中,占用更小的空间和取得更快的计算速度,要把字符型的数据转化为数值型的数据。第三章建立模型与分类实现3.1 贝叶斯分类方法贝叶斯分类器是一个统计分类器。它能够预测类别所属的概率。如:一个数据对象属于某个类别的概率。贝叶斯分类器是基于贝叶斯定理(以下将会介绍)而构造出来的。对分类方法进行比拟的有关研究结果说明:简单贝叶斯分类器(称为根本贝叶斯分类器)在分类性能上与决策树和神经网络都是可比的。在处理大规模数据库时,贝叶斯分类

8、器巴表现出较高的分类准确性和运算性能。设X为一个类别未知的数据样本。H为某个假设,假设数据样本X属于一个特定的类别C,那么分类问题就是决定P(HX),即在获得数据样本X时,H假设成立的概率。P(HIX)是事后概率,或为建立在X(条件)之上的H概率。例如:假设数据样本是水果,描述水果的属性有颜色和形状。假设X为红色和圆状,H为X是一个苹果的假设,因此P(HlX)就表示在X是红色和圆状时,确定X为一个苹果的H假设成立的概率;相反P(三)为事前概率,在上述例子中,P(三)就表示任意一个数据对象,它是一个苹果的概率,无论它是何种颜色和形状。与P(三)相比,P(H1X)是建立在更多信息根底之上的,而前者

9、那么与X无关。类似的,P(XlH)是建方在H根底之上的X成立概率,也就是说:假设X是一个苹果,那它是红色和圆状的概率可表示为P(XIH)。由于P(X),P(三)和P(XlH)的概率值可以从(供学习使用的)数据集合中得到,贝叶斯定理那么描述了如何雕吃)招QO和研婚Pl)计算获得的P(HIX)。有关的具体公式定义描述如下:P(X)根本贝叶斯分类器(naiveBayesianClaSSifierS)假设一个指定类别中各属性的取值是相互独立的。这一假设也被称为:类别条件独立(ClaSSConditionaIindependence),它可以帮助有效减少在构造贝叶斯分类器时所需要进行的计算量。贝叶斯算法

10、运行结果图:3.2 基于决策树的方法所谓决策树就是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性的测试,其分支就代表测试的每个结果,而树的每个叶结点就代表一个类别。树的最高层结点就是根结点。决策树的中间点通常用矩形表示,而叶结点常用椭圆表示。为了对未知数据对象进行分类识别可以根据决策树的结构对数据集中的属性值进行测试,从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。决策树可以很容易转换为分类规那么。基于J48算法的决策树运行效果图:基于J48算法的决策树:3.3 支持向量机方法支持向量机(SupportVectorMachine,简称为SVM)是一种监督式学习的方

11、法,可广泛地应用于统计分类以及回归分析。支持向量机属于一般化线性分类器。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。SVM的主要思想可以概括为两点:它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;支持向量机算法的优点:(1) SVM学习问题可以表示为凸优化问题,因此可以利用的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规那么的分类器和人工神经网络)都采用一种基于贪心

12、学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。(2) SVM通过最大化决策边界的边缘来控制模型的能力。尽管如此,用户必须提供其他参数,如使用核函数类型和引入松弛变量等。(3) 通过对数据中每个分类属性引入一个哑变量,SVM可以应用于分类数据。(4) SVM-般只能用在二类问题,对于多类问题效果不好。支持向量机算法(SVM)运行效果图:第四章模型评估与比拟4.1 预测精确度及效率比拟4.1.1 预测精度比拟我们对模型预测准确度进行如下判断:当利用模型对训练样本和确认样本中的客户进行分类时,对各种模型的误判率进行比拟,误判率越低模型的精确度越高。应该说,在个人信用评估模型中以误判率做为

13、衡量标准并不是最适宜的,因为两类错误所带来的损失往往是不同的,当两类损失时,以总损失最小为标准是衡量模型优劣最适宜的评价方法。具体到实际问题中,我们应比拟把好客户误判为差客户和把差客户误判为“好客户的损失。本文假定两类错误所造成的损失相同,以误判率做为标准。下列图为三种方法同时运行比照图从图中可以看出,贝叶斯分类器、J-48树、SVm三种方法进行分类的精确度分别为门.46黯69.95%,70.08%.贝叶斯分类器分类效果最好,为71.46%的精确度,也就是说误判率最低,所以对于现有数据而言,贝叶斯分类器较为理想。比照分析来看,贝叶斯分类器基于概率的思想,在处理大规模数据库时,贝叶斯分类器巴表现

14、出较高的分类准确性和运算性能。而svm一般在两类数据的分类处理上表现出很高的性能。4.1.2 效率比拟贝叶斯分类器分类完成的执行时间为0.01秒,J-48树的执行时间为0.06秒,SVm的执行时间为0.12秒,比照可以看出,BayeS分类器的执行效率最高,而SVm相对较差。4.2 模型应用分析与限制4.2.1 个人信用评估模型应用分析在一个个人信用评估模型建立起来之后,如何成功地实施这个模型会涉及很多问题:使用什么样的临界分值、是否完全依赖信用评估模型给出的分数以及如何对评估模型给出的分数进行修正等等。(1)临界分值的选择消费信贷申请客户的个人信用得分在什么区域内可以被认为是违约风险较小的客户

15、,从而批准该申请人的贷款申请,即如何确定违约客户与履约客户的的临界分值问题,是需要解决的重要问题。在信用评估领域的根木准那么之一就是信用评结果的稳定性,也就是说信用评估值在一定时间内要稳定地保持在同一水平上,即使个人情况发生一些变动,信用评估值的变动也不宜过大。也就是说,如果商业银行目前的贷款申请批准率为60%,那么新的个人信用评分模型的临界分值设置的贷款申请批准率下降或上升都是不妥的。因此,在实际操作中可以根据银行既有的贷款申请批准率来决定个人信用评分的临界分值。(2)个人信用评估值的人工修正由于我国商业银行在建立个人信用评估模型方面尚处于起步阶段,模型设计仍不够合理,消费信贷申请人的个人信

16、息缺失情况比拟严重,因此在个人信用评估模型给出某客户的信用评分后,专业的信贷审批人员可以根据己有的审批经验对客户的信用评分和放贷决策进行修正。当贷款审批人掌握了建立信用评估模型时所不具有的信息,如一个信用分数很高的申请人被卷入到某项经济诉讼中,或信用分数很低的申请人刚刚得到了一份新工作,在这种情况下,贷款审批人员可以根据实际情况对该申请人的信用评分进行重新评价。另外一种情况是一个客户按信用得分评价时会被拒绝但商业银行仍给予放贷。例如,如果授信机构长期来看,当地大学生可能是一个潜在的客户群体,即使按目前的状况他们的信用评分无法到达临界分值,但贷款审批人员仍可能批准其中的一局部人以期培养一些忠诚客户

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 桩基础

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!