《《机器学习基础及应用》教案第7课使用朴素贝叶斯算法训练分类器.docx》由会员分享,可在线阅读,更多相关《《机器学习基础及应用》教案第7课使用朴素贝叶斯算法训练分类器.docx(9页珍藏版)》请在优知文库上搜索。
1、课题使用朴素贝叶斯算法训练分类器课时2课时(90min)教学目标知识技能目标:(1)掌握先验概率与后验概率的计算方法(2)理解朴素贝叶斯算法的原理与流程(3)了解朴素贝叶斯算法的常见问题及解决方法(4)掌握朴素贝叶斯算法的Skleam实现方法(5)能够使用朴素贝叶斯算法训练分类模型(6)能够编写程序,使用朴素贝叶斯模型进行分类预测素质目标:(1)养成分析问题、事前规划的良好习惯(2)了解中国新技术的发展动向,增强民族自信心和自豪感教学重难点教学重点:先验概率与后验概率的计算方法,朴素贝叶斯算法的原理与流程,朴素贝叶斯算法的SIdearn实现方法教学难点:使用朴素贝叶斯算法训练分类模型;能够编写
2、程序,使用朴素贝叶斯模型进行分类预测教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务,提前了解朴素贝叶斯算法的相关知识【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】要求学生扫码观看“贝叶斯算法的历史背景”视频,提出以下问题:(1)关于贝叶斯算法,数学家贝叶斯最初提出的观点是什么?(2)贝叶斯算法的数学原理是怎样的?(3)贝叶斯算法的数学表达式是怎样的?【学生】思考、举手回答传授新知【教师
3、】通过学生的回答引入要讲的知识,介绍朴素贝叶斯算法的基本原理、朴素贝叶斯算法的Sklearn实现等知识5.1 朴素贝叶斯算法的基本原理【教师】提出以下问题,随机邀请学生进行回答朴素贝叶斯算法和贝叶斯算法有什么区别?*【学生】聆听、思考、回答【教师】总结学生的回答朴素贝叶斯算法的基础是贝叶斯算法。贝叶斯算法最初是一种研究不确定性的推理方法,不确定性常用贝叶斯概率表示。贝叶斯概率是一种主观概率,对它的估计取决于先验知识的正确和后验知识的丰富和准确。因此,贝叶斯概率常常会根据个人信息的不同而发生变化。例如,假设1班和2班即将进行一场拔河比赛,不同人对胜负的主观预测可能不同,但基本都会根据两班以前的比
4、赛战况进行预测,那么两班以前的h匕赛战况就是一种先验知识。如果两班以前的比赛胜负次数是9:1,那么贝叶斯概率就认为I班获胜的概率是02如果又获取到另一个先验知识,1班有两名主力因受伤不能参加,则贝叶斯概率可能认为I班获胜的概率是0.8。可见,虽然是一种主观概率,但贝叶斯概率按照相关先验知识对事件进行推理是一种合理的方法.5.1.1 先验概率和后验概率在一个空间中,事件A发生的概率用P(八)表示;在事件A发生的条件下,事件B发生的概率用P(BIA)表示。那么,P(八)就是先验概率(PriOrProbability),口目则称作事件B的后验概率(posteriorprobability)0后验概率
5、的计算公式为P(6A)J4B)P(八)例如,经典的抛硬币实验,当实验发生一定次数后,整个样本空间中出现正面(F)与反面(R)的瞬都趋近于0.5。如果一碘3枚硬币,那么,总共会出现FFF,FFR,FRF,FRR,RRR,RFF,RFR,RRF)8种情况,每种情况出现的概率为l8现在,用A描述同时抛出3枚硬币时第一枚硬币出现正面的事件,第一枚硬币出现正面的情况有4种,分别是FFF,FFR,FRF,FRR),因此,概率为P(八)=8;用B描述硬币出现反面的事件,抛出3枚硬币出现反面的情况共有7种,分别是FFR,FRF,FRR,RRR,RFFfRFR,RRF那么,事件A与事件B的交集为FFR,FRF,
6、FRR,共有3种情况,概率为P(AlB)=3/8因此,在事件A发生的条件下,事件B发生的概率,即事件B的后验概率为P(BIA) =P(A B) 3/8 3P(A)4/8由于 P(A f6) = P(8P(B)=皿也P(B)则有尸(8A)=P(AlB)P(B)因此有A)P(AIB)P(B)P(A)P(八)5.1.2 朴素贝叶斯算法的原理与流程1.朴素贝叶斯算法的原理在机器学习中,分类任务就是预测某个样本属于某个类别的过程,预测时需要从已有的数据集中找到相关规律,然后根据规律进行判定。朴素贝叶斯算法找规律的原理是根据数据集中的已有数据得到先验概率,然后求解待测样本属于每个类别的后验概率,哪个类别概
7、率高就将新样本判定为哪个类别。下面根据后验概率的公式,进一步进行推理。假设数据集中有I个特征和两个类别标签,特征用X表示,两个类别分别用c和G表示。则两个类别的先验瞬分别为P(G)和P(G),样本属于类别G和G的后验瞬分别为P(CJx) =P(XIC)P(G)P(C2x) =P()P(XlG)P(G)Pa)计算得到的结果中,哪个概率大,就将新样本划分为哪个类别。现在,将数据集进行扩展,如果数据集中有多个特征(用司,王,;表示各特征)和多个类别标签(用G表示某个类别).那么,样本属于某个类别的后验概率为Ds.、PCX1,v2,zIC)P(C)P(Gl%,%,E)=f、尸(X,X2,x)对于同一个
8、数据集来说,每个类别的后验概率的分母P(Xl出为)都是相同的。因此,只需要除分子P(E,Ic)P(G)的大小即可。计算分子Pg2,IG)P(C)的值时,朴素贝叶斯算法做了一个假设,即数据集中所有特征相互独立,特征之间不存在依赖关系,因此下面的等式成立.P(X,为,/IG)P(G)=P(KlG)P(X21G)P(flIG)P(G)而PalC)P(S)-P(XflIG)P(G)中每一项的值都可以从数据集的样本中获得,因此,可以计算出尸(XilC)P(v2IC)尸(怎IG)P(C)的值。【教师】随机邀请学生回答以下问题:朴素贝叶斯算法中的朴素指的是什么?【学生】聆听、思考、回答【教师】总结学生的回答
9、可见,朴素贝叶斯算法是基于贝叶斯算法与特征条件独立假设的分类算法,其中朴素”的含义就是假设所有特征之间相互独立.2.朴素贝叶斯算法的流程使用朴素贝叶斯算法训练分类器的流程如下。()设”=何,%为一个待分类样本,内,苍,尤为样本的特征。(2)有类别集合C=G,。2,GJ.(3)分别计算每个类别的后验概率P(GlX),P(GU),P(CJ%),即等价于计算P(X1IC1)PU2IG)P(X)IlG)P(Cl)P(KlC2)P(x2C2)PKlC2)P(C2),tfP(EICm)P(Wlg)P区ICHf)P(Ct)的值。(4)如果P(GIX)=rnaxP(C1x),P(GI刈,P(C,I切,则XWG
10、.【例5-1某商家为了分析顾客是否要购买新引进的平板电脑,收集了14名客户的信息,如表5-1所示。试使用朴素贝叶斯算法进行计算,判断新客户(年龄30,收入中等,是学生,信用一般)是否购买该平板电脑。【教师】通过多媒体展示“购买平板电脑的客户信息表”表格,介绍相关知识表5“购买平板电脑的客户信息表客户编号年龄(岁)收入是否为学生信用是否购买平板电脑130高否否240中等否T是540低是T是640低否好否730-40低是好是830中等是一般否940中等是一般是1140中等否好否【解】数据集中每个样本有4个特征,分别为年龄、收入、是否为学生和信用;类别标签共有两个,分别为会购买平板电脑和不会购买平板
11、电脑,分别用G和G表示。判定新客户是否会购买平板电脑是一个二分类问题,使用朴素贝叶斯算法计算的过程如下。(1)计算每个类别属性的先验概率。先验概率的计算方法为每个类别的样本数量除以数据集中的样本总数量。购买平板电脑的先验概率为P(G)=W14;不购买平板电脑的先验概率为P(G)=5/14。(2)计算新客户在每个类别中的后验概率.新客户(年龄30,收入中等,是学生,信用一般)购买该平板电脑的后验概率为P(Gl年龄V30,中等,学生,一般)等价于计算P(年龄30IG)尸(中等IG)P(学生IG)P(一般IG)P(G)“的值.其中P(年龄V30IG)表示购买平板电脑的客户中年龄小于30岁的客户比例,
12、查数据集表中的数据可知次年龄V3IG)=2/9。同理,其他的数据也可以通过查表得到,于是有p(年龄30IG)P仲等IG)P伴生IG)P(一般G)P(G)=2/94/96/96/99/140.028新客户(年龄30,收入中等,是学生,信用一般)不购买该平板电脑的后验概率为P(Gl年龄30,中等,学生,一般)等价于计算“P(年龄30G)P(中等G)P(学生Cz)P(一般Cz)P(G)的值。查数据集表中的数据可得p(年龄30g)p(中等IG)p(学生IG)(一般IG)P(G)=3/52/51/52/55/140.007(3)比较两个值的大小.由于().028大于0.007,故判定新客户会购买该平板电
13、脑。3.朴素贝叶斯算法的特点【教师】随机邀请学生回答以下问题:朴素贝叶斯算法有什么优点和缺点?【学生】聆听、思考、回答【教师】总结学生的回答朴素贝叶斯算法的优点:逻辑简单、易于实现,算法的复杂性较小;算法比较稳定,具有较好的健壮性;对小规模的数据表现很好,能处理多分类任务;对缺失数据不太敏感,常用于文本分类;虽然概率估计可能是有偏差的,但人们大多关心的不是它的值,而朝E列次序,因此有偏差的估计在某些情况下可能并不重要。朴素贝叶斯算法的缺点:很多实际问题中,特征之间相互独立这个假设并不成立,如果在特征之间存在相关性,会导致分类效果下降。5.1.3朴素贝叶斯算法的常见问题及解决方法朴素贝叶斯算法在
14、实际应用时常会遇到以下几个需要解决的问题。1 .零概率问题在使用朴素贝叶斯算法解决实际问题时,很可能会遇到某个特征的概率为O的现象。例如,例5-1中,如果要预测的新客户的属性值为(3()年龄40,收入中等,是学生,信用一般),则不购买平板电脑的概率计算如下。(。2130年龄40,中等,学生,一般)一P(30年龄401g)p(中等IG)p(学生IG)P(一般IG)P(C2)=0/52/51/52/55/14=0可见,计算公式中只要有一项为0,其值必定为0.显然,概率为0的类别肯定是所有类别中概率最小的类别,但零解问题其实是因为数据集中某个特征属性值的样本没有出现造成的,不能因为概率是0,就将这个类别排除,这是不合理的。【教师】随机邀请学生回答以下问题:如何解决零概率问题?*【学生】聆听、思考、回答【教师】总结学生的回答为解决零概率问题,科学家提出了使用分子加I,分母加特征个数的方法估计各个类的后脸概率,这个方法称为拉普拉斯平滑。使用拉普拉斯平滑判定属性值为(30年龄4。,