《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx

上传人:王** 文档编号:1169404 上传时间:2024-04-12 格式:DOCX 页数:5 大小:72.37KB
下载 相关 举报
《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx_第1页
第1页 / 共5页
《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx_第2页
第2页 / 共5页
《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx_第3页
第3页 / 共5页
《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx_第4页
第4页 / 共5页
《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx》由会员分享,可在线阅读,更多相关《《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx(5页珍藏版)》请在优知文库上搜索。

1、课题使用分类算法处理莺尾花数据课时2课时(90min)教学目标知识技能目标:(1)认识分类算法(2)理解朴素贝叶斯算法(3)理解决策树分类算法素质目标:(1)能熟练运用机器学习算法解决日常生活中的数据分析问题(2)培养自主学习意识,提升实践操作能力教学重难点教学重点:分类算法、朴素贝叶斯算法和决策树分类算法教学难点:使用SparkMLlib的分类算法处理数据教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务请大家回顾上一节课所学知识,并简

2、单了解什么是分类算法。【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:什么是分类算法?【学生】思考、举用答传授新知【教师】通过学生的回答引入新知一、分类算法概述【教师】利用多媒体展示“分类算法的工作原理”图片,并讲解分类算法的相关知识分类算法通常用于将事物打上一个标签,分类结果为离散值。分类算法的工作原理是先确定一个分类函数或模型(类似于数据样本中的分界线),然后对输入的新数据进行预测,即根据分界线对新数据进行分类,如图5-17所示。图5-17分类算法的工作原理【小提示】图5-17中,实心的正方形和圆表示带有标签的训练数据;分界线表

3、示经过训练后获得的分类函数或模型;空心的正方形和圆表示输入的新数据。SparkMLIib提供了多种分类算法用于解决二分类、多分类和回归分析等问题。(1)解决二分类问题的分类算法包括逻辑回归模型、决策树分类算法、随机森林分类算法、朴素贝叶斯算法、支持向量机等。(2)解决多分类问题的分类算法包括逻辑回归模型、决策树分类算法、随机森林分类算法、朴素贝叶斯算法、一对多分类算法等。(3)解决回归问题的分类算法包括线性回归模型、决策树回归模型、随机森林回归模型等。接下来,以朴素贝叶斯算法和决策树分类算法为例,介绍SParkMiJib分类算法的使用方法。二、朴素贝叶斯算法【教师】讲解朴素贝叶斯算法的相关知识

4、朴素贝叶斯(navieBayes)算法简称NB算法,它是一种基于贝叶斯定理的分类算法,它的主要思想是在已知类别的情况下,通过计算某个属性出现的概率,来确定该属性对于这个类别的重要性,并将其应用于分类任务中。该算法的工作原理如下。(1)统计训练数据中不同类别的先验概率,即每个类别在训练数据中出现的频率。(2)对于要分类的新样本,计算其在每个类别下的后验概率,即给定特征下该样本属于某个类别的(3)选择最大后验概率对应的类别作为预测结果。NB算法的基本格式如下。NaiveBayes(featuresCol,IabeICoLpredictionCol,probabilityCol,FawPredict

5、ionCol,smoothing,mode)Type,thresholds,weightCol)其中,参数featuresCol茄獭入特征列的名称;参数IabelCol表示标签列的名称,默认值为label;参数predictionCol表示预测结果的列名,默认值为prediction;参数probabilityCol(可选)表示U的名称,默认值为probability;参数rawPrediclionCol(可选)表示存储原始预测结果列的名称;参数smoothing表示平滑参数,默认值为LO;参数modelType表示模型类型,可选值包括multinomial(多项式朴素贝叶斯)和bemoull

6、i(伯努利朴素贝叶斯),默认值为multinomial.【教师】通过例子,帮助学生掌握使用NB菖法对文本数据进行分类的方法【例5-8使用NB算法将Spark安装目录下的“datamllibSamPIe_libsvm_data.txt”文件数据分为0和1两大类。读取文本数据创建DataFrame,输出DataFrame中的数据如图5-18所示。然后,使用NB算法对文本数据进行分类,输出的预测结果及预测准确率如图5-19所示。hadoopbogon-$pysparkfrompyspark.ml.classificationimportNaiveBayesfrompyspark.ml.evaluat

7、ionimportMulticlassClassicationEvaluator僦取文本数据创建DataFrame data = sc.read.fonnat(libsvm).load(file:/usr/local/spark/data/mllib/sample_libsvm_data.txt)IlabeXlfaturslI .l(692,127,128,129.1I l.l(692,158.159,16.lI 1.81(692.124.125.126.1I l.I(692,152.153,154.II 1.el(692,151,152,153.II .l(692.129,13,131.lI

8、 l.l(692,158,159,16.lI l.l(692i99,l,ll,.lI e.el(692.154.155.156.II .l(692,127,128,129.II l.(692.154,15S.156. II e. el(692,153,154,155.II e.el(692,(151,152,153. II l.el(692.129,13,131.lI .l(692,(154,155,156.lI l.l(692,15,151,152.lI .el(692,124,125,126.1I .l(692,152,153.154.1I 1.Bl(692,97,98,99,12.II

9、l.l(692.(124,125,126.Ionly showing top 2 rowsPriction rsults:llblfturtsrwPrdictionI probabilityI prediction II .l(92,(S,96,97,12.l-1732M.M46S08S.(l.,.lo.eI e.0l(692,9,100,1.I-176798.24796349.Il.,.lo.elI 8.0l (692, ”22.123,124.-18W1.2W80028.l.ere.ee.elI e.0l(6924126v127,128.I-210969.37526481.I1.0,0.0

10、)1o.oI 0.el(692,(U7r128r12.1(-170881.0406252.I(.o,e.ejo.oI .0l(602,(127,128r129.-213398.6ei697.ore.oo.elI 0.01(624127,128,12.(-183284.5266U5.oro.e)lo.oI 0.01(6924128,129,130.I-246027.39704974.I.or.eo.oI 0.0l(6924150t151r152.1(-157898.87276406.I(1.0v0.0o.oI 0.01 (6924152,153r 154.I-208299.36235153.I1

11、.0v0.0o.oI 0.01(6924152.153r154.I243127.71890150.I(.oro.e0.0lI 0.01 (6924153.154rl55.I144207.79475583.I(.oto.e0.01I 1.O(692J1.1O1,162.I(14428.45613ie.(.,.e.eI 1.0l(692,(123,124,12.I【 138363. “872824 I(.o,.e)l.eI 1.0l(692.(124,125,126.I(127978.5376288.I(9.,.e)l.eI l.l(692.(124,125.126.I(79957.4877245

12、08.I(.e.eI 1.81(692,(125,126,127.l(10243e.l42312S.I(e.e,.e)l1.61I l.l(692,(125,126.127.l(81588.93924941.l(.6,ie)l.elI 1.el(692,(126,127.128.I(118122.2319317.(.e,.e)l.eI 1.01(692,(126,127,128.I(8661.473798128.I(.l.)l.eonly sh0ln9 top 20 rowsTest set accuracy - l.图5-18DataFrame中的数据图5-19预测结果及预测准确率【高手点拨

13、】在例5-8中,输出的预测结果包含5列,其中rawPrediction为当前数据属于不同类别的置信度;probability为当前数据属于不同类别的概率;prediction为预测本条数据所属的类别。三、决策树分类算法【教师】利用多媒体展示“决策树示例”图片,并讲解决策树分类算法的相关知识决策树分类(decisiontreeclassification)算法简称DTC算法,它是一种通过对样本数据进行学习,构建一个决策树模型,实现对新数据分类和预测的算法,是最直观的分类算法。决策树是一种树形结构,表示通过一系列规则对数据进行分类的过程。决策树由3个主要部分组成,即决策节点、分支和叶子节点。其中,

14、决策节点为非叶子节点,代表某个样本幡的特征(属性);每个分支代表这个特征(属性)在某个值域上的特征值(属性值);每个叶子节点代表一个类别,如图5-20标图5-20决策树示例图520是一个结构简单的决策树,用于预测贷款用户是否有能力偿还贷款。其中,贷款用户主要具备3个特征,即是否拥有房产、是否结婚和平均月收入,它们所在的节点分别表示一个特征条件,用于判断贷款用户是否符合该特征。叶子节点表示预测贷款用户是否有能力偿还贷款。DTC算法主要借助决策树模型实现分类,该算法的工作原理如下。(1)选取对训练集具有分类能力的特征。根据某个指标(如信息增益、基尼指数等)选择最佳特征作为决策节点。(2)递归构建决策树。从根结点开始,递归地构建决策树,不断地选取局部最优的特征,将训练集分割成不同子集,直到满足终止条件(如达到最大深度、无法继续分割等),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > Web服务

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!