《《机器学习基础及应用》教案第6课使用k近邻算法实现分类与回归.docx》由会员分享,可在线阅读,更多相关《《机器学习基础及应用》教案第6课使用k近邻算法实现分类与回归.docx(9页珍藏版)》请在优知文库上搜索。
1、课题使用k近邻算法实现分类与回归课时2课时(90min)教学目标知识技能目标:(1)掌握k近邻算法解决分类问题的基本原理(2)掌握k近邻算法解决回归问题的基本原理(3)了解k近邻算法的常见问题及解决方法(4)掌握k近邻算法的Skleam实现方法(5)能够使用k近邻算法训练分类模型(6)能够使用k近邻算法训练回归模型(7)能够编写程序,寻找最优的k值素质目标:了解科技前沿新应用,开阔视野,抓住机遇,展现新作为增强创新意识,培养探究精神教学重难点教学重点:k近邻算法解决分类问题和回归问题的基本原理,k近邻算法的常见问题及解决方法,k近邻算法的Sklearn实现方法教学难点:使用k近邻算法训练分类模
2、型和回归模型;编写程序,寻找最优的k值教学方法案例分析法、问答法、讨论法、i井授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务,扫码观看“k近邻算法基本原理”视频,并思考以下问题:k近邻算法可以解决哪两类问题?解决的原理是什么?【学生】完成课前任务考勤【教师】使用APP迸行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:k近邻算法解决分类问题的基本原理曷十么?【学生】思考、举手回答传授新知【教师】通过学生的回答引入要讲的知识,介绍k近邻算法的基本原理、k近邻
3、算法的Sklearn实现等知识4.1 k近邻算法的基本原理k近邻算法(k-NearestNeighbor,kNN)由科弗和哈特提出,是机器学习中最简单也是应用最广泛的算法之一,它根据距离函数计算待测样本与所在特征空间中各个样本的距离,找到距离待测样本最近的k个样本,依此判定待测样本属于某类或用于回归计算。4.1.1 k近邻算法的原理分析1.k近邻算法解决分类问题的原理k近邻算法解决分类问题的原理是给定一个训练数据集,对新输入的样本,在训练数据集中找到与该样本距离最邻近的k个样本(也就是k个邻居),若这k个样本中多数属于某个类别,就把该输入样本划分为这个类别。要寻找与新输入样本最邻近的k个样本,
4、需要计算两点之间的距离,此时,可使用欧式距离进行计算.假设两个点的坐标分别为D和为),则这两点之间的欧式距离公式为=J(2%)2+(%一)?【教师】通过多媒体展示“k近邻算法解决分类问题”图片(详见教材),并介绍相关知识例如有两类不同的样本数据Dl和D2,Dl用小正方形表示,D2用实圆表示,小三角形表示新输入的未知类别样本。现在要对新样本进行分类,判断它属于Dl还是D2k近邻分类的过程:先主观设置k的值,假设k的值为5,然后通过距离计算找出与新样本距离最近的5个样本点,从图4-1中可以看出,这5个近邻点中有4个属于D2类,1个属于Dl类,从而可判定新样本属于D2类。2.k近邻算法解决回归问题的
5、原理回归问题研究的是一组变量与另一组变量之间的关系,其预测结果是连续的数值。使用k近邻算法解决回归问题时,仍然需要计算待测样本与所在特征空间中每个样本的距离,基于计算结果,找到与待测样本最邻近的k个样本,通过对这k个样本的某个值(如平均值)进行统计,依据各个待测样本的统计值画出回归曲线,进而预测新样本的值。【教师】通过多媒体展示“k近邻算法解决回归问题”图片(详见教材),并介绍相关知识在研究二手房房价与面积之间关系的实例中,使用k近邻算法建立模型。使用k近邻算法建立回归模型的过程:先主观设置k的值,假设k的值为5,通过计算找到所在特征空间中与待测样本距离最近的5个样本,然后计算这5个样本的某个
6、统计值(如平均值),将这个值作为待测样本的预测值,依据各个样本的预测值得到回归曲线。4.1.2k近邻算法的常见问题及解决方法k近邻算法通常用于光学字符识SU(opticalcharacterrecognition,OCR)系统、电商平台用户分类、银行数据预测客户行为等领域。在实际应用中,k近邻算法可能会遇到以下几个需要解决的问题。1 .样本不平衡对算法的影响k近邻算法解决分类问题时,经常会遇到这样的问题:当样本分布不平衡时(即数据集中一个类的样本容量很大,而其他类的样本容量很小),很可能会出现对新样本的预测不准确的情况。因为样本分布不均匀,当输入一个新样本时,该样本的k个邻居中大数量类的样本占
7、多数,很可能将新样本预测为大数量的样本类型,导致预测误差。新样本应属于Dl类,但是应用k近邻算法会将其错误地划分为D2类。【教师】通过多媒体展示“样本不平衡时k近邻算法的预测效果”图片(详见教材),并介绍相关知识对于这类问题,可以采用对近邻点赋权值的方法改进,即与该样本距离小的邻居权值大,与该样本距离大的邻居权值小.由此,将距离远近的因素也考虑在内,避免了因某个类别样本的容量过大而导致误判的情况。2 .k的取值对算法的影响【教师】通过多媒体展示“k值与预测误差率的关系”图片(详见教材),并介绍相关知识在k近邻算法中,k值是主观设定的,但人为设定k值是不科学的,会影响模型的性能。一般情况下,k值
8、与预测误差率的关系如图4-4所示。即随着k值的增大,误差率先降彳氐后增高。这很好理解,在一定范围内,k值越大,周围可以借鉴的样本就越多,预测误差率就会第氐;但是当k值非常大时,几乎每个样本都变成了待测样本的邻居,预测误差率肯定就会增高.例如,训练集中共有30个样本,当k值增大到30时,k近邻算法基本上就没有意义了.要选出最优的k值,需要分别尝试不同k值下的预测效果。在Skleam中,可使用交叉验证法或网格搜索法确定k的取值。【教师】讲解“素养之窗”的内容(详见教材),引导学生了解中国科技对世界的贡献4.2k近邻算法的SkIeanl实现4.2.1 Sklearn中的k近邻模块【教师】组织学生扫码
9、现看“KD树算法”的视频(详见教材),并进行讲解Skleam的neighbors模块提供了KNeighborsClassifier和KNeighborsRegressor类,分别用于实现k近邻分类和回归算法.在Sklearn中,可通过下面语句导入k近邻算法模块。fromsklearn.neighborsimportKNeighborsClassifier#导入k近邻分类模块fromsklearn.neighborsimportKNeighborsRegressor#导入k近邻回归模块KNeighborsClassifier和KNeighborsRegressor类都有如下几个参数。(1)参数n
10、.neighbors用来指定k近邻算法中的k值,该参数必须指定.(2)参数weights用于指定权重,其取值有uniform,distance与自定义函数3种:uniform表示不管近邻点远近,权重值都一样,这是最普通的k近邻算法;distance表示权重和距离成反比,即距离预测目标越近权重值越大:自定义函数表示用户可以自定义一个函数,根据输入的坐标值返回对应的权重值。(3)参数algorithm用来设置k近邻模型使用的算法,其取值有brutexkdjreesbalLtree与auto:brute表示直接计算所有距离再排序;kd_tree表示使用kd树实现k近邻算法;ball.tree表示使用
11、球树实现k近邻算法;auto为默认参数,表示自动选择合适的方法构建模型。4.2.2k近邻算法的应用举例【例4-1】某学校话剧社团要招收新人,发出招新通知后,报名的学生非常多。于是,话剧社团决定组织一场个人比赛,比赛分为两个项目一表演和台词。表演项目得分用x,表示,台词项目得分用表示,最终成绩如表4-2所示(表中y的取值,】表示能进入话剧社团,0表示不能进入话剧社团),使用k近邻算法建立模型,判断最后一个学生(=55,A2=65)是否能够进入该话剧社团。【教师】通过多媒体展示“话剧社团比赛成绩数据集”表格,并介绍相关知识定最优的k值。在Sklearn中,可以使用交叉验证法得到最佳的k值。【参考代
12、码】#导入需要的模块importma(plotlib.pyplotaspitimportnumpyasnpfromskleam.neighborsimportKNeighborsClassifierfromSkleam.HiodeLseleciionimporttrain_test_splitfromsklearn.model_selectionimportcross_val_score#导入交叉验证模块x=np.airay(19,30,30,40,39,47,40,52,47,50,50,55,60,60,62,65,73,70,75,82,77,85,90,95,92,90)y=np.ar
13、ray(0,0.0,0,0,0,1,1,1,1.1.1.1)x_train.x_iest,yjrain,y_test=irain_iest_spli(x,y,test_size=0.3,random_s(a(e=0)#k取不同值的情况下,模型的预测误差率计算k_range=range(2,11)峻置k值的取值范围#保存预测误差率的数组#交叉验证中,cv参数决定数据集划分k-error=forkink-range:model=KNeighborsClassifier(n_neighbors=k)scores=cross_val_score(model,x,y,cv=5,scoring=accur
14、acy,)比例,这里的训练集与测试集的比例是5:1k-error.append(1-scores.mean()#画图,X轴表示k的取值,y轴表示预测误差率plt.rcParamsfbnt.sans-serifJ-Siniheiplt.plot(k_range,k_error,r-)plt.xlabel(k的取值lt.ylabel(预测误差率)pl(.show()【运行结果】程序运行结果如下图所示。可见,k的取值为5或7时,模型的预测误差率最低。下面将选择这两个值作为k值,训练模型。O. IO-0.05- 2345678910k的取值355 0 5 2241 0.60. 给糊些房K(2)当k值为
15、5或7时,使用k近邻算法分别训练模型,并对新样本进行预测。【参考代码】#k=5与k=7时,分别训练模型model1=KNeighborsClassifier(三)#k=5时,建立模型model1.fit(x_train,y_train)model2=KNeighborsClassifier(7)#k=7时,建立模型mode!2.fit(x_train,y_train)除别使用两个模型预测新样本Pred1=model1.predict(55,65)pred2=model2.predict(55.65)print(k=5时,预测样本的分类结果为二PredI)print(k=7时,预测样本的分类结果为”,pred2)【运行结果】程序运行结果如图所示。可见,k=5与4=7时,两个模型的分类结果都是O,即最后Ti学生(X=55,毛=65)不能进入该话剧社团。k=5时,预测样本的分类结果为0k=7时,预测样本的分类结果为0【例4-2表4-3是某班级学生身高和体重的数据集,表中最后一名学生只有身高信息,体重信息丢