《Python机器学习应用课程报告.docx》由会员分享,可在线阅读,更多相关《Python机器学习应用课程报告.docx(11页珍藏版)》请在优知文库上搜索。
1、Python机器学习应用课程报告论文(设计)题目:专亚:班级:学号:学生姓名:目录Py1.hon机盎学习应用1机器学习微论2机器学习的内容2.1 景类2.1.1 什么是聚类21.2聚类的目标321.3聚类方法好坏的判定32.1.4 常见的聚类算法22分类22.1什么是分类2.2.2分类有以下几种说法,但表达意思是相同的2.2.3聚类与分类的区别2.2.4常用的分类算法23回归23.1什么是回归52.3.2常用的回归算法63机台学习的趣义84总绐与感悟1机器学习概论机器学习是指一套工具、方法或程式,使到我们可以从现实世界的海量数据里提炼出有价值的知识,规则和模式,然后将它们反哺给前台应用系统,进
2、行预测,推荐等能产生直接经济价值的场景,给用户带来“机器具备人类般高智能”的震撼性体跄。对于数据越来越多,而人力成本又越来越高的大数据时代,机器学习能降低企业进行数据分析的成本,掌控有关技术,可以给企业和个人带来巨大的价值。本课程的受众主要是没有经过专业训练的IT专业人员,他们可能是程序员,运维,IT系统架构师等等,也适合没有经过科班训练的数据分析师。数据分析是一个业务+算法+IT的交叉领域,同时熟悉这三方面知识的人,可以玩转大数据,产生无穷无尽的花样,产生巨大的价值。但很无奈的情况是这种人才太少,T人员即使熟悉本公司的业务,但同时又熟悉算法的人极少。一般只能做一些简单的维度统计,指标计算等等
3、,如果说到开发更高智能的系统,知识上鞭长莫及。本课程的目标,正是要打破知识的鸿沟,向IT人员普及算法知识,并把这些知识用于实际项目,把中国的机器学习应用能力提高一个台阶。2机器学习的内容2.1 聚类2.1.1 什么是聚类聚类尝试在没有训练的条件下,对一些没有标签的数据进行归纳分类。根据相似性对数据进行分组,以便对数据进行概括。没有标签是指我们事先不知道任何样本的类别标号,希望通过某种算法把这一组位置类别的样本划分成若干类别,聚类的时候,并不关心某一类是什么,实现的只是将相似的东西聚在一起。总的来说,聚类就是对大量未知标注的数据集,按数据内在的相似性将数据集划分为多个类别,使类别内的数据相似度较
4、大而类别间的数据相似度较小。是无监督的分类方式。2.1.2 聚类的目标同一类中,类内对象是相似的(或是相关的);不同类中的对象是不同的(不相关的)。2.1.3 1.3聚类方法好坏的判定(1)产生高质量的聚类结果簇。簇内有高相似性,簇间有低的相似性。2)取决于聚类方法采用的相似性评估方法以及该方法的具体实现。(3)取决于聚类方法能否发现某些/所有的隐含模式。2.1.4常见的聚类算法(1)划分聚类:K-means算法、K-medoids算法、K-pototypes算法、C1.ARANS算法;(2)层次聚类:B1.RCH算法、CURE算法;(3)密度聚类:DBSCAN算法、(FnCS算法、DENC1
5、.UE算法(4)网格聚类:ST1.NG算法、C1.IQUE算法、WAVE-C1.USTER算法(5)混合聚类:高斯混合模型、C1.1.QUE(综合密度和网格的算法)22分类2.2.1什么是分类在机器学习中,分类属于监督分类的范畴,根据一些给定的已知类别的样本(即有标签的数据),使计算机能够未知类别的样本进行分类。分类要求必须事先明确知道各类别的信息,并且是一种对离散型随机变量建模或预测的监督学习算法。2.2.2分类有以下几种说法,但表达意思是相同的分类(c1.assification):分类任务就是通过学习得到一个目标函数f,把每个属性集X映射到一个预先定义的类别标号中去。分类是根据一些给定的
6、已知类别标号的样本,训练某种学习机器(即得到某种函数),使它能够对未知类别的样本进行分类。这属于supervised1.earning(监督学习)。分类:通过学习来得到样本属性与类标号之间的关系。用自己的话说,就是我们根据已知的一些样本(包括这些样本的类别Iabe1.与属性)来得到分类模型(即得到样本属性与Iabe1.之间的函数),然后通过这个目标函数来对只包含属性的样本数据进行分类。分类算法的局限分类作为一种监督学习,要求必须事先明确指导各个类别的信息,并且所有待分类样本都要有一个类别与之对应。但是很多时候这些条件并不能满足,尤其是在处理海量数据时,如果通过预处理使得数据满足分类算法的要求,
7、代价会非常大,这时候可以考虑使用聚类算法。2.2.3聚类与分类的区别首先呢,聚类是非监督学习,分类是监督学习。二者的本质区别就是对于聚类来说,是不知道样本的类别信息的,只能凭借样本在特征空间的分布来分析样本的属性;而对于分类来说,知道样本的类别信息是必要的,根据已知训练样本的类别信息,让计算机自己学着知道每个类别的特点,然后对未知类别的数据进行分类。2.2.4常用的分类算法决策树分类法基于规则的分类器朴素的贝叶斯分类算法(nativeBayesianc1.assifier)基于支持向量机(SVM)的分类器神经网络法k-最邻近法(K-nearestneighbor,KNN)模糊分类法2.3回归2
8、.3.1什么是回归与分类相似,回归也是监督学习的一种算法,因此也需要先向计算机输入数据的训练样本让计算机学习。与分类的区别是:回归方法是一种对数值型连续随机变量进行预测和建模的监督学习算法,产生的结果一般也是数值型的。使用案例一般包括房价预测、股票走势或测试成绩等连续变化的案例。回归任务的特点是标注的数据集具有数值型的目标变量。也就是说,每一个观察样本都有一个数值型的标注真值以监督算法。2.3.2常用的回归算法(1)线性回归线性回归是处理回归任务最常用的算法之一。该算法的形式十分简单,它期望使用一个越平面拟合数据集(只有两个变量的时候就是一条直线)o如果数据集中的变量存在线性关系,那么其就能拟
9、合地非常好。优点:线性回归的理解与解释都十分直观,并且还能通过正则化来降低过拟合的风险。另外,线性模型很容易使用随机梯度下降和新数据更新模型权重。缺点:线性回归在变量是非线性关系的时候表现很差。并且其也不够灵活以捕捉更复杂的模式,添加正确的交互项或使用多项式很困难并需要大量时间。(2)回归树(集成方法)回归树(决策树的一种)通过将数据集重受分割为不同的分支而实现分层学习,分割的标准是最大化每一次分离的信息增益。这种分支结构让回归树很自然地学习到非线性关系。集成方法,如随机森林(RF)或梯度提升树(GBM)则组合了许多独立训练的树。这种算法的主要思想就是组合多个弱学习算法而成为一种强学习算法,不
10、过这里并不会具体地展开。在实践中RE通常很容易有出色的表现,而GBM则更难调参,不过通常梯度提升树具有更高的性能上限。优点:决策树能学习非线性关系,对异常值也具有很强的鲁棒性。集成学习在实践中表现非常好,其经常赢得许多经典的(非深度学习)机器学习竞赛。缺点:无约束的,单棵树很容易过拟合,因为单棵树可以保留分支(不剪枝),并直到其记住了训练数据。集成方法可以削弱这一缺点的影响。(3)深度学习深度学习是指能学习极其复杂模式的多层神经网络。该算法使用在输入层和输出层之间的隐藏层对数据的中间表征建模,这也是其他算法很难学到的部分。深度学习还有其他几个重要的机制,如卷积和drop-out等,这些机制令该
11、算法能有效地学习到高维数据。然而深度学习相对于其他算法需要更多的数据,因为其有更大数量级的参数需要估计。优点:深度学习是目前某些领域最先进的技术,如计算机视觉和语音识别等。深度神经网络在图像、音频和文本等数据上表现优异,并且该算法也很容易对新数据使用反向传播算法更新模型参数。它们的架构(即层级的数量和结构)能够适应于多种问题,并且隐藏层也减少了算法对特征工程的依赖。缺点:深度学习算法通常不适合作为通用目的的算法,因为其需要大量的数据。实际上,深度学习通常在经典机器学习问题上并没有集成方法表现得好。另外,其在训练上是计算密集型的,所以这就需要更富经脸的人进行调参(即设置架构和超参数)以减少训炼时
12、间。(4)最近邻算法最近邻算法是基于实例的,这就意味着其需要保留每一个训练样本观察值。最近邻算法通过搜寻最相似的训练样本来预测新观察样本的值。而这种算法是内存密集型,对商维数据的处理效果并不是很好,并且还需要高效的距离函数来度量和计算相似度。在实践中,基本上使用正则化的回归或树型集成方法是最好的选择。3机器学习的意义机器学习是研究计算机怎样模拟或实现人类的学习行为搜判,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。学习能力是智能行为的一个非常重要的特征,但至今对
13、学习的机理尚不清楚。人们曾对机器学习给出各种定义。HA.Simon认为,学习是系统所作的适应性变化,使得系统在下一次完成同样或类似的任务时更为有效。Rs.Micha1.ski认为,学习是构造或修改对于所经历事物的表示。从事专家系统研制的人们则认为学习是知识的获取。这些观点各有则凳侧重,第一种观点强调学习的外部行为效果,第二种则强调学习的内部过程,而第三种主要是从知识工程的实用性角度出发的。机器学习在人工智能的研究中具有十分重要的地位。一个不具有学习能力的智能系统难以称得上是一个真正的智能系统,但是以往的智能系统都普遍缺少学习的能力。例如,它们遇到错误时不能自我校正;不会通过经验改善自身的性能;
14、不会自动获取和发现所需要的知识。它们的推理仅世盯改限于演绎而缺少归纳,因此至多只能够证明已存在事实、定理,而不能发现新的定理、定律和规则等。随着人工智能的深入发展,这些局限性表现得愈加突出。正是在这种情形下,机器学习逐渐成为人工智能研究的核心之一。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。其中尤其典型的是专家系统中的知识获取瓶颈问题,人们一直在努力试图采用机器学习的方法加以克服。4总结与感悟机器学习广泛应用于计算机视觉,自然语言处理,信息检索,推荐等领域,因为涉及面太广,现在并没有一个完整的定义什么是机器学习。个人偏向的理解是
15、:机器学习过程本质都是在一个样本空间中,找出一个模型、搜索一组参数,按照需要使其描述这个样本空间(损失函数最小),从而可以对新样本做出某种判断。一个完整的机器学习项目大体有如下步骤(kagg1.e比赛流程也大体如下):首先、将所要解决的问题抽象成机器学习的问题(类似数学速模),目标问题到底是一个什么问题,分类,回归还是聚类问题,要达到的目标是什么,对准确率的要求等。其次、明确该项目可以获取哪些数据,大概有多少样本,多少个特征,训域的时候内存占用量,需不需要用分布式,接着、考虑对特征数据做处理和选择,包括特征筛选,数据清晰,归一化,缺失值处理然后利用特征选择的方法,比如相关系数法,卡方检验,逻辑回归权重选择,平均互信息等,如果需要,还可以进一步用PCAJDA等方法降维。然后就是模型选择、训练与调优,根据样本大小特征选择相应模型,然后对参数进行调优,随后还需要模型诊断,进行特征融合,模型融合等进一步提高颈测效果最后、经过测试,方差可以接受以后就可以提交上线。经过一学期的学习,掌握了机器学习的一些基本知识,能够读懂一些简单的程序,为今后更加深入去学习这方面的知识打下了基础,这是一门有趣且困难的学问,所以我今后会更加努力去学习。