《2023Python大数据特征与算法分析.docx》由会员分享,可在线阅读,更多相关《2023Python大数据特征与算法分析.docx(49页珍藏版)》请在优知文库上搜索。
1、Pythorl大数据特征与算法分析目录第1章大数据分析概述31.1 大数据分析背景31.2 大数据分析的应用41.3 大数据分析算法51.4 大数据分析工具81.5 小结11第2章数据特征算法分析122.1 数据分布性分析122.2 数据相关性分析242.3 数据聚类性分析302.4 数据主成分分析342.5 5数据动态性分析422.6数据可视化462.7小结48第1章大数据分析概述大数据作为时下火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用,逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析应运而生。1.1 大数据分析背景1
2、 .大数据的狭隘定义大数据(BigData)是指无法在特定时间范围内用规范化手段进行捕获、处理和筛选的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2 .大数据的产生“大数据”的名称来自于未来学家托夫勒所著的第三次浪潮,自然杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。2004年出现的社交媒体则把全世界每个人都转变成了潜在的数据生成器,向摩尔定律铸成的巨鼎中贡献数据,这是“大容量”形成的主要原因。3 .大数据的特征 容量(Volume):数据的大小决定所考虑的数据的价
3、值和潜在的信息。 种类(Variety):数据类型的多样性。 速度(Velocity):指获得数据的速度。 可变性(VariabiIity):妨碍了处理和有效地管理数据的过 程。真实性(Veracity):数据的质量。 复杂性(Complexity):数据量巨大,来源多渠道。 价值(VaIUe):合理运用大数据,以低成本创造高价值。4 .大数据的结构大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。5 .大数据分析大数据分析的产生旨在IT管理,企业可以将实时数据流分析和历史
4、相关数据相结合,然后进行大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。6 .大数据分析的意义现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创始人马云在演讲中就提到,“未来的时代将不是IT的时代,而是DT的时代”,DT就是DataTechnology(数据科技),可以看出大数据对于阿里巴巴集团来说举足轻重。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量
5、、挖掘成本比数量更重要。对于很多行业而言,如何利用这些大规模的数据是赢得竞争的关键。1.2 大数据分析的应用未来将是一个“大数据”引领的智慧科技的时代,随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富,更多的传感设备、移动终端接入网络,由此产生的数据及增长速度将比历史上的任何时期都要多、要快。虽然大数据在不同领域有不同的应用,但是总的来说,大数据的应用主要体现在三个方面,分别是分析预测、决策制定和技术创新。同时,大数据在很大程度上推动了人工智能的发展。1 .分析预测分析预测是比较早的落地应用之一,同时能够比较直观地获得价值,所以当前大数据的场景分析依然是比较重要的落地应用。
6、分析预测涉及的行业非常多,比如舆情分析、流感预测、金融预测、销售分析等,随着传统行业信息化改造的推进,数据分析将是比较常见的大数据应用。2 .决策制定决策制定通常是大数据应用的重要目的,销售部门需要根据数据分析来制定产晶的销售策略,设计部门需要根据数据分析来制定产品的设计策略,生产部门需要根据数据分析来优化生产流程,人事部门需要根据数据来衡量员工的工作价值从而制定考核策略,财务部门需要根据数据分析来制定财务策略,等等。通常来说,数据分析一个重要的目的就是为了制定相应的策略。3 .技术创新大数据应用能够全面促进企业创新,不仅体现在技术创新上,还体现在管理创新上。通过数据能够挖掘出更多关于产品和市
7、场的信息,这些信息会指导企业进行相应产品的设计,以满足市场的需求。同时在企业管理方面,以数据为驱动的管理方式能够极大地调动员工的能动性。1.3 大数据分析算法1 .大数据分析与数据分析的区别大数据分析是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息处理模式。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,从而对数据加以详细研究和概括总结的过程。大数据分析的优势是能清楚地阐述数据采集、大数据处理过程及最终结果的解读,同时提出模型的优化和改进之处
8、,以利于提升大数据分析的商业价值。大数据分析与数据分析的核心区别是处理的数据规模不同,由此导致两个方向从业者的技能也不同。大数据分析与数据分析的根本区别是分析的思维与分析所用的工具不同。2 .机器学习和数据挖掘的联系与区别从数据分析的角度来看,数据挖掘与机器学习(MachineLearning,ML)有很多相似之处,但不同之处也十分明显,例如,数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的,从某种意义来说,机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等
9、多门学科。其专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习领域提供的数据分析技术,以及数据库领域提供的数据管理技术。机器学习不仅涉及对人的认知学习过程的探索,还涉及对数据的分析处理。实际上,机器学习已经成为计算机数据分析技术的创新源头之一。由于儿乎所有的学科都要面对数据分析任务,因此机器学习已经开始影响计算机科学的众多领域,甚至影响计算机科学之外的很多学科。机器学习是数据挖掘中的一种重要工具。然而数据挖掘不仅仅要研
10、究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪声等实践问题。机器学习的涉及面很宽,常用在数据挖掘上的方法是“从数据学习”。然而机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,如增强学习与自动控制等。3 .统计学习与机器学习的联系与区别统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。而事实是统计学与机器学习的不同,统计模型与机器学习的不同。机器学习和统计的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。首先,我们必
11、须明白,统计和统计建模是不一样的。统计是对数据的数学研究,除非有数据,否则无法进行统计。统计模型是数据的模型,主要用于推断数据中不同内容的关系,或创建能够预测未来值的模型。通常情况下,这两者是相辅相成的。机器学习通常会牺牲可解释性以获得强大的预测能力。例如,从线性回归到神经网络,尽管解释性变差,但是预测能力却大幅提高。统计模型与机器学习在线性回归的应用上是有差异的,或许是因为统计建模和机器学习中使用方法的相似性,使人们认为它们是同一类算法,但事实上不是这样的。统计模型和机器学习在回归分析建模方法的相似性,是造成这种误解的主要原因,其实它们的目的是不同的。线性回归是一种统计方法,通过这种方法既可
12、以训练一个线性回归器,又可以通过最小二乘法拟合一个统计回归模型。机器学习(这里特指有监督学习)的目的是获得一个可反复预测的模型,通常不关心模型是否可以解释,只在乎结果。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性,恰巧迎合了预测。4 .统计学与数据挖掘的联系与区别统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,有人认为数据挖掘是统计学的分支。这种看法有偏差。因为数据挖掘还应用了其他领域的思维、工具和算法,尤其是计算机科学技术,例如数据库技术和机器学习,而且数据挖掘关注的某些领域和统计学家关注的有很大差别。5 .大数据分析的10个统计方法数据分析师不完
13、全是软件工程师,应该是编程、统计和批判性思维三者的结合体。统计学习是培养现代数据分析师的一个基本素材。下面分享10个统计方法,任何数据分析师都应该学习,进而更高效地处理大数据集。(1)线性回归线性回归是一种通过拟合因变量和自变量之间的最佳线性关系来预测目标变量的方法。线性回归主要分为简单线性回归和多元线性回归。简单线性回归使用一个自变量,通过拟合一个最佳线性关系来预测因变量;而多元线性回归使用一个以上的自变量来预测因变量。(2)分类分类是一种数据挖掘技术,用来将一个整体数据集分成几个类别,以便更准确地预测和分析。(3)重采样方法重采样是从原始数据样本中反复抽样的方法,是一种非参数统计推断方法。
14、重采样在实际数据的基础上生成唯一的抽样分布。(4)子集选择子集选择首先确定我们认为与反应有关的P预测因子的一个子集,然后使用子集特征的最小二乘拟合模型。(5)特征缩减技术通过对损失函数加入正则项,使得在训练求解参数的过程中将影响较小的特征的系数衰减到0,只保留重要的特征。(6)降维降维是将估计P+1个系数减少为M+1个系数,其中M可以将主成分回归描述为从一组大的变量中导出低纬度特征集的方法。(7)非线性回归非线性回归是回归分析的一种形式,在这种分析中,观测数据通过模型参数和因变量的非线性组合函数建模,数据用逐次逼近法进行拟合。(8)树形方法树形方法可以用于回归和分类问题,这些涉及将预测空间分层
15、或分段为一些简单的区域。由于分割预测空间的分裂规则可以用树形总结,因此这类方法也被称为决策树方法。(9)支持向量机支持向量机(SupportVectorMachine,SVM)是一种分类技术,简单地说,就是寻找一个超平面以最好地将两类点与最大边界区分开。(10)无监督学习无监督学习就是在无类别信息的情况下寻找到好的特征。1.4 大数据分析工具1 .大数据分析前端展现用于展现分析的前端开源工具有JaSPerSoft、Pentaho、SpagobiOPeni、Birt等。用于展现分析的商用分析工具有StyIeIntelligenceRapidMinerRadoop、CognosNBO、MicrosoftPowerBI、OracIeMicroStrategyQlikViewTableaU等。国内大数据分析工具有BDP、国云数据(大数据魔镜)、思迈特、FineBl等。2 .大数据分析数据仓库有TeradataAsterDataEMCGreenPlumsHPVertiCa等。3 .大数据分析数据集市有QlikView、TableauStyleInteIIigenCe等。4 .统计分析统计分析法是指通过对研究对象的规模、速度、范围、程度等数量关系的分析研究,认识和揭示事物间的相互关系、变化规律和发展趋势,借以实现对事物的正确解释和预测的一种研