《大数据分析与挖掘.pptx》由会员分享,可在线阅读,更多相关《大数据分析与挖掘.pptx(28页珍藏版)》请在优知文库上搜索。
1、大数据与机器学习 海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。 Google 首席经济学家 Hal Varian 大数据分析主要依靠机器学习和大规模计算,机器学习已成为大数据的基石。 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 简而言之,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。机器学习的常见用途统计分析与数据挖掘 应用一系列技术从大型数据库或数据仓库的
2、数据中提取人们感兴趣的信息和知识 这些信息和知识是隐含的、未知的、潜在有用的 表示为概念、规则、规律和模式等形式技术上的定义 新型的商业分析处理技术,帮助决策者寻找数据间潜在的关联,发现被忽略的因素 这些信息和因素对预测趋势和决策行为是至关重要的商业角度的定义 在没有明确假设的前提下去挖掘信息、发现知识 所获信息具有先前未知,有效和可实用三个特征与传统分析方法的区别什么是数据挖掘?数据分析与数据挖掘的区别数据分析数据分析数据挖掘数据挖掘数据量数据量一般不大数据量通常很大约束从一个既定假设(目标)出发可以不需要既定的假设(目标)对象针对数字化的数据可以针对数字化的数据,还可以针对声音,文本,图像
3、等结果对结果进行解释,呈现有效的信息结果有时不容易解释,着眼于预测未来,提出决策建议 数据分析数据分析只是在已定的假设、先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息如果需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘数据挖掘 数据分析数据分析是把数据变成信息的工具,数据挖掘数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。大数据分析与挖掘的常见用途1、自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。谷歌预测冬季流
4、感的传播初步锁定与流感相关的关键词条谷歌数据库用户搜索记录美国疾控中心记录的流感事件发生的区域和时间预测模型预测结果谷歌准确的预测出2009年甲型H1N1流感的爆发,并明确指出爆发地所在的州以及时间。与滞后的官方数据相比,谷歌成为一个更有效及时的指示者。优化词条筛选大数据分析与挖掘的常见用途2、关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 购物篮分析顾客
5、顾客一次购买商品一次购买商品1面包、黄油、啤酒、尿布啤酒、尿布、牛奶2咖啡、糖、小甜饼、鲑鱼3面包、黄油、咖啡、尿布尿布、牛奶、鸡蛋、啤酒啤酒4面包、黄油、鲑鱼、鸡5鸡蛋、面包、黄油6啤酒啤酒、鲑鱼、尿布尿布、牛奶7番茄、啤酒、虾、苹果8土豆、面包、牛奶、生菜9啤酒啤酒、面包、尿布尿布、咖啡10茶叶、鸡蛋、盐、啤酒经过关联分析,发现顾客经常同时购买的产品中,啤酒与尿布啤酒与尿布同时出现的频率最高大数据分析与挖掘的常见用途3、聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。经过对电信行业用户的特征进行聚类,可以完成客户的画
6、像,可以基于多个维度完成画像,也可以基于关联分析的基础上进行降维处理后再开展画像。年龄收入话费支出群体A:年龄50岁以上 年收入20K以下 月话费支出50元以下群体B:年龄3050岁 年收入80K以上 月话费支出200元以上群体C:年龄2030岁 年收入50K 月话费支出100元大数据分析与挖掘的常见用途4、概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。序号序号按时还款
7、按时还款婚姻状态婚姻状态应纳税收入应纳税收入诈骗嫌疑诈骗嫌疑1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚75K否10否单身90K是按时还款否婚姻状态是否应纳税收入否单身.离异已婚否是80K 决策树大数据分析与挖掘的常见用途4、概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
8、大数据分析与挖掘的常见用途5、偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 一个人的年龄为-999可能是程序处理缺省数据的方式导致的一个公司的高管工资明显高于普通员工可能成为异常数据但也许是合理的一部住宅电话的话费由每月200元以内增加到数千元可能因为盗打或其他原因所致一张信用卡突然出现明显的高额消费也许是因为盗用的信用卡1、异常数据与众不同,往往具有相对性 如高与矮、疯子与常人2、常用的检测方法
9、 异常挖掘、离群挖掘、例外挖掘、稀有事件挖掘大数据分析与挖掘项目的特点1.1大数据分析与挖掘经常是从技术角度切入:未知的探索1.2比传统项目多了很多尝试成本:1.3算法与模型的适用性与时间、地域以及其他外部条件影响1.4经常要在目标要求与算法的复杂性、性能之间做出取舍数据挖掘工作常见误区只依赖一项技术/算法MCLP多目标线性规划算法KNNK近邻算法数据挖掘工作常见误区同样研究对象应用一种模型算法模型的选择,需要考虑模型对数据的适用性,只有结合数据的内在特征、模型的假设条件,才能建立合适的模型,也只有针对具体数据集,才能谈模型的好坏。因此数据本身的差异,决定了算法模型选择的差异。即使研究目的相同
10、,研究对象相似,由于影响数据生成过程的因素差异性较大,数据的具体表现形态也有较大差异,算法也会有截然不同。随着时间的推移,数据的形态发生改变,因此有可能需要重新选择合适的模型,或者,对原有相同模型进行参数调整。数据挖掘工作常见误区缺乏数据对于分类问题或预估问题来说,常常缺乏准确标注的案例。例如:欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。数据挖掘工作常见误区同样研
11、究对象应用一种模型 负荷较稳定 专业技术支持 负荷总量逐步提高至稳定 周期性强 节假日特性强 日夜负荷差大有学校的台变成熟小区台变商铺较多的台变新建小区台变大数据分析与挖掘项目的开展大数据分析与挖掘的标准流程数据挖掘方法论业务理解(业务理解(Business UnderstandingBusiness Understanding)数据理解(数据理解(Data UnderstandingData Understanding)建模(建模(ModelingModeling)数据准备(数据准备(Data PreparationData Preparation)评估(评估(EvaluationEvalu
12、ation)部署(部署(DeploymentDeployment)跨行业数据挖掘标准跨行业数据挖掘标准流程(流程(CRISP-DM) 业务理解数据理解数据准备评估部署 需求分析: 从业务的角度理解项目的目的、范围、业务定义。 问题识别:识别需求中待所需业务问题的内涵。 问题定义:对业务问题进行定义,确定问题概念范畴。 问题分解:将复杂问题分解为几个相当对简单的子问题。 问题转化:将业务问题转化为能够被数据挖掘问题。关键要素:问题转化关键要素:问题转化工作内容工作内容u 将业务需求转化为数据挖掘问题。如:分类、推荐、回归、聚类、关联规则分析、时间序列分析、特征选择、流数据分析等。建模数据挖掘方法
13、论 关键要素关键要素:数据数据定义、数据质量分析定义、数据质量分析工作内容工作内容熟悉并数据理解原始数据的含义及产生条件,识别数据的质量问题,发现数据的内部属性。u 数据定义:识别并理解原始数据中属性数据的含义。 如:数据库中表的结构,数据表之间的关系,数据表每一列的含义、格式、约束条件等等。u 数据质量分析:对数据的质量进行分析。 基本统计量:缺失值数量、均值、方差、中值、频数、分位数、T检验、Z检验等等。 可视化:点图、箱型图、柱状图等。 异常值:聚类、异常值检测业务理解数据理解数据准备评估部署建模数据挖掘方法论 关键要素关键要素:数据选择、数据整合、数据衍生、数据转换、数据清洗数据选择、
14、数据整合、数据衍生、数据转换、数据清洗工作内容工作内容 从原始数据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。u 数据选择:在原始数据的基础上进行筛选,根据问题定义进行数据选择。 如:使用全部数据、n fold分块方式、按比例方式、Bootstrap等。u 数据衍生:从原始数据属性的基础上派生出新的数据属性。 基本派生:均值、中值、频数、最小(大)值、线形变换等。 根据业务的派生:净资产、净资产收益率、折现率等。u 数据转换:对原始数据进行变换,以满足数据挖掘模型需要。 离散
15、化化处理:非数据型数据转数值型,如性别、职业、区域等。 数据平滑处理:非平滑数据转化成平滑数据,如时序数据中股票价格、成交量等。 可视化:点图、箱型图、柱状图等。 异常值:聚类、异常值检测业务理解数据准备数据理解评估部署建模数据挖掘方法论 关键要素关键要素:数据选择、数据整合、数据衍生、数据转换、数据清洗数据选择、数据整合、数据衍生、数据转换、数据清洗工作内容工作内容 从原始数据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。u 数据清洗:对数据中的异常情况进行清理,提升数据质量
16、。 缺失值处理:均值、按类别取均值、聚类均值、Bayes Rule、近邻学习 异常值处理:装箱、聚类、回归、人工处理 一致性处理:基于规则、人工u 数据整合:将多个数据源中的数据有机整合到一起。 如:关系数据SQL查询、按ID整合、Tag信息整合、异构数据整合。u 数据归约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据的完整性,数据归约可以解决海量数据上造成的效率与性能问题。 如:数据方聚集、维归约、数据压缩、离散化和概念分层产生。业务理解数据准备数据理解评估部署建模数据挖掘方法论 关键要素关键要素:模型选择、模型训练、模型最优参数选择模型选择、模型训练、模型最优参数选择 、模型优化、模型优化工作内容工作内容 选择并应用不同的数据挖掘模型,通过模型参数调整来获得最佳模型。有些模型可以解决一类相同的数据挖掘问题。有些模型在数据生成上有特殊要求,因此可能需要经常返回到数据准备阶段。u 模型选择:根据业务理解阶段的问题转化选择不同的数据挖掘模型 分类:SVM、Logistic Regression、MCLP、Decision Tree等。 推荐:基于内容、基于知识