《人工智能与大数据分析.pptx》由会员分享,可在线阅读,更多相关《人工智能与大数据分析.pptx(68页珍藏版)》请在优知文库上搜索。
1、人工智能与大数据分析目录 人工智能与大数据分析概述 Python数据分析 NumPy与Pandas简介 泰坦尼克号案例人工智能与大数据分析概述人工智能与大数据分析概述二十四节气歌、朝霞不出门,晚霞行千里。对于一些简单的自然现象,前人们通过归纳提取得出很多经验知识。但是现代世界中有很多复杂问题,数据量极大,已经远远超出了人脑可处理的范围。大数据分析是数学与计算机科学相结合的产物,在实用应用中,人们可以通过计算机工具和数学知识处理数据,得出结果作出判断,以便采取适当行动。人工智能与大数据分析概述数据(data) 客观事物未经加工的原始素材。包括文本、数字、音频、图像、视频等等。大数据分析(data
2、 analysis) 大数据分析是基于某种行业目的, 有目的地进行收集, 整理, 加工和分析数据, 提炼有价值信息的一个过程。人工智能与大数据分析概述大数据分析是将数据转化为知识/智慧的手段。数据 原始素材信息 有含义的数据知识 对事物的正确理解和认识人工智能与大数据分析概述数据分析师常用工具 Python R SQL Excel SPSS人工智能与大数据分析概述大数据分析非常普遍,日常出行、购物、企业生产决策处处有数据分析。几个实际的例子: 沃尔玛购物篮分析 世界杯点球预测 UPS快递数据分析下的最佳行车路径 试衣间的数据分析应用 阿里信用贷款和淘宝数据魔方人工智能与大数据分析概述萨姆沃尔顿
3、将一个百货商店沃尔玛奇迹般地经营为全球最大的连锁零售企业。早在1985年10月就被福布斯杂志列为全美富豪排行榜首位,连美国总统布什都赞扬他是地道的美国人,展现了企业创新精神,是美国梦的缩影人工智能与大数据分析概述1983年,当一般零售商还在进行信息化建设的时候,沃尔玛已经开始与休斯公司合作,花费了2400万美元发射了一颗人造卫星,此后先后投入6亿多美元建立起电脑与卫星系统,还发明了条形码、无线扫描枪、计算机跟踪存货等技术。借助于整套的高科技信息网络,沃尔玛的各部门沟通、各业务流程可迅速、准确的运行,数据库系统很快积累了海量的经营数据,包括大量的顾客消费行为记录。人工智能与大数据分析概述圣诞节快
4、要到来时,沃尔玛的工作人员按照惯例筹备节日的营销策略。这一次它们使用了一种新的购物篮分析的软件,对海量的顾客消费行为进行分析,一个意外的发现让人们瞠目结舌,跟尿布一起购买最多的商品竟然是啤酒!人工智能与大数据分析概述沃尔玛派出市场调查人员和分析师对这一结果进行了深入研究,揭示了一条隐藏的在啤酒与尿布背后的美国人的一种行为模式:一些年龄在25-35岁的年轻父亲下班后经常要去超市买婴儿尿布,而他们中30%-40%的人会顺手为自己购买几瓶啤酒。人工智能与大数据分析概述沃尔玛马上采取行动,将卖场内原来相隔很远的妇婴用品与酒类饮料区的距离拉近。同时对这两个产品的价格也做出调整,并向一次购买达到一定金额的
5、顾客赠送婴儿奶嘴以及其他小礼品,结果是尿布与啤酒的销量双双大增。人工智能与大数据分析概述2006年世界杯上,阿根廷和德国在1/4决赛中120分钟难分高下,在点球大战开始之前,老门将卡恩将一张纸条递到莱曼手中。结果是,莱曼所有点球都判断对了方向,除了两个点球质量太高无力回天外,其余全部扑出,阿根廷只能黯然出局。问题是,那张纸条上究竟写了什么?人工智能与大数据分析概述上面记录着阿根廷队的克鲁兹、阿亚拉、罗德里格斯以及坎比亚索习惯的脚法。德国队守门员教练科普克如此精确的预测出阿根廷球员射出的点球方向,并不是他有什么过人的占卜天才。扑点球秘籍来自于德国科隆体育学院数据分析小组夜以继日的努力。人工智能与
6、大数据分析概述分析小组收集了阿根廷球队13000个点球的录像,并根据阿根廷射门练习的数据找出了一些可以描述射门动作的行为特征,比如“阿亚拉,短助跑,右下角;里克尔梅,斜上助跑,右下角;马克西,长距离助跑,左上角.”这些行为特征描述了阿根廷队谁罚点球、怎么罚点球的规律。最终从这些特征中提炼出更具体的特征,帮助德国队获得胜利。人工智能与大数据分析概述UPS(美国联合包裹公司)是一家美国快递公司,世界上最大的快递承运商与包裹递送公司。同时也是运输、物流、资本与电子商务服务的领导性的提供者。人工智能与大数据分析概述UPS是一个充分利用数据分析技术带来盈利和奖项的科技公司。UPS多效地利用了地理定位数据
7、。为了使总部跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。人工智能与大数据分析概述这些设备方便了公司监督管理员工并优化行车线路。UPS为货车定制的最佳行车路径是根据过去的行车数据总结分析而来。2011年,UPS的驾驶员少跑了近4828万公里的路程。人工智能与大数据分析概述普拉达(PRADA)是意大利奢侈品牌,由玛丽奥普拉达于1913年在意大利米兰创建,当前全球最大的奢侈品牌之一。人工智能与大数据分析概述每件衣服上都有RFID码,当顾客拿起衣服进试衣间时,衣服上的RFID会被自动识别,数据传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时
8、间,数据都被存储起来加以分析。人工智能与大数据分析概述 如果有一件衣服销量很低,以往的作法是直接被废弃掉。 如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多。 那就说明存在一些问题,衣服或许还有改进的余地。 这项应用在提升消费者购物体验的基础上,PRADA还提升30%的销售量。人工智能与大数据分析概述中国最大的电子商务公司阿里巴巴(Alibaba)利用大数据的数据分析技术提供服务:阿里信用贷款与淘宝数据魔方。人工智能与大数据分析概述每天有数以万计的交易在淘宝上进行。相应的交易时间、商品价格、购买数量会被记录,同时这些信息可以与买方和卖方的年龄、性别、地址、甚至兴趣爱好等个人特征
9、信息相匹配。人工智能与大数据分析概述淘宝数据魔方就是淘宝平台上的大数据应用方案。 商家可以了解行业宏观情况、品牌的市场状况、消费者行为情况。 消费者也能以更优惠的价格买到更心仪的宝贝。人工智能与大数据分析概述阿里信用贷款则是通过企业交易数据,借助大数据分析技术自动分析判定是否给予企业贷款,全程不会出现人工干预。人工智能与大数据分析概述 开放数据 为了满足日益增长的数据需求,人们把很多数据资源放到了因特网上。 这些被称为开放数据(open data)的数据资源对大众免费开放。人工智能与大数据分析概述 开放数据 下面是网上比较常用的开放数据网站: 开放数据中国(http:/ 亚马逊AWS开放数据集
10、(http:/ UCI机器学习数据库(http:/archive.ics.uci.edu/ml) datahub网站(http:/datahub.io/dataset)人工智能与大数据分析概述 数据分析流程 数据分析要做的事情可具体分为5步: 与外界进行交互 读写各种各样的文件格式和数据库 数据准备 对数据进行清理、整合、规范化、重塑、变形等处理 数据转换 对数据集做一些数学和统计运算以产生新的数据集 数据建模和计算 将数据跟统计模型、机器学习算法联系起来 分析结果展示 创建图片或文字摘要,展示分析结果Python数据分析Python数据分析 为什么用Python? 数据科学家们希望: 用最小
11、的编程代价在大数据集上进行数值分析; 编写的代码可读性好、执行效率高、运行速度快; 尽可能贴近一系列数学概念。Python数据分析 为什么用Python? 在科学计算领域,有很多符合这些要求的解决方案。 在对比竞争中Python胜出,在科学领域被广泛使用,具体原因如下: 容易在Python中调用C、Fortran或者R代码。 Python是面向对象语言,比C和Fortran更高级。 Python可以写出易读、整洁并且缺陷最少的代码。Python数据分析 为什么用Python? 另外Python还有很多方面的用途,比如: 通用型脚本语言,可以作脚本来用,还能操作数据库; Django等框架的问世
12、,Python近些年还广泛用于开发web应用。Python数据分析 Python数据分析常用库 NumPy 科学计算的基础包库 Scipy 科学计算中的工具库 Matplotlib 绘制数据图表库 Pandas 基于NumPy的数据分析库 Scikit-learn 机器学习建模库 Pytorch 一种深度学习框架SciPyNumPyNumPy和Pandas简介NumPy和Pandas简介 NumPy 是一个开源的Python科学计算库。 可以很自然地使用数组和矩阵,也包含很多实用的数学函数。NumPyNumPy和Pandas简介 为什么使用NumPy? 对于数值计算任务,使用NumPy要比直接
13、编写Python代码便捷得多。 NumPy能够直接对数组和矩阵进行操作,可以省略很多循环语句。 NumPy众多的数学函数能简化编写代码的工作。NumPy和Pandas简介 Pandas是什么? Pandas源自panel data(面板数据)、Python data analysis(数据分析)NumPy和Pandas简介 Pandas的优势 Pandas以NumPy为基础,能利用NumPy在计算方面性能高的优势。 Pandas提供了大量处理数据的函数和方法,强大而高效。 两种新型的结构Series和DataFrame使Pandas在处理表格数据非常有效。NumPy和Pandas简介本课程用得
14、最多的Pandas对象是DataFrameNumPy和Pandas简介 安装NumPy和Pandas: 第一种安装方式:PythonpipNumPy/Pandas 第二种安装方法:Anaconda集成环境NumPy和Pandas简介第一种安装方式:PythonpipNumPy/Pandas NumPy是基于Python的,在安装NumPy之前,需要先安装Python。 本课程使用的是Python3.6版本。 安装时记得勾选安装pip选项,并配置环境变量。NumPy和Pandas简介 安装NumPy和Pandas: 本课程使用的NumPy版本为1.14,Pandas版本为0.23。 NumPy
15、: pip install numpy Pandas: pip install pandasNumPy和Pandas简介 安装NumPy和Pandas: 卸载安装包: pip uninstall package_name 更新安装包: pip install U package_name 查看安装模块版本号: pip list / pip freezeNumPy和Pandas简介第二种安装方式:Anaconda集成环境Anaconda 是一种Python语言的增值开源发行版,用于进行大规模数据处理, 预测分析, 和科学计算, 致力于简化包的管理和部署。下载地址:https:/ NumPy和Pa
16、ndas简介 安装NumPy和Pandas: 更新Anaconda: conda update conda 查看Anaconda安装包: conda list Anaconda内置了大多数数据处理, 预测分析, 和科学计算的模块包(包括NumPy和Pandas),所以无需另外安装。 NumPy和Pandas简介 安装NumPy和Pandas: Anaconda安装模块包: conda install package_name Anaconda卸载模块包: conda uninstall package_name Anaconda更新模块包: conda update - package_name NumPy和Pandas简介 集成开发环境: IDE:Integrated Development Environment,集成开发环境。 数据分析领域:jupyter notebook NumPy和Pandas简介 集成开发环境: pip下安装方式: pip install jupyter 安装后命令行输入 jupyter notebook 或 ipython notebook打开。 Num