《大数据与数据挖掘实验系统.pptx》由会员分享,可在线阅读,更多相关《大数据与数据挖掘实验系统.pptx(22页珍藏版)》请在优知文库上搜索。
1、大数据与数据挖掘实验系统大数据大数据的特点的特点大数据首先是数据量大,典型的大数据系统所管理的数据可达PB级其次大数据的来源复杂,数据质量差异较大最后大数据的数据关系复杂,难以用传统的关系型数据库描述大数据分析的基石大数据分析的基石数据获取与数据预处理数据统计等基础分析算法聚类分析等高级分析算法数据挖掘算法廉价大数据存储方案可扩展的弹性计算资源调度非结构化数据存储与加工算法并行化分析框架大数据实验系统所支撑的学科与课程大数据实验系统所支撑的学科与课程 数据挖掘 数据结构与算法 云计算与分布式系统计算机、信管学科 统计与建模 SAS及R语言统计分析 经济数据分析统计与经济学科 数据挖掘 商业数据
2、分析 实战案例分析商科与管理学科大数据与数据挖掘实验类别大数据与数据挖掘实验类别数据挖掘验证类实验数据挖掘算法设计类实验大数据分析基础类实验大数据分析实战分析实验大数据实验系统整体框架大数据实验系统整体框架大数据与数据挖掘实验基础软件大数据与数据挖掘实验基础软件数据挖掘基础语言环境R语言 最为流行的开源统计与数据挖掘软件 可跨平台运行,高效的脚本语言 为数据分析和显示提供的强大图形功能 丰富的高质量的开源第三方算法软件包大数据分析环境Hadoop 开源大数据分析的事实标准 大量的互联网公司作为实际生产平台 方便的Java开发环境 不断演进的良好生态环境大数据与数据挖掘实验基础软件大数据与数据挖
3、掘实验基础软件最流行的商用数据统计分析软件SAS 功能功能强大,统计方法强大,统计方法齐全齐全 使用简便,操作灵活使用简便,操作灵活简单而强大的通用数据分析软件Excel 数据数据统计分析统计分析 利用利用VBA进行数据挖掘分析进行数据挖掘分析通用开发语言Java 数据爬取 自然语言处理大数据实验平台网络拓扑大数据实验平台网络拓扑服务器端 R计算服务 Hadoop集群 虚拟化实验台学生端 远程连接 开发环境 测试环境大数据实验系统实验内容(大数据实验系统实验内容(1)数据挖掘展示性实验 用于展示常用数据挖掘算法的作用,使用者通过实验系统所提供数据集,直观理解数据挖掘算法的输出结果实验类型实验类
4、型实验名称实验名称统计与建模方法演示实验统计推断基础统计分布假设检验基本线性回归多变量线性回归广义线性模型实验类型实验类型实验名称实验名称数据挖掘方法演示实验数据可视化聚类数据降维分类基础决策树分类方法高级分类方法关联分析大数据实验系统实验内容(大数据实验系统实验内容(2)数据挖掘R语言开发实验 利用实验系统提供的R语言环境,学习基本的R语言开发方法,并针对提供的数据集开发数据挖掘算法实验类实验类型型实验名称实验名称R语言编程基础R语言基础R语言控制语句R语言数据类型R语言常用函数R语言程序调试实验实验类型类型实验名称实验名称R语言统计与建模R语言统计推断基础R语言统计分布R语言假设检验R语言
5、基本线性回归R语言多变量线性回归R语言广义线性模型实验实验类型类型实验名称实验名称R语言数据分析综合应用R语言建立信用评分模型R语言预测股票市场收益R语言预测经济指标R语言侦测欺诈交易R语言微阵列样本分类大数据实验系统实验内容(大数据实验系统实验内容(3)数据挖掘SAS开发实验 利用实验系统提供的SAS环境,学习基本的SAS开发方法,并针对提供的数据集开发数据挖掘算法实验实验类型类型实验名称实验名称SAS基础编程实验SAS基础SAS控制语句SAS数据类型SAS常用函数SAS程序调试实验实验类型类型实验名称实验名称SAS统计与建模SAS统计推断基础SAS统计分布SAS假设检验SAS线性回归SAS
6、多变量线性回归SAS广义线性模型实验实验类型类型实验名称实验名称SAS数据挖掘算法SAS数据可视化SAS聚类SAS数据降维SAS分类基础SAS决策树分类方法SAS高级分类方法SAS关联分析实验实验类型类型实验名称实验名称SAS数据分析综合应用SAS建立信用评分模型SAS预测股票市场收益SAS预测经济指标SAS侦测欺诈交易SAS微阵列样本分类大数据实验系统实验内容(大数据实验系统实验内容(4)基于Hadoop的大数据基础实验 利用实验所提供的环境,学习基本的MapReduce 算法,利用提供大数据在Hadoop实现大数据实战分析实验类实验类型型实验名称实验名称大数据基础实验Hadoop环境的搭建
7、实验基础MapReduce开发实验迭代式MapReduce程序和计数器实验分区、排序和合并算法实验Hive的使用实验类型实验类型实验名称实验名称大数据实战实验超市零售数据分析实验NetFlix电影数据分析实验新浪微博消息分析实验带有情感标签的微博数据分析实验网络安全日志分析实验出租车GPS位置分析实验社交资源共享站点用户行为分析实验大数据实验系统实验内容(大数据实验系统实验内容(5)与大数据相关的其他实验 实现大数据分析中常用的Excel数据分析、数据爬取、自然语言处理、数据库使用等实验实验实验类型类型实验名称实验名称Excel数据处理与分析Excel基本操作Excel数据可视化Excel函数
8、与公式Excel透视表Excel数据分析VBA程序基础VBA控制语句VBA常用函数VBA综合应用实验实验类型类型实验名称实验名称My SQL数据库操作MySQL配置SQL中的DDL语句SQL中的DML语句SQL中的DCL语句MySQL常用函数MySQL存储过程和自定义函数实验实验类型类型实验名称实验名称JAVA数据爬取抓取网页处理HTML页面非HTML正文抽取设计爬虫队列并行爬虫实验实验类型类型实验名称实验名称JAVA自然语言处理字符串编码正则表达式自动分词句法分析语义分析实验平台管理方式实验平台管理方式B/S架构的管理体系,系统分为管理员、教师与学生三种角色管理员管理实验内容以及教师用户注册
9、,教师管理实验开放、实验流程以及学生打分学生用户完成实验内容,提交实验报告虚实结合的实验平台虚实结合的实验平台以云计算的方式提供实验开发环境以学生端虚拟化的方式提供本地Hadoop环境以后台服务方式提供R语言自动运行服务以Shell方式提供支持大数据的Hadoop运行环境自动化实验管理平台自动化实验管理平台学生端实验环境自动启动与环境恢复服务端资源自动分配与调度实验数据集自动化准备与初始化实验过程说明(实验过程说明(1)数据挖掘展示性实验1 学生在浏览器中阅读实验文档,并下载样例数据集2 学生在样例数据集上做修改,从浏览器提交数据集3 服务器引擎进行计算,学生从浏览器查看分析结果实验过程说明(
10、实验过程说明(2)数据挖掘R语言开发实验1 学生在浏览器中阅读实验文档,并启动开发虚拟机2 学生在开发虚拟机中进行R实验3 学生整理实验结果,从浏览器提交实验报告实验过程说明(实验过程说明(3)大数据基础实验1 学生在浏览器中阅读实验文档,并启动开发虚拟机和本地Hadoop集群虚拟机2 学生在开发虚拟机中开发Hadoop程序3 学生在本地Hadoop集群测试Hadoop程序4 学生从浏览器提交Hadoop程序5 服务器Hadoop集群进行计算,学生从浏览器查看运行结果6 学生整理实验结果,从浏览器提交实验报告实验过程说明(实验过程说明(4)综合性实验1 学生在浏览器中阅读实验文档,并启动开发虚拟机2 学生在开发虚拟机中开发Hadoop程序或用R语言处理数据3 学生启动Shell接口,与服务器Hadoop集群直接互动4 学生整理实验结果,从浏览器提交实验报告 谢谢谢谢