《模式识别与大数据.docx》由会员分享,可在线阅读,更多相关《模式识别与大数据.docx(9页珍藏版)》请在优知文库上搜索。
1、学科分类号(二级)YUNNANNORMALUNIVERSITY本科学生毕业论文题目基于模式识别理论的大数据集的数据质量分析姓名张洪光学号114090428院、系物电学院电子系专业电子信息科学指导教师何文学职称(学历)教授基于模式识别理论的大数据集的数据质量分析摘要:随着互联网、挪移互联网和物联网的发展,我们已经切实地迎来了一个海量数据的时代,分析调研机构发布了新的数字宇宙研究报告从混沌中提取价值这一报告显示,全球信息总量每过两年,就会增长一倍。年,全球被创建和被复制的数据总量为O相较去年同期,这一数据上涨了超过,这相当于全球每一个人每天都去做亿次高分辨率的核磁共振检查所产生的数据总量。因此,数
2、据增长态势下,如何对海量数据进行管理及分析已经成为一个非常重要且紧迫的需求。而数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障。数据质量保证是数据仓库架构中的重要环节,在当今网络化的数据时代,数据质量成为理论研究和实际应用的热点问题。模式识别是世纪年代以来在信号处理、人工智能、控制论、计算机技术等学科基础上发展起来的新型学科,以其速度快,准确性高,效率高等显著特点对大数据处理方面有其特殊的优势。关键词:模式识别;大数据;数据质量分析大数据()是继云计算、物联网之后产业又一次颠覆性技术变革。对国家管理模式、企业的决策、组织和业务流程、个人生活方式都将产生巨大的影响。一、大数据的
3、意义(一)大数据的国家战略意义信息时代的海量数据,是支撑国家安全与发展的重要战略资源。谁占领信息技术优势,谁就会最大限度地存储、挖掘和使用“海量数据”,牢牢掌握“海量数据”开辟利用的主动权。有人形象地称之为“数据主权”。对于大数据在中国的作用,体现为四个方面:一是通过实施“循数管理”,可提高决策能力。比如,通过分析春节期间挪移用户漫游情况,掌握人口的流动规模与迁徙规律,可以为交通管理、铁路运输、公共安全管理等提供决策参考。二是基于大数据应用,逐步开放公共数据,打造透明政府,提高政府公信力。可率先效仿国际上做法,建立中央政府层面的公共数据服务平台,建立相关规范和制度,推动各个行业、各大企业在公共
4、服务领域数据的开放。三是基于大数据分析,监控重大社会事件,构建科学预警监控体系,更好地服务民生。利用遍布政府和社会各领域的数据,在医疗健康、食品卫生、道路交通、地质灾害、社会舆情、信息安全、国土安全等各领域进行智能分析研究,可以有效实现对于重大安全、危机、风险的防范和预警。四是各个行业都需要强化大数据意识,通过数据来提高效率、提升精细化和智能化水平,才干推动从中国创造走向中国创造,创造更大的价值。(二)大数据对企业的导向作用信息时代的到来,网民与消费者界限正在消弭,企业的疆界变得含糊,传统企业和互联网企业竞争矛盾加剧,数据成为核心的资本并将深刻影响企业的商业模式,甚至重组其文化和组织。大数据对
5、企业的作用表现在以下四个方面。第一,大数据时代将给网络广告市场的发展带来质的飞跃。大数据时代,众多互联网企业产生了规模庞杂的用户数据,既包括性别、年龄、地域、学历、职业等基本属性,也包括爱好、上网行为轨迹、购物行为习惯、用户间的关联度等深层次的属性。大数据的价值在于为广告主和代理公司更高效、更准确地锁定目标受众打下了坚实的基础。第二,互联网企业对海量数据的深入挖掘,有助于加深其对于用户行为、爱好等方面的了解,为用户打造个性化的服务,并针对产品及服务进行优化。第三,互联网企业通过对大量数据的分析研究,可以实现对市场新需求的及时把握,带来产品、服务乃至商业模式的创新。第四,面对大数据的浪潮,对于互
6、联网企业而言最为关键的挑战是实现对海量数据的实时监测,并依据监测结果进行实时决策。(三)大数据对个人的影响国家对大数据的重视,使得每一个人对社会的需求得到了回应,个人对的衣、食、住、行等方面的要求有了及时的响应;企业在大数据时代迎来的挑战和重大转型也影响着个人学习和生活的方向;同时,大众作为国民,也做为消费者的角色也能在国家和企业的发展方向上起着决定性的作用。二、大数据引起的变革(一)大数据内涵()大数据的四个主要特征大数据的个典型的特征,即所谓的个“”多样性()体量()速度()价值()0多样性是指,数据类型多,应包含结构性和非结构性的数据,体量是指聚合在一起供分析的数据量必须是非常庞大的,而
7、速度则是指数据处理的速度必须很快,价值体现在价值密度低,商业价值高。干JS磐既产多性性体量图片.widt 城音第A信总*u*事川*息dc就依察宇婿犬修台 及明.到2020年.金心 意使网里修rt,M4M送到 36_2ZB图:大数据的四个特征()大数据主要来源国家数据检测统计中心,企业内部的经营交易信息,物物流信息,互联网世界中人与人交互信息、位置信息等是大数据四个主要来源。国家统计局,地理信息监测,国家安全信息局等实时获取政治、经济、生活、安全等数据;企业内部包括联机交易和联机分析数据,如阿里巴巴、淘宝等;来自社交网站的数据,如新浪微博、等的数据。企业消费者供应链MJ大交易数据.大交互数据SN
8、S互联网物联网移动翁调大数据处理SOCIAL Mrou DATAORLME TRAMSACnOH PROCESSING (OLTPJOHUKE Amalytical FRocesamo (OLAp8 DWAPrUAMCcAOTHER IIfTriUCTlOM DATACIeftMrBM( wUfaH,wf SclMUfAMMtCtMJ IOVtWUMRB AMirOMB图:大数据来源大数据触合()大数据赋予我们预测未来的能力一一数据分析数据分析对国家制定发展计划,对企业了解客户需求,把握市场动向。数据分析,首先是数据质量分析,数据质量包括数据完整性、一致性、准确性、及时性;数据质量分析又涉及到
9、数据采集,处理和应用三个方面。数据分析的个层次。一是可视化分析,直观展示数据,让数据说话;二是数据挖掘算法,给机器看数据;三是语义引擎,解析、提取、分析非结构化数据;四是预测性分析;五是数据质量管理。()数据分析的处理方法一一模式识别模式识别是对表征事物或者现象的各种形式的(数值、文字和逻辑关系)信息进行处理和分析,以对事物或者现象进行描述、辨认、分类和解释的过程。通常使用方法为决策理论方法和句法方法。决策理论方法。首先将被识别的对象数字化,变换为合用于计算机处理的数字信息,一个模式常需要很大的信息量来表示。排除干扰鉴别函数数字化k预处理特征抽取分类 分析对象空间特征空间决策空间图:决策理论鉴
10、别函数:由特征矢量计算出的相应于各类别的鉴别函数值,通过鉴别函数值进行实体分类。句法方法也叫结构方法或者语言学方法。其基本思想是把一个模式描述为较简单的子模式的组合,子模式又可描述为更简单的子模式的组合,最终得到一个树形的结构描述,在底层的最简单的子模式称为模式基元。在句法方法中选取基元的问题相当于在决策理论方法中选取特征的问题。个模式简单的子模式更简单的子模式模式基元三、大数据的技术发展()大企业的技术战略大数据是迈向智慧世界的自然演进,用托夫勒第三次浪潮一书中的说法,如果说的主机拉开了信息化革命的大幕,那末“大数据”才是第三次浪潮的华丽乐章。旧“拼觉华*裨供一个学而的闩*前所京常如信同爆t
11、iir,因为信且曼克诧笈次里、种曼、板式是W力L都是尾与式t?”2J10T1JR收呻分析”件供应通(.OBTarCS2X晔1旧卬叼IMf分似住雁伊周SPSS.在黄121M2309年1月收购n勇规则及软件供应BiLoG,在会3亿4Y万美元2X7年花/N)亿美元的的Ai4智能IW供应商CMng杉渔屯伊电合作的阳珞平8,也彳3管处;SLlBMMNihjp二。CIalq计.口/l.tW业MIIl务(MMMS)IrfoSphprsbnsohts.最干PaCMH”oop2010*6月,金/与使用开源往木校台海眇据分析Ixtff)ApacbHadooP合作Cj户品照育内招f包的acheHacooof*tra
12、clnsqhtefomdata Nn阳1月,北卡界*5州“明旧”去麻豉中.U南乜樗空和穴Gd的大学研亢”月的冷皆和修作机会的力程 其他户;He4.大美日科馆无图:的布局微次馄中了甚理能X算能力井006年旅即ndowComputeCIUGQr服务符进入相美疥场七.NtTtfTHn升岌公SKUryad并仃处&穴在工技*置山口P)*-i是HPCSMY。面明IB crtFrvmrwsMfsc rvRrhit-w,*X作口 w+y-&钊幡斗牛A力和内高4他 度的设WnJJW5ShhK人的离忡统计短的次方事.il* Or以在*c环电内质胃.rs.万博路忡软力件工及 a以开友re”国用的分R式i UGi*对
13、热爱化 DLINXI弋了基TUf “d的应即秘于过理餐IJ上开发了基本局时将侵工具(DLAS,,用京利 即三行土命相中的研亢尾五ZJrC上逅行搜宓号8来打 馅比合物的大生敷珞厚以司求四配效密公”宣有他本m本的超级/算机-Ojb2g2T破了界晤.*户 HFC Serve-tj*MLuyJTSEtWIfrIM唳琳IhiffWWrrVVndcw HPC SreMd WVLojx图:微软的新技术w.千膏丈夫女籍健供打室提庠罚或据序承件主费用于配合SUn n*,t.特刈建它n身“育,服29年7月地岫专注于数据复匐制度里散地T成朝,方案 妁U人企业XIdEn3te Strwaremrr三M岬备文正大雷IR
14、竹炀宜、竹心产品EXadYa ST”体起伊Tl决万案9在F大公 Ie处整.主K5甲于石汕和天然,切极慎犹(附注. 年运营收入1,亿兆元)Edog(, HEi+,款先ExRdL). ,4togk.BJ 以Ha处建一d万个HnPS束.Mi-=IiM*H的 LaCbeeok.SunSPARC SUDefZQSieu ttRACfl mnt*Fat 数公叵的先要墓也方事最if.甲膏文力的EXMjI3X2启*力了STB的内存便点. Recently. Oracle 3rtie3 5TB Ot solid lalede* tn r .山山1乂2胃。牝叼(后亳鳗&夏一仲央电存储设舄.客户 其/%了正在由两人E