《sas数据仓库与数据挖掘.docx》由会员分享,可在线阅读,更多相关《sas数据仓库与数据挖掘.docx(41页珍藏版)》请在优知文库上搜索。
1、SAS数据仓库与数据挖掘一%业务数据中提炼决策支持信息的解决方案SAS研究所和SRS系统1利用SAS技术速立你的数据仓库2SAS数据仓库的蛆成4SAS数据仓库的体系结构6SAS数据仓库的开发9SAS的数据仓库产品-SAS/WA12SAS帮助你进行政格佗抱15SAS的数据挖犍的方法语-SEMMA17SAS数据花班的集成软件工具-SASEM(EnterpriseMiner)21决策支特智能化24企业级的强表制作工具-SASER+SASMDDB+SASIntrNet27在网上展开SAS功能31SAS研究所和SAS系统SAS系统是用于产京数据分析和决策支持的大型集成式模块化软件包。六十年代末到八十年代
2、初以统计分析及设性数学模型为主,并以比闻名于世。故其早期名为“Statistica1.Ana1.ysisSyStenr,SAS”即成为SAS软件研究所(SASInstituteInc.)产品的忌商标。SRS软件研究所跨国公司成立于1976年,总部设在美国北卡州瓦瑞市(CaryNorthCaro1.ina).SRS保持了20年连续不断的商位数的业务收入增长率,现已是金球最大的私人软件公司和全球排名第九位的独立软件现,嫌其是私人独立软件?h免受股市和公众段东资本的操级和影响,按自主意志杷收拉的很大局梆再投入于研究和开展,使其研发投资比重一直保持了全球软件业的领先地位.凭借这一技术优势,遍布世界的4
3、500多名SAS员工为120多个国票的三百五十多万SAS用户提供了行业公誉的嬴质量技术效劳和支持.面对当今竞争日趋剧烈*辞息万变的世界市场经济,从国家机关到企业界的各类人员都要面对各种机遇迅速作出抉择.计算机系琉支持人们能做出迅即反应业务处理的能力巳满足不了当今的蒂求,要信息技术对各个层次和各种类型决策进行支持已是IT行业开展必然芨势,SAS以其具有前哨性的技木开拓,在决策支持工具一战据仓库和弱据挖掘(IauWarehouse与DataMining)方面已连年被评为“年度最正确产品、景正确决策支持工具。公司卓著的业绩使之被评为“全美国人们最乐意为之工作的100宓公司”之一及“最正确决策支持工具
4、的供给面。Internet已成为世界信息的通勤大道.I1.nranet也已成为先进企业的信息经肤.SAS技术也与之有着同步的开展。SAS的IntrNCi产品使全部的SAS技术故大限度的实观了Icb-Enab1.e.这使得SAS原来冷多平台应用的开就机制扩段刎了网络计算环境和网际应用,这不仅使SAS使用更加力便,而且使那些以Thin-CIient运行的系统在使用SAS时节省了投链,并M少了系统维护的工作量。在这里将按下面五个肤络向你系统的介绍SAS技术:* SAS世界领先的蒙,仓席段术* SAS荻景正确决策支特工具表扬的数据挖掘变术* SAS的业务曾能化技术* SAS的企业纪J1.ft制作工具*
5、 SASa:Veb-Enab1.eawnt你可以通过宜到SAS研究所最新的技术信息。你还可以通过美国SAS研究所设立在北京(TCI:0106235128(0-3),上海(Te1.:)和广州(Te1.:)的办事处得到直接的咨询和技未支挎.利用SAS技术建立你的数据仓库由于便用SAS系统成功地建立了许多卓有成效的数怩仓库,SAS系统的数据仓库产品已连城沟年(19967997)被美国著名的DataeaHon评为“当年度最正琏产品.销管初也占据了SAS产品的首位.98年又在DCI全球数据仓库大会荣获Exce1.1.enceinBusinessInforma1.ion大奖,正象投据仓库虽然是个较新的词语
6、,但它是计算机技术开展的必然结果一样:SAS荻此殊荣也非一日之功,正是它顺合计算机技术开展规律的渊源所致.为什么在有了这么多数据库产品之后,人们又要用数据仓库技末.业界的各珞诸侯又如此君之若督.这正是计算机技术应用希求的推动.当今数据库技术大开殿的过程是伴随着O1.TP(On1.ineTransactionProCeSS联机业务处理应用需求的推动联机业务处理最迫切的技术要求就是快速响应。数据库技术.轩别是基于E.F.Codd搔出的关系理论的数据犀的技术,将数据集分成了基少冗余的实体(Entity),然后又将它们按一定的关系(Re1.ationship)编织成一个有机的整体,比较完美地满足了O1
7、.TP的应用需求。对于每个业务处理最好只须涉及一个实体,业务父理对于实体的Add或UPdate也只涉及数据媒体的可能最小的空间(如记录线封钺技术,对于其它实体的相关更新通过关系保持了一效性和完整性。这个切合当时O1.Tp应用实际需求的理论和技术的成功.推动了关系数据屋产品风行世界.象计算机技术的迅速开展一样,剧烈竞争的市场也激发了各行各业时计算机应用的更多样的箱求。计算机用户早巳不满足于计算机能帮助他迅速地处理具体业务,他们要从这大量业务数据中探索业务活动的规律性,市场的运作趋势,并从中为他们参与市项竞争作出重要的决策。由此而未产生了对DSS(DeCiSiOnSUPPortSyStem)决策支
8、挣系统的济求。支持决策就要进行数据,信息的分析,这就产生了O1.RP(On1.ineAna1.ysisProcess)联机数据分析苑理的需要.决策支持所依据的数据从哪里来,当然是成功运行着的业务处理致据库中的数抠。所以景早的决策支持所进行的数抠处理就是直接使用数据库中的数据。可和之为Ro1.RP.即利用关系蛾据库的数据迸行联机分析处理。SAS系统早就具有最强有力的数据分析处理能力,再加上SAS的SAS/ACCESS对几乎所有数据库和数据文件的强大的读取能力,以及SAS跨多平台的运作能力,SAS系统就成了最克香的RO1.AP工具.当Ro1.AP只使期很少的关系数据库表时,这一愫作是可行的。这种樵
9、作往往是针射后部姓问题选行的决策支持数据分析。但面对市砺的决策往往是涉及整个企业范的数据和信息。这就要同时启动大Jt的数据庠表,并且荽将众多表中的数据按一定的规律领合越来,形成恰好斜对所支持决策问J的数据内容。这样一个Ii程或许是十分复杂,且消耗大量资源,或许企业的舒据是分布在若干个系统中的,这样的数据整合过程几乎是冠以完成的。除此之外,在一个数据库表中的每一条记录也并不是某项决焚巫育妻的,这要按决筠文再的需要编制专用的数据体选程序.再者,联机业务处理系统中的数据有一个件性:即每一条记录都有产生,反鱼的变更、修改,直至败据记录不再变化的过程,葬之为“数据到位”。例如:一个物料在一个工厂中产生了
10、,联机业务苑理系统中就要添加一条相应的记录:这个物料不断地进行加工,就要在它的记录中记入加工的叁效:当这个物料打工成产品,破发货出厂,就要再登录这些出厂信息,此后,记录其生产过程的数据就再也不能修改了.如果要进行产品生产周期的分析,就只使用发货出厂后的那些物料的数据,而不能使用同一表中的正在加工的甥料的数据。由此可见,直接使用陕机业务处理系统中的数据进行决策支持数据的分析处理妩会产生许多麻烦的.冬至圣实现不了的.这时候,人们就会问为什么系统中有我帝要的数据,而我却无法运用呢!这不是说关系数据库不好,而是老产品遇到了新任务.E-R型的数据结构能完美地执行联机业务处理,但不适应较大规槿的决策支持政
11、据分析,尤其不适应企业级的决策支持数箔分析处理的需要。适应这一需求,应运而生的就是数抠仓库技术.在W.I1.ruo所著“Bui1.dingtheDataWarehouse”一书中给出了数据仓库的定义:“第库是*主H的、兽舍的、定的,并县回交的收集4号以文扑蜜决策的一科效城构帝式之一定义指出了数推仓库和事务处理系统之问的主要差异.数据仓库的目标是为了制定管理的决策隈供支持信息,这显著的与O1.TP系统的快速哨应需要不同。正象企业为了开展要进行业务更组一样,为了支持管理决策济要也要按决策业务科目的要求重俎OUP系统中的数据,并要按不同决策,分析内容分别姐织便之方便使用.这种基于主题的模式从用户角度
12、来看就是多重的数据重组结构.在杷数据笠我到数据结构重组后的金据仓库之前,先要建行蚊据转换,或称“整合”处理。这一处理包括几个必不可少的操作步皴,做到使致密完整.统一,这就确保了在使用数泰仓库时共中的数据是有质量保证的,对比后文有详述。简而言之,整合就是保证数抠准礴,到住,没有越出应有的数值范国,没有重复等,数利仓库中的数据不象事务处理基统中的数据那样频繁的修改,所以它是比较税定的(不必实时修改)。在一次数据分析的执行过程中使用的数据不律交更.这才能保正酉次在使用同一组信息进行分析时不会得出不同的答案.数君仓麻一般是按周、月或隔月从O1.TP系统周期性的批次更新效揖.由于具有数箔的时段稔定性,讨
13、数抠仓库来说就可以减少许多传统RDBMS必须的资源消耗,如:记录的辕机制.参照完整性的检登、数据接作的日志,以及检查点/回退(Ro1.1.back)等.和01.TP的“实际事件相比,SAS数提仓库的致据组织可呈多维时间段结构(时变的一一例如:1997年各个月份的锹售数据),这一数据结构供进行某一时间段众多事件的定量分析用,并产生相应的结论。从本质上说,数据仓库的目标是从联机业务处理系统中帏选出某项决黄所需的支抖数据,再在分析处理过程中裨出进行决策时有用的信息,供分析使用的这种时变数据亦可预先汇纳出若干层次的汇总数据以利决策支持使用,这样,在常规决策操作时就不必临时进行.基础数据的汇息处理了。S
14、RS系税提供的数据仓库模型是包括了数据仓犀管理、组织和悟息展现的整体解决方案,这是由一族有机限合产品用成的阵容强大的模型.在下列图中表示了SAS数据仓库的模型,管理组织展现SAS数据仓库一览总之,数据仓库是岩今社会的人们参与市场竞争等各项活动,耍迸行决策时的最适合的数据结构形式.是遗应企业重组(Re-Engineering)时,进行企业政据.信息电组的工具。SAS在数据仓库技术上的成功例证和经验也必然能帮助中国的企业更卓有成效的走向市场经济的大潮.SAS数据仓库的组成提京:在购篁数据仓库产品时注意其必不可少的技术环节数指仓库是适应决策支挣系统的需要而产生的,所以人们豁望所采用的软件产品能支椅决
15、策过程的全荀工作内容.SAS的数据仓库技木就是可以支持决策全过程的整体解决方案。包括:*从任何业务处理系统或数据源中取出决策所需蚊格*对源数据进行清理和整合* 按力案或规则进行数据仓库的装式和更新* 按支舟决策的常要,以多种形式选行数据和信息的组织* 景丰黛的决策敢据分析处理能力* 灵活多样的结果茨现方式如果你想建立决策支技系统的话,您就应当检登您所采用的软件工具是否具备上述全面的能力.SAS累诜的数号存取能力从早期的SAS技术来看,它就是一个十分通用,且又十分开放的孜件产品.唯右这样SAS才会在如此广泛的各种不同类型计算机系统平台和各种各样的环境中得到充分的运用.SAS有一个SAS/ACCE
16、SS产品,利用它可对众多不同招式的数据进行查询、访问和分析.SAS/ACCESS提供了与目前许多流行数据库软件和老的数据文件的接口,用SAS/ROCESS可建立对应外部异构数据的一个筑一的共用数据界面.所提供的与外部数据的接口是透明和动态的。用户可不必将数抠真的读到SAS系统中来.而只需在SAS系统中窿立对外部效抠的描述亦即所谓View),便可把这些外图数据当作真正存储在SAS条版中的数据集一样使用。这时,用户即可使用这些数据进行所iNRO1.AP式的数据分析和决策工作.对一些系常反复使用的外荀联据.亦可利用SAS/ACCESS将其真正提取放入SAS系统中.并进一步经垃整理放进数抠仓库.SAS/ACCESS提供的接口是双向的,既可将数据读入SAS系统,亦可在SAS系统中更新外部