《数据仓库与数据挖掘.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘.docx(38页珍藏版)》请在优知文库上搜索。
1、数据仓库与数据挖掘然而目前OLAP存在的最大问题是:业务灵活多变,必定导致业务模型随之经常发生变化,而业务维度与度量一旦发生变化,技术人员需要把整个Cube重新定义并重新生存,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,从而使所谓的BI系统称之死板的日常报表系统.在思达商业智能平台StyleIntelligenCe上进行海量数据的多维数据分析,从业务需求的角度出发,维度与度量才是直接针对业务人员的分析语言。在自主知识产权数据块儿技术支持下,直接把维度与度量的生成交给业务人员,由业务人员自己定义好维度与度量之后,将业务的维度与度量直接运行,并最终生成报表。
2、此种以终为始的设计思路,首先能解决传统OLAP分析中维度难以改变的问题,利用思达商业智能平台StyleIntelligenCe中数据非结构化的特征,业务人员能够灵活地改变问题分析的角度,对业务人员非常友善。其次思达商业智能平台StyleIntelligence在海量数据处理中利用分布式数据处理架构强大的分布式数据处理能力,不管OLAP分析中的维度增加多少,系统开销并不显著增长。XXX公司BI系统方案建议书IBM公司软件部二。九年九月IBM公司蚊据仓底府业智能解决方案目录第一章IBt122.1 葡业智修基本结构22.1.1 据仓库架构32.1.2 数据仓库:用于抽取、解分,分布、存储。用的信息4
3、2.1.3 多维分桅全方位了解现状42.1.4 前台分析工具52.1.5 数据挖版52.2 商业能方案实施原则52.2.1 分阶段、储序渐进的原则.52.2.2 实用除财6223珈耐W6XXX司Blmm73.1 XXX公司Bl系统的需求分析73.2 IBM的解决方案722/分阶段,慵序渐进的原则52.2.2 实用原则.62.2.3 知识原则.6第三章XXX公司Bl系统方案73.1 XXX公司BI系统的需求分析73.2 IBM的解决方窠73.3 建议架构9第四章所选IBM产品倚介114.1 DB2UDBIl4.1.1 概述:DB2家加Family)与DB2通用数据库(UDB)V7.2114.1.
4、2 DB2通用数据库(UDB)V7.2的特色124.1.3 DB2通用数据库(UDB)的其他先进功能224.2 DB2WarehouseMANAGER(数据仓库管理器)261.1.1 /DB2WalVhoUSeManagCr的.主饕部件.261.1.2 数据抽取、转换和加载(ETL)功能271.1.3 元数据(MetaDala)管理311.1.4 DB2WarehouseManager的其它技术特点314.3IBMOLAPServer(多维数据庠服务/)334.3.1 DB2OLAPSeNer引擎.334.3.2 DB2OLAPSener各个附件.34第一章概述随着小场竞争的U益激烈,各家公司
5、纷纷把提高决策的科学性、合理性提高到一个新的认识高度。在此背地下,利用佶息技术的最新手段,利用业务数据进行面向决策的分析这一方法纷纷被国内外许多公诃所采用,通过有目的、有选择地采集业务数据,并将其转换为对决策有用的信息,用十智能化的分析、预测和模拟等H的,这样的应用被称为商业智能应用,从国内外各行各业的发展经验看,实施商业智能是提高企业进行高效的业务分析和科学决策的有效手段。作为一个具有八十名年历史,以开发信息技术和商业应用而闻名的“蓝色巨人”,IBM在这一领域进行了多年的研究,发展出完备的商业智能技术,为商业数据自动转化为商业知识提供了现实的方案。商业智能的木质,是提取收集到的数据,进行智能
6、化的分析,揭示企业运作和市场情况,帮助管理U做出正确明智的经营决定。一般现代化的业务操作,通常都会产生大量的数据,如话单、账单以及客户资料等,其中一部分是决策关键数据,似并不是所有的数据都对决策Tf决定意义。商业智能包括收集、清理、管理和分析这g数据,将数据转化为有用的信息,然后及时分发到企业各处,用于改善业务决策。企业可以利用它的信息和结论进行更加灵活的阶段性的决策:如采用什么产品、针对哪类客户、如何选择和有效地推出服务等等,也可以实现高效的财务分析、销售分析、风险管理、分销和后勤管理等等,这一切都是为了降第二章商业智能综述2.1 商业智能基本结构当今,许多企业认识到只有靠充分利用,发掘其现
7、有数据,才能实现更大的商业效益。日常的商务应用生成了大量的数据,这些数据若用于决策支持则会带来显著的附加值。若再加匕市场分析报告、独立的市场调查、质量评测结果和顾问评估等外来数据时,上述处理过程产生的效益可进一步增强。而数据仓库正是汇总这些商用信息后,进而支持数据发掘、多维数据分析等“i今尖端技术和传统的查询及表报功能,这些对于在当今激烈的商业竞争中保持领先是至关重要的。那么怎样把这样大恸的数据转换成可靠的、商用的信息以便于决策支持呢?建立数据仓库正被广泛地公认为最好的转换手段。建立数据仓库的过程业务数据转换工具外部数据奇业主题管商业视图图1数据仓库建立过程HI川川川M成员映射禽业视团业务信息
8、根据【DC的调查,使用数据仓库的投资问报率平均超过400%,尤其是从小型数据仓库开始实施的平均超过500%O2.1.1 IBM数据仓库架构IBM早在90年代初期,就投入大量优秀技术人员和资金开始了数据仓库的研究,并启动了Star-Burst大型科研项目。该项目主要就是为了攻克数据仓库领域的一些技术难题,例如优化星型连接(Star-join),实现多维分析。因此,IBM现在发布的数据仓库产品都是经过反复推敲和久经考验的,真正做到让用户买起来放心,用起来舒心。基于对基于仓库结构的深刻理解和多年积累的经验,IBM设计了自己的数据仓库结构,见下图:数据仓库的组成。作为一个开发式结构,它方便了用户的产品
9、选择、实施和今后的犷展。OLTP业务系统数据仓库数据集市DSS图2旧M数据仓库架构上图为IBM三层次数据仓库结构:从第一层OLTP业务系统到第二层数据仓库为建仓过程,从第:层到第三层数据集小为按主题分类建立应用的过程。第一步包括数据抽取、数据转换、数据分布等步骤,按照统一的数据格式标准进行统的数据转换,建立可被企业各部门充分共享的数捌仓库。其中,数据抽取阶段完成对各种数据源的访问,数据转换阶段完成对数据的清洗、汇总和合等,数据分布阶段完成对结果数据存储的分配。这三个阶段通常紧密结合在一起,由一个产品或几个产品配合实现。例如,DB2WarehouseManager既可独立完成,又可结合DaIaJ
10、oiner、DataPropagator实现对异构数据和数据复制的处理。DB2WarehouseManager可进行数据映射的定义,以定期地抽取、转换和分布数据;DalaJOiner可访问的各种关系型数据库包括DB2数据库家族、ORAcLE、SYBASE、INFORMIX和MSSQLSerVer等;DaIaPn)PagaIor主要用于数据复制,采用数据复制的方式可对业务数据仓库进行增量数据更新,避免对作业系统事物处理性能的影响和大量重复抽取数据。数据的存储由DB2家族产品来完成,以保证数据仓库始终高性能地运转,提供完整、准确的数据,便于将来的升级和扩展。第二步,在按主题分类建立应用时,若既想拥
11、有多维数据库的独特功能,又要把数据存放在关系型数据库中以便管理,则DBZOLAPServer是用户的最佳选择。DB2WarehouseManager中提供的InformationCatak)g通过描述件数据帮助用户查找和理解数据仓库中的数据,InteHigentMiner用于数据挖掘以便帚助决策者预测或发现隐藏的关系。最后,我们以报表或图形的方式将结果数据呈现给用户,这通常由第三方产品来实现,它们包括:HyperionAnalyzer,Cognos,Brio,BusinessObjects等。商业智能的实现方式多种多样,其规模和特点由用户的需用来决定。但万变不离其宗,其基木体系结构往往包括三个
12、部分。2.1.2 数据仓库:用于抽取、整合、分布、存储有用的信息一个企业的信息往往分桶在不同的部门和分支机构,管理者要综观全局、运筹帷展,必须能迅速地找到能反映真实情况的数据,这幽数据也许是当前的现实数据,也可能是过去的历史数据。因此,有必要把各个区域的数据集合起来,去其糟粕、取其精华,将真实的、对决策TT用的数据保留下来,随时准备管理人员使用。因此,数据仓库不仅仅是个数据的储存仓库,更重要的是它提供了干富的工具来清洗、转换和从各地提取数据,使得放在仓库里的数据有条Tf理,易于使用。2.1.3 多维分析:全方婀了解现状管理人员往往希望从不同的角度来审视业务数值,比如从时间、地域、产品来看同一类
13、业务的总额。每一个分析的角度可以叫作一个维,因此,我们把多角度分析方式称为多维分析。以前,每一个分析的角度需要制作一张报表。由此产生了在线多维分析工具,它的主要功能,是根据用户常用的多种分析角度,事先计算好一些辅助结构,以便在查询时能尽快抽取到所要的记录,并快速地从一维转变到另一维,将不同角度的信息以数字、宜方图、饼图、曲线等等方式展现在您面前。2.1.4 前台分析工具提供简单易用的图形化界面给管理人员,由他们口由选择要分析的数据、定义分析角度、显示分析结果。往往与多维分析工具配合,作为多维分析服务器的前台界面。以上三部分是商业智能的基础。它完成的是对用户数据的整理和观察,可以说,它的工作是总
14、结过去。在此基础结构之上,商业智能可以发挥更进一步的作用,利用数据挖掘技术,发现问题、找出规律,达到真正的智能效果:预测将来,2.1.5 数据挖掘o正如在矿井中可以挖掘出珍贵的矿石,在数据仓库的数据里也常常可以挖掘出业务人员意想不到的信息。它比多维分析更进一步。例如,如果管理人员要求比较各个区域某类业务在过去一年的情况,可以从多维分析中找答案。但是,如果管理人员要问为何一种业务在某地区的情况突然变得特别好或是不好,或者问该业务在另一地区将会怎么样,这时数据挖掘工具可以作出回答。简单的说,数据挖掘使用统计、分析等数学方法、以及电脑学习和神经网络等人工智能方式,从大量的数据中,找寻数据与数据之间的
15、关系。这种关系,-般显示数据组之间相似或相反的行为或变化。一个细心的分析者,往往能从这些发掘出来的关系得到后示。而这种后示又很可能使得到它的业者,获得其他竞争者所没有的先机。数据挖掘要求有数据仓库作基础,并要求数据仓库里已经存有丰富的数据。因此,在实施商业智能方案时,一般分两步走:第一步实现数据仓库和多维分析,构造商业智能的is础,实现分析应用:第.步实现数据挖掘,发挥商业智能的特色,2.2 商业智能方案实施原则实施商业智能方案项目工程,与实施传统的应用宏统有很大的不同。其中最重要的是,商业智能的实施是不断的交流过程,只有双方紧密的合作才能取得实施的成功。我们建议,I.程实施上采取以卜原则:2.2.1 分阶段、循序渐进