《数据仓库之路FAQ.docx》由会员分享,可在线阅读,更多相关《数据仓库之路FAQ.docx(23页珍藏版)》请在优知文库上搜索。
1、数据仓库之路FAQ数据仓库之路FAQyiyiya2002年10月FAQ目录一、 与数据仓库有关的几个概念21.1 目录2二、 数据仓库产生的原因5三、 数据仓库体系结构图7四、 数据仓库设计84.1 数据仓库的建模84.2 数据仓库建模的十条戒律:8五、 数据仓库开发过程95.1 数据模型的内容95.2 数据模型转变到数据仓库95.3 数据仓库开发成功的关键10六、 数据仓库的数据采集106.1 后台处理116.2 中间处理126.3 前台处理126.4 数据仓库的技术体系结构126.5 数据的有效性检查146.6 清除与转换数据146.7 简单变换156.8 清洁与刷洗176.9 集成176
2、.10 聚集与概括196.11 移动数据19七、 如何建立数据仓库207.1 数据仓库设计217.2 数据抽取模块217.3 数据保护模块22与数据仓库有关的几个概念1.1目录 Datawarehouse Datamart OLAP ROLAP MOLAP ClientOLAP DSS ETL Adhocquery EIS BPR BI Datamining CRMMetaDataDatawarehouse本世纪80年代中期,“数据仓库之父WilliamHJnmon先生在其建立数据仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理与决策中面向主题的、集成的、与时间
3、有关的、不可修改的数据集合。与其他数据库应用不一致的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工与分析的过程。而不是一种能够购买的产品。Datamart即数据集市,或者者叫做“小数据仓库”。假如说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他要紧面向部门级业务,同时只面向某个特定的主题。数据集市能够在一定程度上缓解访问数据仓库的瓶颈。OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.ECodd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的
4、简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库与多维分析的概念,即OLAPoCodd提出OLAP的12条准则来描述OLAP系统:准则1OLAP模型务必提供多维概念视图准则2透明性准则准则3存取能力推测准则4稳固的报表能力准则5客户/服务器体系结构准则6维的等同性准则准则7动态的稀疏矩阵处理准则准则8多用户支持能力准则准则9非受限的跨维操作准则10直观的数据操纵准则11灵活的报表生成准则12不受限的维与聚集层次ROLAP基于COdd的12条准则,各个软件开发厂家见仁见智,其中一个流派,
5、认为能够沿用关系型数据库来存储多维数据,因此,基于稀疏矩阵表示方法的星型结构(starschema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的OLAP称之RelationalOLAP,简称Re)LAP。代表产品有InformixMetaCUbe、MicrosoftSQLServerOLAPServices.MOLAP严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据的ArborSOftWare,开创了多维数据存储的先河,后来的很多家公司纷纷使用多维数据存储。被人们称之MuiltDimensionC)LAP,简称MOLAP,代表产品有HyPe
6、riOn(原Arborsoftware)ESSbaSe、ShowcaseSTRATEGYoClientOLAP相关于SerVerOLAP而言。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有BrioDesigner,BusinessObject.DSS决策支持系统(DecisionSupportsystem),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据与信息,通过加工整理,来为企业决策管理层提供信息,为决策者的决策提供根据。ETL数据抽取(EXtract)、转换(Transform)、清洗(Cleansing)装载(LOad)的过程。构建数据仓库的重
7、要一环,用户从数据源抽取出所需的数据,通过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。Adhocquery即席查询,数据库应用最普遍的一种查询,利用数据仓库技术,能够让用户随时能够面对数据库,获取所希望的数据。EIS领导信息系统(ExecutiveInformationSyStem),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而专门制定的以简单的图形界面访问数据仓库的一种应用。BPR业务流程重整(BusinessProcessReengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作。数据仓库的重要作用之一。BI商业智能(
8、BUSineSSlnIigenCe),指数据仓库有关技术与应用的通称。指利用各类智能技术,来提升企业的商业竞争力。Datamining数据挖掘,DalaMining是一种决策支持过程,它要紧基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,作出正确的决策CRM客户关系管理(CUStOmerRelatiOnShiPmanagement),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲,CRM事实
9、上应该算是一个古老的“应用”了。比如I,酒店对客人信息的管理,假如某个客人是某酒店的老主顾,那么该酒店很自然地会明白这位客人的某些习惯与喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间与服务。这就是一种CRM.MetaData元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等有关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善储存,并很好地管理。为数据仓库的进展与使用提供方便。、数据仓库产生的原因事务处理环境不适宜DSS应用的原因要紧有
10、下列五条:(1)事务处理与分析处理的性能特性不一致。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不一致,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不一致处理性能的两种应用放在同一个环境中运行显然是不适当的。(2)数据集成问题。DSS需要集成的数据。全面而正确的数据是有效的分析与决策的首要前提,有关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,要紧有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据与非结构化数据。(
11、3)数据动态集成问题。静态集成的最大缺点在于,假如在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据务必以一定的周期(比如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。(4)历史数据问题。事务处理通常只需要当前数据,在数据库中通常也是存储短期数据,切不一致数据的储存期限也不一样,即使有一些历史数据储存下来了,也被束之高阁,未得到充分利用。但关于决策分析而言,历史数据是相当重要的,许多分析方法务必一大量的历史数据为依托。没有历史数据的全面分析,是难以把握企业的进展趋势的。DSS对数据在空间与时间的广度上都有了更
12、高的要求,而事务处理环境难以满足这些要求。(5)数据的综合问题。在事务处理系统中积存了大量的细节数据,通常而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不一致程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往由因此一种数据冗余而加以限制。要提高分析与决策的效率与有效性,分析型处理及其数据务必与操作型处理及其数据相分离。务必把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储与组织技术。三、数据仓库体系结构图中 O做 M ”铁箱整9仓方ttK
13、*QJQWEnd-User ToolsDBSchemaTransformationSChedUMngOLAPMicrosoftReDositorvDataWarehouseManagementData Flow.iDni .z9W四、数据仓库设计4.1 数据仓库的建模 数据模型D所有的实体都是平等关系。2)仅仅从数据模型的角度来着手设计数据仓库会产生一种“平面”效应。 星型连接1)事实表:位于星型连接的中央,它是被大量载入数据的实体。2)维表:周围的其它实体。3)在很多情况下:文本数据与数值数据是分离开的。通过数据预连接与建立有选择的数据冗余,设计者为访问与分析过程大大简化了数据。星型连接应用
14、于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实体。4.2数据仓库建模的十条戒律:D务必回答紧迫的问题;2)务必有正确的事实表;3)将有正确的维表,描述务必按最终用户的业务术语表达;4)务必懂得数据仓库所影响的公司过程或者影响数据仓库的公司过程;5)关于事实表,应该有正确的“粒度”;6)根据需要存储正确长度的公司历史数据;7)以一种关于公司有意义的方式来集成所有必要的数据;8)创建必要的总结表;9)创建必要的索引;10)能够加载数据仓库数据库并使它以种适宜的方式可用。五、数据仓库开发过程建立或者获得企业的数据模型;定义记录系统;设计数据仓库并按主题领域进行组织;设计与建立操作型环境中的记录系统与数据仓库之间的接口,这些接口能保证数据仓库的载入工作能有序的进行;开始载入第一个主题领域,进入载入与反馈过程,数据仓库中的数据在此过程中也在不断地改变。5.1 数据模型的内容 标识要紧主题领域。 各个要紧主题之间的各类关系。 清晰地定义模型的边界。 把原始数据与导出数据分离。 每个主题领域需要标识/键码/属性,属性分组之间的关系 多重出现的数据 数据的类型5.2 数据模型转变到数据仓库 假如原先没有的时候间元素的话,时间元素务必加入到键码结构中 务必清除所有的纯操作型数据 需要将参照