《数据仓库系统结构模型.ppt》由会员分享,可在线阅读,更多相关《数据仓库系统结构模型.ppt(69页珍藏版)》请在优知文库上搜索。
1、Inmon数据仓库设计体系结构化环境三级模型高级模型中级模型低级模型性能优化目录目录数据仓库设计概述与数据库设计的区别处理类型应用需求设计目标数据来源设计方法对比内容对比内容数据库系统设计数据库系统设计数据仓库系统设计数据仓库系统设计面向的处理类型面向应用面向分析应用需求比较明确不太明确系统设计的目标事务处理的并发性、安全性、高效性保证数据的四个特征和全局一致性数据来源业务操作员的输入业务系统系统设计的方法需求驱动数据驱动数据仓库设计概述数据仓库设计概述数据仓库与数据库设计的区别处理类型不同处理类型不同数据库系统设计 面向应用来进行设计,根据具体的操作事件和操作对象(实体)来进行设计; 目的是
2、建立一个操作型的数据环境。 从需求开始,逐步展开数据仓库设计 面向分析的; 从最基本的主题开始,不断完善已有主题,发展新主题; 最终建立起一个面向主题的分析型数据环境。应用需求不同应用需求不同n 数据库系统设计 面向明确的应用需求 设计人员能够清晰地了解应用的需求和数据流程n 数据仓库设计 很难获得对用户需求的确切了解 应用人员往往是企业的中高层人员 他们自己一开始不知道想看什么,需要引导 后期又想什么东西都看,需要解释系统设计的目标系统设计的目标数据库系统设计为了进行OLTP处理通常是对一个或者一组记录的查询和修改,“一次一集合”主要为企业的特定应用服务的事务处理响应时间、数据的安全性和完整
3、性是系统的目标数据仓库设计为了分析决策主要目标是保证数据的四个特征(面向主题、集成的、稳定的、时变的),建立起一个全局一致的数据环境,作为企业决策支持的基础只有查询而无更新,“一次加载一批”对响应时间不敏感数据量大,海量数据数据来源不同数据来源不同数据库系统设计 数据来源主要是业务操作员的输入 描述如何通过操作员输入获取数据 描述如何将获取的数据按照OLAP的需求合理存放 如何使得OLTP的性能更加优化 如何保证事务处理的安全性数据仓库设计 数据主要来源于业务系统 主要解决如何从业务系统中得到完整一致的数据 如何对数据进行转换、清洗、综合,ETL 如何有效提高数据分析的效率与准确性系统设计方法
4、不同系统设计方法不同数据库系统设计“需求驱动”;先收集需求、分析需求,再进行设计和开发;系统的需求在收集和分析需求阶段之后就定下来了,一旦进入构建数据库阶段,系统的需求就基本不变了。数据仓库设计“数据驱动”从业务系统已经存在的数据出发,获取之后对数据进行集成并检查数据的准确性按照分析领域对数据及数据之间的联系重新考察,组织数据仓库中的主题。“数据驱动”的系统设计方法的优点是可以通过了解原有数据库系统中的数据和需要建设的数据仓库中主题的数据的共同性,最大限度地利用现有系统,减少系统建设的工作量。开发生命周期开发生命周期-CLDS传统的数据库系统的系统开发生命周期(SDLC)是需求驱动的,而数据仓
5、库系统的开发生命周期则是数据驱动的,与SDLC相反,一般写作CLDS,这种写法没有对应的实际意义,是一种幽默的写法。CLDS由数据开始,一旦数据到手就集成数据。然后,如果数据有偏差,就检验看看数据存在什么偏差。再针对数据写程序,分析程序执行结果。最后,系统需求才得到了理解。因此,CASE工具和技术用于数据仓库领域是不合适的。 促销分析促销分析 销售分析销售分析 市场分析市场分析 产品组合分析产品组合分析 财务绩效分析财务绩效分析 合并报表合并报表 EIS 管理报告管理报告 公司季报、年报公司季报、年报 投资者报表投资者报表 预测模型预测模型 指标体系指标体系 业务模式规划业务模式规划 What
6、-if分析分析 投资预算投资预算 长期发展预算长期发展预算 战略规划战略规划 日常运营预算日常运营预算数据仓库 / DM 螺旋式方式业务需求分析业务需求分析设计设计建造建造测试测试培训培训试点试点部署部署使用运行使用运行监控监控维护维护确认新需求确认新需求/改进改进实施范围实施范围业务驱动的业务驱动的需求分析需求分析设计设计建造建造测试测试培训培训试点应用试点应用部署部署使用使用监控监控维护维护发掘新需求发掘新需求和改进和改进两种数据仓库设计两种数据仓库设计Inmon数据仓库数据库设计的模式三级模型(高级、中级、低级)存储:关系数据库Kimball数据仓库维度建模技术维度设计/度量设计存储:多
7、维数据库/关系数据库两种数据仓库都需要面临的主要设计问题粒度与分割元数据ETL索引小结小结数据仓库的设计不同于事务处理的数据库的设计,是一个循序渐近的过程。数据仓库的选型是一个非常重要的问题,当前,选用Kimball数据仓库进行设计是很流行的,因此,实践中可优先考虑。面对复杂的数据,基于维度建模技术的Kimball数据仓库显得无能为力,还需要深入探索,因此,面向复杂数据类型的数据仓库是目前的研究热点。数据库数据库设计的三级模型设计的三级模型概念模型从客观世界到主观认识的映射首先将现实世界抽象为概念模型,然后再用适合计算机世界的模型和语言来描述ER图逻辑模型ER模型关系模型规范化视图约束物理模型
8、DBMS选型选择数据库文件的存储结构索引分配存储空间Inmon的三级模型的三级模型高级模型(高层模型)高级模型(高层模型)(数据库设计(数据库设计-概念模型)概念模型)即概念模型,用即概念模型,用E-R图表示图表示首先将现实世界抽象为概念模型,然后再用适合计算机世界的模型首先将现实世界抽象为概念模型,然后再用适合计算机世界的模型和语言来描述和语言来描述中级模型(中层模型)中级模型(中层模型)(数据库设计数据库设计-逻辑模型)逻辑模型)数据项(数据项(Data item set,DIS)模型)模型ER图的细分图的细分每个主题都与一个每个主题都与一个DIS对应对应DIS中的数据分为中的数据分为4个
9、组别:基本数据组、二级数据组、连接数据个组别:基本数据组、二级数据组、连接数据组和类型数据组组和类型数据组关系表(原模型不存在,补充的)关系表(原模型不存在,补充的)低级模型(底层模型)低级模型(底层模型)(数据库设计(数据库设计-物理模型)物理模型)物理数据模型物理数据模型每个企业的业务每个企业的业务模型只有一个模型只有一个父父子子1子子2概念模型与实现概念模型与实现无关,只有一个无关,只有一个逻辑模型:概念模逻辑模型:概念模型的映射,多个型的映射,多个物理模型:与逻辑模型物理模型:与逻辑模型对应,为其实现方式对应,为其实现方式实体主题DIS表实体 对应 主题?目录目录Inmon数据仓库设计
10、数据仓库设计体系结构化环境体系结构化环境三级模型三级模型高级模型高级模型中级模型中级模型低级模型低级模型性能优化性能优化中级模型中级模型-DIS中层模型通过所谓的DIS(Data Item Set, 数据项集)描述,DIS是对高层模型的细分,高层模型中的每个主题域(或实体)都要建立一个中间层模型,即对ER模型的细分。在中层数据模型上,有四个基本构造:初始数据组二次数据组连接件,表示主要主题域间的数据关系数据“类型”数据组之间通过键连接。数据组划分标准:稳定性稳定性顺序:初始数据组二次数据组类型数据组分组的目的:根据稳定性将数据分开,提高加载效率13高级模型高级模型中级模型映射中级模型映射一个实
11、体/主题对应一个DIS一个实体/主题一个DIS初始数据组(主要数据组)初始数据组(主要数据组)每个主要主题域有且只有一个主要数据组,其中包含了每个主要主题域只出现一次的属性(稳定)。同所有的数据组一样,初始数据组有属性和键码。一个主要数据组对应一个主题域。 初始数据组的数据稳定性最高,一般情况下是不变化的。 姓名、性别、住址二级数据分组二级数据分组包含对每个主要主题域可以存在多次的属性。有多少可以出现多次的不同数据组,就含有多少二级数据组。如一对多。二级数据分组的数据稳定性相对初级数据组要弱一些,但比类型数据组的数据稳定性要高。连接件连接件表示两个主要主题域间的数据关系,两个主题的联系。将数据
12、从一个组到另一个组联系起来。在E-R图层确定的关系在DIS层都必须有与其对应的连接件。主键与外键。连接器表明,数据仓库中的主题域之间是关联的,可见,通过连接件实现Inmon数据仓库 成为 有机整体,这在Kimball数据仓库中是不存在的。讨论:如果用于连接一个主题的不同数据组,连接件就是就是ER模型中的联系,连接不同主题域也是ER模型中的联系。具体通过键(无论ER模型中还是逻辑模型都有这个概念)连接实现。结论:连接件=联系。数据的数据的“类型类型”数据的“类型”由指向数据组的线段指示。左边的数据组是超类型,右边的数据组是子类型。类型数据组的数据的稳定性最低,会经常变化。如,一个人的信息(主要数
13、据分组)与他所做的事情(类型,分类了:工作、生活、情感)。DIS中的各组件中的各组件连接件例子:例子:DIS中数据组的稳定性中数据组的稳定性顾客的顾客号、姓名、性别等描述信息基本报纸不变,比较稳定,可作为主要数据组顾客的住址、文化程度、电话等也基本稳定,但存在改变的可能,相对主要数据组中的信息稳定性要弱一些,可作为二级数据组顾客的采购记录则经常发生变化,其稳定性低,因此,作为类型数据组这样划分的好处:结构清晰、减少冗余例子:一个例子:一个DIS连接件基本数据组商品ID客户ID姓名性别身份证号码住址文化程度电话Email交易ID商品金额购买时间交易ID商品金额购买时间交易ID商品金额购买时间类型
14、数据组电器服装图书一个主题商品ID连接件二级数据组另一个主题局部局部DIS与全局与全局DIS与企业ERD构建方法一样(由反映不同用户群体的不同ERD所建成,局部ER全局ER),企业DIS由多个DIS建成,在进行对个别用户的访问或JAD (联合应用程序设计)会议时,就要生成一个DIS和一个ERD。小范围的DIS和其他所有DIS一起形成一个反映企业观点的DIS。目录目录Inmon数据仓库设计体系结构化环境三级模型高级模型中级模型低级模型性能优化低级模型低级模型底层模型是逻辑模型在数据仓库中的具体实现,如物理存取方式、数据存储结构、数据存储位置、存储分配等。低级模型具体表现为一系列的关系表。低级模型
15、设计所要考虑的主要因素有I/O存取时间、空间利用率和维护代价数据仓库性能优化,如合并表、引入冗余等技术讨论:讨论:DIS能直接实现吗?能直接实现吗?Inmon的设计模型没有探讨DIS是如何过渡到低级模型的,中间似乎缺了一个重要的环节。这个环节是:关系表。关系表在原设计模型中没有深入讨论,遗憾!DIS仍然处于概念模型阶段,无非是细化了,低级模型则直接实现了,关系表在哪里设计的?缺憾!应该放在中间模型比较合适。补充:DIS 到 关系表 的映射,参考ER模型到关系模型的转化。有了关系表,具体实现(低级模型)就没有问题。了解:低级模型了解:低级模型-存储结构存储结构分布式存储采用磁盘阵列在多个节点间以
16、分布的方式来存储数据物理上是分布的,但是逻辑上是统一的集中式存储将现有SAN(存储局域网)或者NAS(网络连接存储)作为服务器的存储部分直接通过FC交换机来直接访问所有的数据而不需要通过其他节点可以将节点从数据存储管理的负担中解脱出来,实现数据处理和数据存储的分离。分布式存储分布式存储集中式存储集中式存储RAID思想思想RAID: Redundant Arrays of Inexpensive Disks (冗余 廉价磁盘阵列 )多盘联合, 统一对外 ,高速 高容量, 高可靠性high capacityhigh speed high reliability生活中的RAID, “三个臭皮匠抵上一个诸葛亮”,雇佣 三个臭皮匠 还是雇佣 诸葛亮?三个臭皮匠的成本要低拦截导弹 A型 命中率0.7 ,100万美元B型 命中率0.9 ,1000万美元用两个A型,至少一个命中的概率 1-(1-0.7)2= 0.91用3个A型,至少一个命中的概率 1-(1-0.7)3= 0.97可用机关炮打巡航导弹(合算),用多个低价盘代高价盘思想:冗余 提高可靠性,并行提高速度后面的推理基于一个假定: 两个廉价磁盘