《第3章 数据仓库系统的设计与开发.ppt》由会员分享,可在线阅读,更多相关《第3章 数据仓库系统的设计与开发.ppt(55页珍藏版)》请在优知文库上搜索。
1、2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘1第第3章章 数据仓库数据仓库系统的设计与开发系统的设计与开发 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘23.1 数据仓库系统的设计与开发概述数据仓库系统的设计与开发概述 l建立一个数据仓库系统的参考步骤建立一个数据仓库系统的参考步骤 l数据仓库系统的生命周期数据仓库系统的生命周期 l创建数据仓库系统的两种思维模式创建数据仓库系统的两种思维模式 l数据仓库数据库的设计步骤数据仓库数据库的设计步骤 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘33.1.1
2、建立一个数据仓库系统的参考步骤建立一个数据仓库系统的参考步骤l收集和分析业务需求步骤收集和分析业务需求步骤 l建立数据模型和数据仓库的物理设计建立数据模型和数据仓库的物理设计 l定义数据源定义数据源 l选择数据仓库技术和平台选择数据仓库技术和平台 l数据的抽取、清洗和转换数据的抽取、清洗和转换l各种辅助工具和软件的选择各种辅助工具和软件的选择l更新数据仓库更新数据仓库 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘4(1)收集和分析业务需求)收集和分析业务需求l访问项目经理访问项目经理l访问客户高层管理部门访问客户高层管理部门l访问用户访问用户l访问信息技术人员访
3、问信息技术人员2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘5访问项目经理访问项目经理2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘6访问客户高层管理部门访问客户高层管理部门2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘7访问用户访问用户2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘8访问信息技术人员访问信息技术人员2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘9(2)建立数据模型和数据仓库的物理设计)建立数据模型和数据仓库的物理设计 l建立数据
4、仓库的数据模型建立数据仓库的数据模型l设计数据仓库的概念模型设计数据仓库的概念模型l设计数据仓库的逻辑模型设计数据仓库的逻辑模型l设计数据仓库的物理模型设计数据仓库的物理模型2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘10建立数据仓库的数据模型建立数据仓库的数据模型面向主题(对象)为多个面向应用的数据源的集成提供标准2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘11设计数据仓库的概念模型设计数据仓库的概念模型继承建立数据模型面向主题的思想采用信息包图法设计,全面描述信息包图的5个组成部分(名称、维度、类别、层次和度量)2023-11
5、-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘12设计数据仓库的逻辑模型设计数据仓库的逻辑模型通常采用星型图法设计完整描述星型图的5类逻辑实体2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘13设计数据仓库的物理模型设计数据仓库的物理模型采用物理数据模型法设计将物理数据模型的5类表详细描述出来2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘14(3)定义数据源)定义数据源 在已有系统中定义记录系统。2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘15(4)选择数据仓库技术和平台)选择数据仓库技术
6、和平台 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘16(5)数据的抽取、清洗和转换)数据的抽取、清洗和转换 从操作型数据库中抽取、清洗及转换数据到数从操作型数据库中抽取、清洗及转换数据到数据仓库据仓库2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘17(6)各种辅助工具和软件的选择)各种辅助工具和软件的选择 选择访问和报表工具,选择数据库连接软件,选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件选择数据分析和数据展示软件2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘18(7)更新数据仓
7、库)更新数据仓库 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘193.1.2数据仓库系统的生命开发周数据仓库系统的生命开发周期期 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘203.1.3创建数据仓库系统的两种思维模式创建数据仓库系统的两种思维模式 l自顶向下(自顶向下(Top-down)l自底向上(自底向上(Bottom-Up)2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘213.1.4数据仓库数据库的设计步骤数据仓库数据库的设计步骤 2023-11-142023-11-14数据仓库与数据挖掘数据仓
8、库与数据挖掘223.2 基于基于SQL Server的数据仓库数据库设计的数据仓库数据库设计l分析组织的业务状况及数据源结构分析组织的业务状况及数据源结构 l组织需求调研,收集业务需求组织需求调研,收集业务需求 l采用信息包图法进行数据仓库的概念模型设计采用信息包图法进行数据仓库的概念模型设计 l利用星形图进行数据仓库的逻辑模型设计利用星形图进行数据仓库的逻辑模型设计 l数据仓库的物理模型设计数据仓库的物理模型设计 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘23MS SQL Server 2005的数据仓库架构的数据仓库架构 2023-11-142023-11
9、-14数据仓库与数据挖掘数据仓库与数据挖掘243.2.1分析组织的业务状况及数据源结构分析组织的业务状况及数据源结构 l开发的第一步是要了解和理解组织的开发的第一步是要了解和理解组织的业务状况,对于企业来说,也就是要业务状况,对于企业来说,也就是要熟悉企业的生产经营流程,同时初步熟悉企业的生产经营流程,同时初步获取在这些流程中的分析需求,为最获取在这些流程中的分析需求,为最终确定用户需求做好准备终确定用户需求做好准备;l对数据源结构的分析与理解对数据源结构的分析与理解 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘25Adventure Works 示例数据仓库示
10、例数据仓库1.公司简介公司简介2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘26Adventure Works 示例数据仓库示例数据仓库2.原材料采购、生产和销售等环节的业原材料采购、生产和销售等环节的业务流程介绍务流程介绍2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘27(1)原材料与仓储业务流程原材料与仓储业务流程 采购部经理采购员供应商原材料1/mn/o1/o经理管理员原材料仓库1/mn/om/1仓库管理部门员工信息原材料信息管理员信息库存信息供应商信息2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘
11、28(2)产品销售业务流程产品销售业务流程 销售经理销售员顾客商品1/n商品信息销售员信息顾客信息商品信息2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘29Adventure Works 示例数据仓库示例数据仓库3.对数据源结构的分析与理解对数据源结构的分析与理解 l个人客户相关数据个人客户相关数据 l产品相关数据产品相关数据 l原材料采购相关数据原材料采购相关数据2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘303.2.2组织需求调研,收集业务需求组织需求调研,收集业务需求 l 关于用户需求的调研关于用户需求的调研 l对用户需求调研
12、结果的分析对用户需求调研结果的分析 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘313.2.3采用信息包图法进行数据仓库的采用信息包图法进行数据仓库的概念模型概念模型l信息包图法简介信息包图法简介 l信息包图的建立信息包图的建立 l设计基于主题域的概念模型设计基于主题域的概念模型 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘323.2.4利用星形图进行数据仓库的逻辑模利用星形图进行数据仓库的逻辑模型设计型设计 1.根据分析需求与信息包图制作星形图或雪花图根据分析需求与信息包图制作星形图或雪花图 2.确定主题的属性组确定主题的属性组
13、 3.事实表及其特征事实表及其特征4.事实表的类型与设计事实表的类型与设计 5.粒度的选择与设计步骤粒度的选择与设计步骤 6.关于数据仓库的聚合模型关于数据仓库的聚合模型7.关于数据的分割处理关于数据的分割处理 8.星形图中的维度表简介星形图中的维度表简介 9.关于缓慢变化维的处理关于缓慢变化维的处理10.常用维度的设计模式常用维度的设计模式 2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘331.制作星形图或雪花图制作星形图或雪花图维度维度信息包图:信息包图:销售分析销售分析类类别别时间维时间维区域维区域维产品维产品维客户维客户维广告维广告维年度年度(5)国家国家
14、(10)产品类别产品类别(500)年龄组年龄组(7)广告费广告费(5)季度季度(20)省州省州(100)产品名称产品名称(9000)收入组收入组(8)月月(60)城市城市(500)信用组信用组(2)日日(1800)销售点销售点(8000)度量指标:实际销售额、计划销售额、计划完成率度量指标:实际销售额、计划销售额、计划完成率将信息包图转化为星型图2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘341.制作星形图或雪花图制作星形图或雪花图销售分析客户区域广告时间产品(指标)(维度、类别)产品类别(类别)2023-11-142023-11-14数据仓库与数据挖掘数据仓库
15、与数据挖掘352.确定主题的属性组确定主题的属性组通过对业务流程的分析后设计出概念模型,根据概念模型定义的主题、主题域确定主题的属性组2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘36采购部经理采购员供应商原材料1/mn/o1/o经理管理员原材料仓库1/mn/om/1仓库管理部门员工信息原材料信息管理员信息库存信息供应商信息销售经理销售员顾客商品1/n商品信息销售员信息顾客信息商品信息1/m产品信息2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘37经理管理员原材料仓库1/mn/om/1仓库管理部门原材料信息管理员信息采购部经理采购员供
16、应商原材料1/mn/o1/o员工信息库存信息供应商信息销售经理销售员顾客商品1/n商品信息销售员信息顾客信息商品信息2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘38供应商主题 顾客主题 商品主题仓库主题供应商供应商ID顾客ID有关信息商品ID有关信息商品信息仓库信息仓库ID顾客商品仓库储存购买供应2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘39对概念模型(图3.7)中各主题定义相关属性主题名主题名公共键公共键属性组属性组商品商品商品号商品号基本信息:基本信息:采购信息:采购信息:库存信息:库存信息:销售销售销售单号销售单号基本信息:基本信息:销售信息:销售信息:客户客户客户号客户号基本信息:基本信息:经济信息:经济信息:以商品主题为例,除基本信息外还有采购和库存信息,销售分析指标主要是和客户发生的业务,这就产生了销售,从而定义了如下属性组:2023-11-142023-11-14数据仓库与数据挖掘数据仓库与数据挖掘403.事实表及其特征事实表及其特征度量:事件或动作的事实记录。通常用度量变量来表示,通过度量变量的取值来记录