《数据资源池技术方案.docx》由会员分享,可在线阅读,更多相关《数据资源池技术方案.docx(7页珍藏版)》请在优知文库上搜索。
1、技术方案1 .项目概况1.1 研究目的意义随着信息技术的飞速发展,国内外各大石油公司的竞争已经表现在信息技术应用的竞争,都在设法借助信息技术的力量,寻觅新的增长点,从石油天然气行业的上、中、下游陆续建立了各类信息系统,历经数十年,投资数十亿美金不等。另一方面,国内大多数油气田,现有的信息系统多为自主开辟和部份引进系统。已经完成的各类专业应用软件、专业数据库系统和数据仓库等分别建立在不同的平台上,数据源各异,信息标准不一、相互独立,信息来源渠道分散并分别集中在不同的层次,相互间难以实现不同层次信息交换;这些系统不仅各自独立,分散,甚至存在某些数据重复建设的情况,数据冗余严重,同一份数据重复浮现在
2、多个应用系统中,存在数据不一致的风险。采油采气数据资源池(基于云平台的数据中心)通过将油田各应用系统有机集成和业务重组,最终构建一个统一的、标准的、集成的、能够包容各业务流程的数据中心体系架构和数据交换和共享平台,支持分散的、松藕合的分布式应用集成。大大地避免油田在信息系统方面重复建设,重复投资,为油田节省大量的资金。然而,各大油田对数据融合平台建设目标和建设内容的理解各不相同。所采用的技术也是五花八门,这样实现的数据资源池往往运行效率不高、对原有系统改动大(有的甚至直接抛却原系统)、难于推广,这势必会严重影响数据中心的全局应用。本系统试图通过分析影响数据中心建设的若干关键技术因素及解决方案,
3、得到一个具有普遍意义的、先进、高效的数据融合平台架构。1.2 国内外技术现状及发展趋势现在国内对数据资源池的技术研究还停留在科研阶段,但随着油田信息化建设的深入进行,大量的信息系统被开辟并投入运行,由此而产生出了大量的同构异数据库、异构异平台的不同数据源,在这些数据源中有些是结构化的、有些则是文档、曲线数据等非结构化数据,还包括OA、ERP、纸制文档等一大批数据源。如不能有效整合和管理这些数据,将很容易造成数据遗失和管理混乱。然而,如何有效整合如此庞大、复杂的数据源呢?是将所有数据集中到一个大库中统一管理?还是采用分布式技术建立统一访问平台?如何在各数据源的基础上实现综合、分析、挖掘?这些问题
4、都将成为油田数据中心建设所面临的难题。2 .研究内容、达到的技术性能或者技术(经济)指标2.1研究内容如何为用户提供统一的登录及安全可靠的数据访问平台油田数据中心建设用户提供统一的登录及安全访问的目的是为了解决以下几大问题:(1)各系统之间互不兼容,数据信息不能共享。(2)用户使用不同系统时,需要在不同系统中不停登录切换,效率低下。(3)管理人员需要记忆一大堆的用户名和密码。(4)不同系统需要不少不同专业的人员更新维护,维护成本很高。针对上述问题,目前行业内提出了不少解决方案,但是在实施中选择域邮箱认证的解决方案以解决面临的诸多难点问题。如何有效管理不同数据源(即元数据)元数据的定义普通泛称为
5、:Dataaboutdata(管理数据的数据)。元数据的具体定义和应用随学科不同和应用领域不同而异。在石油领域,元数据是描述一个具体的油田数据库数据资源对象(数据集或者数据),并能对这个对象进行管理,且有助于它的发现与获取的数据。从元数据的定义可以看出,所谓元数据就是要定义一种管理数据的格式或者数据字典,与此同时数据之间的关联也应定义在元数据中。然而在具体实施中却存在着一系列难点问题需要解决,例如:(1)在石油领域里需要定义怎样的数据格式?(2)元数据的规模有多大?(3)如何将元数据的定义与数据源进行抽取、过滤、转换、映射关联在一起,从而实现元数据定义的自动化?(4)如何为元数据管理提供完整易
6、用的操作界面(甚至是图形化的界面)?如何充分利用企业现有硬、软件资源及网络资源企业现有服务器、网络资源往往得不到充分的利用,如何高效的组织企业现有硬、软件环境为生产应JtJ服务,这也是数据中心建设中急需解决的一大问题。实施中可能遇到的难点问题包括:(1)如何评估企业现有硬件、网络资源的使用效率?(2)如何根据数据中心运行需求来优化配置企业现有资源?(3)网络及硬件设备管理规范。2.2技术性能或者技术(经济)指标1)可靠性需求系统要保证数据的一致性,对人工输入的数据以及来自不同接口的数据进行合法性检查,确保流程的通畅性,并且能够对错误数据进行自动纠错处理,或者提醒人工干预。系统运行中的可靠性依赖
7、于主机系统、网络系统、数据库系统和应用系统的可靠性。因此,新系统中所采用的设备及主要技术必须是成熟的、可靠的,并加以全面的监视和控制,而且充分考虑异常时的应变与容错能力。在应用软件开辟中要充分利用数据库的安全机制和错误恢复机制,保证数据的准确性和完整性。保证系统具有极高的运行质量,能够一天24小时连续不间断工作。在浮现故障的时候,必须能够及时提供应急措施,以确保整个业务系统的不中断。2)可扩展性需求系统必须保证软件稳定性,保证主机系统,网络系统在将来能够顺利扩容,且不影响正常的生产运行。开放性与标准化是一个系统赖以生存发展的基础。惟独遵循开放性和标准化的系统才具有生命力,才干保护用户的投资,才
8、干体现良好的扩展性和互操作能力。在设计中不仅应考虑目前业务的需求,更应充分考虑未来业务量及业务种类增长的需求,同时也要考虑与行政管理体制的配合和协调。系统规模具有可调性,可以逐渐增大;新的软件模块即插即用,新功能、新业务的增加能够在不影响系统运行的情况下实现。系统要具备逐步升级能力的结构,采用模块化设计,在整个系统正常运行的情况下,能够随时增加或者取销客户端。可动态增加服务器,增加处理能力,能够实现负载平衡。系统在模块间可使用SoA架构来进行整合,减少各个模块间耦合度,利于系统扩展。3)可管理性需求系统必须能被配置、部署、监控和优化以确保其在预定地环境中工作良好。可管理性需求指为完成业务需求和
9、系统正常运行本身要求而必须具有的功能,这些功能往往是用户不能提出的。联机匡助、数据管理、用户管理、软件发布管理、在线升级等要可被管理。系统应该包括数据备份、数据恢复、日志管理、垃圾数据清除等基本功能,哪怕这些功能的核心只是一条语句或者命令。用户管理功能是另一项必不可少的功能,它定义哪些用户可以以什么样的功能使用系统。好的用户管理功能不仅可以有效控制用户对系统的使用,使系统处于一个安全、负载合理的运行状况,还能提高系统的应用适应性。3 .技术解决方案3.1 技术解决方案(主要阐述研发的重点、难点,解决的技术路线,技术方案的可行性、先进性、经济性等)数据管理与整合的数据资源平台建设:1)目前分散在
10、各部门的数据库系统(包括自动化、A1、A2等)在物理位置上保持现状,但在逻辑上和管理上统一纳入分布式数据库系统管理范畴。它们的数据源采集流程及数据质量保障不变,对数据源和录入数据进行数据统一管理。2)建立在分布式数据管理系统基础之上,提供索引编目、整合管理、权限管理、数据集成、数据同步等服务。3)提供统一的登陆和管理操作界面。通过关键技术因素分析,明确了所要解决的主要目标问题,在此基础上进一步提出数据融合平台系统设计思想和关键技术路线。1)数据资源池平台建设是一个庞大的系统工程,需要分阶段、分步骤实施。从上述关键技术因素分析中我们可以提炼出系统建设的三个主要层次,即:首先要完成数据中心所需数据
11、的分析、整理工作,从而制定出统一的数据标准和元数据规范;其次是己数据标准为基础建立数据交换与共享平台;最后建立项目数据库和数据挖掘、知识管理环境。本项目集中完成第一点提到的内容即完成数据中心所需数据的分析、整理。2)数据资源池平台需要建立在一个高效率、高稳定、高可扩展性以及高安全的运行环境中,因此作为目前技术主流的J2EE符合此类大型系统的设计需要,它具有可靠、稳定、跨平台的诸多优势。另一方面,数据融合平台需要一套完整的而有机结合的技术解决方案,要解决包括异构、异平台乃至非结构化数据的有机融合、符合个性化和安全要求的信息门户与数据交换平台的有机整合、知识管理、数据挖掘环境与数据交换平台的有机整
12、合。3)针对数据集中还是分布的问题,我们提出的云数据存储体系架构有效结合了集中式和分布式优点,既能够保证原有系统不会因为数据集中而影响使用,又能够通过ETL(数据提取、转换和加载)从云数据存储中导出项目数据到项目数据库中。有效满足了用户对数据的各类需求。下面我们给出数据资源池总体技术架构,本架构全面覆盖了三大技术因素,并有机融合了目前国际率先、成熟的技术包括联邦技术、元数据管理、RAC数据集群以及数据分析技术等。1、联邦技术联邦是指对跨越多个数据资源的数据关联查询的技术。通过实现该技术从而支持不同数据库表之间(甚至文本文件间)数据的关联查询。整合不同数据(分布式和大型机,结构化和非结构化,公共
13、和私有),在处理使其如同是在单个数据源中。联邦技术能够统一地访问以任何格式(结构化的和非结构化的)存储的任何数字信息。通过采用数据联邦,可在不影响现有应用的前提下,将各类系统的数据源通过联邦的方式映射到一个逻辑的数据库中。联邦的特性: 透明性。所有信息源看起来就像是一个信息源。 异构性。从不同数据源整合数据。 可扩展性和工具化。可以访问任何数据源。 可以通过标准的分析、报告和开辟工具来无缝利用的高级功能。查询接口提供了基于标准的完整功能包括对后端数据源中缺少能力的补偿。 避免需要对现有数据源和应用程序进行更改的自主性。 其性能可以满足实际应用程序和可能应用程序的需要,包括高级查询优化技术、本地
14、数据访问以及透明缓存支持。2、元数据管理首先,油田各类数据库可以利用元数据技术规范化其现有的数据资源。每一个专业领域建立自己的元数据标准,各专业子库按照这种标准的格式向外发布数据。这样,用户可以通过元数据标准提高数据查询和使用的效率和准确性。其次,这些元数据将记录有关于数据的所有上下文资料,数据管理者可以通过这些元数据对数据资源进行有效的管理,数据的使用者可以根据这些元数据了解数据资源的背景资料等信息。最后,元数据的使用能够进一步的消除各个数据资源之间的语义的独立性和异构性,能够达到一定限度的数据整合和交换。油田元数据网格服务包括三个主要过程:用户通过元数据网格服务到元数据库中检索元数据;用户
15、根据元数据到网格应用数据库中查询获取数据;网格应用数据库中新增数据库、表、字段、某些特殊记录时,向元数据网格数据库发布与之相关的信息、资料。3、OracleRACOracleRAC是OraeIeRealApplicationCluster的简写,官方中文文档普通翻译为“真正应用集群“,是OraCIe9i新版数据库中采用的一项新技术,也是OraCIe数据库支持网格计算环境的核心技术。它的浮现解决了传统数据库应用中面临的一个重要问题:高性能、高可伸缩性与低价格之间的矛盾!它普通有两台或者两台以上同构计算机及共享存储设备构成,可提供强大的数据库处理能力,现在是OraCIelIgGrid应用的重要组成部份。在OraCieRAC环境下,Oracle集成提供了集群软件和存储管理软件,为用户降低了应用成本。当应用系统规模需要扩充时,用户可以按需扩展系统,以保证系统的性能。3.2 进度安排和阶段成果1)系统环境搭建阶段CmMWMBIMlBnad-IH-ld-l*bMPlhMl-1MtM(mars皿VwS*0“WMVlVtmvv4X.MkivaM此阶段为系统环境搭建,服务器采购,开辟环境搭建测试,系统架构开辟过程。该阶段完成数据资源池系统环境搭建,建立基于OraCle的