《逻辑数据编织技术白皮书.docx》由会员分享,可在线阅读,更多相关《逻辑数据编织技术白皮书.docx(15页珍藏版)》请在优知文库上搜索。
1、目录I目录2I摘要3I引言4I实施数据编织的不同方法7I逻辑数据编织的核心组件8数据虚拟化:连接、整合和发布层。8执行和数据集成:执行引擎和优化器9增强版数据目录9主动元数据管理10基于Al的建议10具有扩展元数据的语义层11DATAoPS及多云配置12I逻辑数据编织的主要优势13客户实例:DNB14计划14应用场景15移动银行业务15机器学习及高级分析15风险分析16GDPR16Bl报告16关键功能16产生的价值I结语117自助*务敷改图1:逻辑数据编织的系统结构图领先的行业分析机构Gartner将数据编织定义为:一种架构模式,可以提供关于数据对象的设计、集成和部署的信息并使上述操作自动化,
2、不受部署平台和架构方法的限制。它利用对所有元数据资产的持续分析和AI/ML(T智能/机耕学习),提供有关数据管理以及集成设计和部署模式的可行见解和建议。这将使数据访问和共享更快、更明智,甚至完全自动化(在某些情况下。”因此,数据编织的最终目标是:实现更加敏捷、无缝的数据访问和数据集成,并在许多应用场景中实现自动化。数据编织应具备足够的复杂性以实现高级分析,同时提供一个友好的界面,让业务用户可以与该界面交互。成熟的数据编织应该能够同时支持分析和运行场景。从更具战术性的角度来看,Gartner表示:“问题的核心在于,使可信数据能够通过一个公共层从所有相关数据源传送给所有相关数据使用者,从而能以高效
3、的方式整合许多不同的数据源。wDemystifyingtheDataFabric(数据编织揭秘),JacobOriipLund,2020年9月。接下来的问题是,如何将这些概念转化为现实的数据架构。我们看到,构建功能性数据编织,需要具备六个关键组件:1 .数据虚拟化引擎:提取数据,并允许将应用程序/数据使用与数据源分离,以提供通用的访问层。-该引擎的一个关键组件是智能查询优化器,此优化器有助于降低处理成本,优化速度。2 .增强版数据目录:促进数据探索和发现,加强协作和数据治理。3 .主动元数据:支持审核和历史分析,并作为AI流程的基础。4 .具有扩展无数据的语义层:使用业务术语、标签、状态或文档
4、丰富传统技术信息,大力改善所有数据资产的自助服务、安全性和治理。5 .基于Al的建议:在整个平台上都很有用,可以从使用中学习,并简化数据管理实践的开发、运营和性能调整等整个生命周期。6 .BataOPS和9云配置:降低管理和运营成本,并使系统不受云供应商影响。G 运置控度控 和监调本式三不衰煦图2:逻辑数据编织的功能图数据虚拟化的核心层提取底层数据源,可集中进行访问和数据集成,并确保数据安全。主动元数据、Al引擎、数据目录等功能扩展了数据虚拟化的功能,进而奠定了数据编织策略的基础。此外从图中也能看出,数据虚拟化还可为生态系统中其他的常见元素提供连接点,例如版本控制、治理和日志管理等。要了解更多
5、有关数据编织的信息、,请参阅行业分析论文,例如Gartner的数据编织揭秘(DemystifyingtheDataFabric,2020年9月,JacobOrupLund)以及Forrester的企也数据编织WaVe报告EnterpriseDataFabricWave),另请参阅Gartner的博客文章数据编织架构是实现数据管理和集成现代化的关键(DataFabricArchitectureisKeytoModernizingDataManagementandIntegration)以及福布斯杂志的文章大数据迎来数据编织和多云(BigDataMeetsDataFabricandMulti-Cl
6、oud)o在接下来的部分中,我们将更深入地分析实现数据编织所需的组件和功能。数据编织与组织的哪些人 员密切相关?数据编织与组织中访问或 处理数据的所有人密切相 关。组织内的任何用户, 只要他们需要报告数据、 处理数据或仅是查看数 据,就会接触数据编织。以前,这些用户包括业务 分析师、数据科学家、 线员工以及IT人员等后 台职能员工。现在,用户 群体有增无减,首席信息 安全宜或首席信息官等数 据治理专业人员也都包括 在内。最后重要一点是,DBA、 架构师和数据集成专家等 IT专业人员也都将帮助运 行和发展数据编织。实施数据编织有哪些不同的方法?数据编织是当前数据环境中的热门话题,多家供应商因而从
7、不同角度对布局编织进行了探讨。数据编织的一个关键原则是灵活的数据集成方法,进而实现分布式生态系统中的数据管理。也就是说,根据应用场景的性质及其要求,任何用户(或编织本身,在基于Al的决策中)都应该能够使用最佳的集成策略和最适合该工作负我的数据系统。这包括使用提取、转换和加载(ETL)流程,提取、加载和转换(ELT)流程,实时联合,以及数据湖、企业数据仓库(EDW)、操作系统等的组合。许多供应商,尤其是数据湖和ETL.领域的供应商,都忽略了这些前提。他们实现数据编织的方法侧重于将数据物理复制到单一的中央存储库,并围绕这些管道实现自动化。然而,这些方法存在严重的弊端: 解决方案锁定:编织依赖于锁定
8、客户的单一系统,导致灵活性降低。另外,由于无法改变存储和执行,发展编织也是阻碍重重。 数据配置缓慢:使用新资产必须进行复制,导致敏捷性降低,价值实现时间延长。 工作负载解决方案一刀切:所有工作负载共用一个系统,难以满足每个应用场景的需求。举个简单的例子,当后端位于数据仓库或数据湖中时,运行场景(例如用于检索客户详细信息的API)将无法获得所需性能。不仅如此,想要重用准备就绪的现有分析系统(例如特定域的数据集市)时也会受阻。 维护成本高昂:单一的数据编织方法需要不断地执行、维护和发展复制管道,随之而来的是高昂的运营成本。当然,复制通常必不可少,数据编织也确实需要复制。但对于编织试图解决的关键挑战
9、而言,仅仅依赖于复制并将其作为集成手段将无济于事。数据编织必须包含分布式数据和逻辑访问的理念。这是什么意思?分布式意味着现代数据生态系统由多个元素组成。数据管理方面不存在一体适用的系统。现代数据生态系统需要数据仓库、数据湖、操作型存储、noSQL源、实时源等。此外,混合和多云环境正在成为常态,因而扩大了数据的分布范围。逻辑意味着可以通过逻辑抽象层访问数据。这隐藏了后端的复杂性,为使用、安全和治理提供了单一访问点。逻辑层还必须支持多种集成策略。应该能够通过逻辑层的无数据直接访问数据源,同时还可以利用逻辑层实现实时联合,针对特定数据集(例如缓存、聚合感知表)选择性生成具体化视图,完成对数据湖中的提
10、取、加载和转换(ELT)的监理,以及进行完整的数据集复制。如此一来,分布式架构解决不同工作负载(一体适用并不存在)问题的方法以及逻辑架构凭借逻辑访问的抽象能力解决供应商锁定问题的方法都可以一目了然。生态系统的分布式特性,以及无需初始复制就能立即使用任何数据的能力,加快了数据配置的进程。语义建模、高级元数据管理等附加功能有助于降低运营成本。在分布式世界,逻辑层是高效数据集成策略的基础。数据编织此刻变成了邃缴(据编织。数据虚拟化能够实时访问不同数据源,因而是实现逻辑数据编织的关键技术。然而,只有高级数据虚拟化供应商提供必要的基础架构,逻辑数据编织的理想才能得以实现。在接下来的部分中,我们将深入调查
11、不同的领域,进而真正了解逻辑数据编织的工作原理。逻辑数据编织的核心组件有哪些?上图说明了逻辑数据编织的主要组件。然而,架构师需要了解每个单独实施的具体要求,以及逻辑数据编织的组件如何协同工作以满足这些要求。在下一个部分中,我们将详细介绍这些组件。数据虚拟化:连接、整合和发布层数据虚拟化位于中间层,负责从使用中提取数据源,因而是任何逻辑数据编织的核心。它是连接、整合和发布数据的层。数据虚拟化平台应该不受源数据的位置和结构影响。连接部分从各种存储库中获取信息,并将底层通信协议、查询语言和格式上的任何差异与上层分离。用户可以在数据源上生成基本视图”,它代表一种标准化的模式,在表状结构中可供上层使用。
12、每种数据源的特定适配爵简化了此过程,这样数据虚拟化工具的用户就无需了解这些细节。我们可以将这些提取出的对象整合起来,以业务友好型格式创建虚拟数据模型。结构和数据的连接、聚合和转换使虚拟层能够满足数据使用者的期望。图形向导和高级元数据管理选项(如数据源更改检测、更改的传播影响分析、版本控制等)可以有效使用这些工具。对于任何数据虚拟化解决方案而言,最后一个关键组件都是数据发布组件。数据虚拟化层公开单一访问点,便于应用程序的使用。通过JDBC、ODBC和ADO.NET以及RESTfukOData,GraphQL和GeoJSON等不同格式的Web服务API,利用各种标准协议(如SQL)公开数据。数据访
13、问安全一般可以通过结合使用外部ACtiVeDirectory实例或身份提供者实现。执行和数据集成:执行引擎和优化器执行引擎及其优化器是数据虚拟化层的一个很重要的元素,它负责创建执行计划,进而以最优方式检索数据。它的工作原理与关系数据库的引擎类似:分析传入的SQL和内部元数据,制定查询执行计划,再通过该计划得出结果。然而,两者之间有一个巨大的区别:虚拟层只包含元数据。数据来自原始数据源或缓存等托管副本。这需要不同的逻辑和算法,将RDBM技术与数据集成技术相结合。当数据来自单一源时,数据虚拟化层会执行方言转换,但将大部分工作留给底层源。它跟APl管理器的作用基本类似,不过它针对的是SQLo它增加的
14、开销是最小的。然而,当请求的数据位于多个源时,数据虚拟化就会发挥作用。对于实时执行,数据虚拟化需要在多种操作技术中进行选择,例如连接或聚合(内存合并、哈希连接、嵌套循环、数据即时移动到临时表等)和查询重写技术(分支修剪、部分聚合拆分等)。数据虚拟化引擎的优化器基于成本,在该应用场景下发挥了重要作用,因为它可以估算部分数据量,并以此权衡不同的选项。除了可以实时访问数据源外,良好的数据虚拟化引擎还必须支持选择性的具体化视图技术,例如使用缓存或聚合感知摘要来增强性能。Denodo平台还支持完整复制,并且能够在额外副本合法时运行ETL或ELT作业。本文不会对优化和性能展开全面的讨论,如需了解更多这方面
15、的信息,可以查看Denodo网站和数据虚拟化博客里的以下文章: 在逻辑数据仓库中实现闪电般的快速性能(AChieVinQIiClhtirKIfastPerfOrmanCeintheIoQiCaldataWarehoUSe) 智能查询力口速提升了逻辑数据编织的性能(SmartCIUerya8elerationincreasesPerformanCeOfIheIooicaldatafabric)。增强版数据目录对于任何自助服务策略而言,业务用户可以找到数据交付层中可用的数据集并确定所需的数据集至关重要。数据目录旨在通过直观的用户界面,帮助所有用户实现这一操作。这些用户界面通常以Web门户或市场的形式存在。数据目录的一些重要功能包括: 以用户友好型的方式表述数据集和文件、数据沿袭以及该数据集与其他数据集之间的关系。 借助各种过滤器,充分利用高级搜索功能。 支持AI驱动的功能,并以此分析用户活动,提供个性化建议。 利用业务类别和/或标签对数据集进行分类,便于业务用户浏览和探索。 预览数据集并获取数据分析信息。 开展协作,例如推荐数据集、添加关于这些数据集的评论或警告。这将帮助数据专员和管理员进一步在上下文中使用数据集,更好地解