《数据集成产品的技术演进与实际应用.docx》由会员分享,可在线阅读,更多相关《数据集成产品的技术演进与实际应用.docx(38页珍藏版)》请在优知文库上搜索。
1、导读在数字化转型的大潮中,企业面临的数据环境日益复杂多变。滴普科技的FastDataDCT产品应运而生,专注于高效的数据集成和管理,以应对多样化的数据挑战。这款产品结合了流批一体和湖仓一体架构,提供了从数据集成、分析到价值实现的全链路服务,极大地提升了数据处理的时效性和灵活性。FastDataDCT凭借在异构数据源实时融合和数据仓库迁移方面的强大优势,有效提高了数据利用率和管理效率,减少了数据浪费。本次分享将深入探讨FastDataDCT的架构演进和实际应用案例,展现其在推动各行业数字化转型升级中的重要作用。下面的介绍分为六个部分:1 .产品概述2 .功能介绍3 .技术架构演进4 .应用场景5
2、 .成功案例6 .Q&A分享嘉宾|刘波滴普科技FaStData产品线DataFaCtS产品负责人编辑整理|胡回内容校对|李瑶出品社区|DataFun1. Data Fabric数据架构Data FabriC数据架构01产品概述C滴韩会DataFun.自2019年起,Gartner连续师将数据编织(DataFabric)列为年度数据和分析技术领域的十大趋势之一。Gartner认为DataFabriC是数据管理的未来”ODataFabrie是一种数据架构思想,包含DataOPS数据工程,其中通过Al、知识图谱等智能技术,实现主动元数据治理。Technology Pillars of the Dat
3、a Fabric Designtt laity: Il Mn 数据仓库(OLAP)、数据湖(ICeberg、Hudi)等数据源,可用于公有云之间、公有云与私有云之间的数据入湖入仓的结构迁移,存量数据同步和实时数据捕获同步。为企业实现数据流通,提供简单、安全和稳健的数据传输保障。DCT专注于数据的入湖入仓、出湖出仓场景,同时支持包括PSC、Flink.Spark在内的多引擎资源调度配置,支持批流一体以及故障转移等复杂的数据传输机制。在复杂的网络环境和业务背景下,DCT提供了稳固的数据同步解决方案。目前,DCT已经发展到第四代。其第一代主要关注于参数配置;第二代引入了可视化界面,以简化任务配置过程
4、;第三代实现了对读取与写入功能的组件化;而最新一代则新增了流批一体的任务类型,以进一步优化数据处理效率和弹性。3 .产品定位:PB级数据下高效、稳定的数据传输高速公路产品定位:PB级数据量下高效、稳定的数据传输高速公路粉舞品DataFu.DCT产品是集数据迁移、数据集成数据实时同步于一体的数据采集传输服务,解决远距离、毫秒级异步数据传输难题。为企业实现数据流通提供组件化、高可靠的数据采集服务。在大数据领域,特别是在PB级别的海量数据处理中,核心任务是确保数据传输的高效率和稳定性。DCT的产品定位就是在PB级数据量下高效、稳定的数据传输高速公路。从源端到目标端,DCT构建了一条能够灵活适应不同数
5、据源的可组合数据链路。在这一过程中,涉及13种主流的数据源类型,包括关系型数据库、大规模并行处理系统(MPP)及数据湖和数据仓库等。系统的核心技术能力集中在任务配置、组件管理以及运维维护等关键环节。这些能力共同支持了离线数据采集、实时数据采集以及批处理与流处理一体化等多样化的数据任务类型,确保了数据处理流程的灵活性和系统响应的及时性,满足了复杂数据操作的需求。4 .产品价值产品价值主要体现在三大方面异构数据源的实时融合专注于实现不同数据源如OraCle、MySQL、Kafka和ICeberg等的实时数据融合。包括支持数据的增量捕获和异构数据的语义映射,以便实现数据的即时入湖。-整库入湖入仓,出
6、湖出仓支持MySQL、OraCIe等数据源入湖入仓,出湖出仓。快速构建湖仓内数据,打通数据孤岛,实现数据的统一管理和高效利用,为数据开发工程师和数据分析人员可以快速建立数据模型、构建应用提供数据来源。降本增效降本:多种架构简化场景,简化软件架构设计,降低异构数据融合成本。通过拖拉拽实现同步链路的创建,低代码,降低学习和维护成本。增效:无代码任务构建,提升数据集成敏捷性。支持组件自定义,提升客户业务创新效率。分布式引擎、组件级高可用保障,实时链路稳定高容错。5.产品优势产品做C薄普科技DataFun.高性帏多源舞构采集支持关系里数据库、NcSQl. OL货、数据湖等多种同构. 异构数据源之间的结
7、构迁移、 S线同步和渊同步.使用同T开发宛式来实现大 於调的流计算和I比计算,迸而保证处理过程与结果的一-致性0降蚊枇i铢集任务配置F次配M,程序自动进行批和海KJftK探触O)C机制,H忠媛赵所,时效 性有保建;支持断点康传、故 障转移,保UE数据传输的可株 件.组件插拔式低成本、高效率S云康生架构QL.=zJ组件插拔式管理,可自定义组 件扩展,支持施拉模任务配置, 低代码,易学易维护.单进程任务,最低IG内存, 成本降到最低,支持并行度设9,有效地提硒镭滋率,无育调整现在架构,强版容: 基于日志,对源业务无侵入无 影向,保if炭业务库也定运行, 高性能多源异构数据采集支持从关系型数据库、N
8、oSQL、OLAP、数据湖等多样的数据源进行结构化迁移、离线同步以及实时同步。 批流一体化数据采集采用统一的开发范式,同时实施大数据的流式和批量计算,确保数据处理的一致性,并简化了批流采集任务的配置流程。 高可靠性与时效性通过变更数据捕获(CDC)机制,实现日志级别的数据监听,确保数据的时效性。同时,支持断点续传和故障转移,保障数据传输的高可靠性。 组件化插拔式管理提供了组件插拔式管理,用户可以自定义组件进行扩展,并支持拖拉拽的任务配置方式,降低了代码编写的需求,使系统易于学习和维护。低成本高效率运行系统设计为单进程任务,最低仅需IG内存即可运行,降低了成本。同时,支持并行度设置,有效提高了数
9、据传输效率。云原生架构设计系统采用云原生架构,无需调整现有架构,具有强大的兼容性。基于日志的设计对源业务无侵入,保障原有业务库的稳定运行。02功能介绍1.产品功能架构图在产品功能架构的设计上,专注于数据湖和数据仓的高效数据处理流程,包括数据的导入与导出操作。Delink.EMRxMRS等平台能够得到良好的支持,系统对于数据湖或湖仓一体化平台有很好的兼容性。产品功能架构图WitWiRataFu.BI分航僮时大孱A6Tt叠务应用实啦仓DLinkEMRMRSCDHCDP.- 基础服务层面提供了数据源管理、资源组件管理等核心功能。- 数据传输层面数据传输过程中,任务类型被细分为离线、实时和流批一体三种
10、模式。数据采集模式涵盖一对一、多对一和一对多三种类型。组件配置方面,将其划分为读取组件、转换组件和写入组件,数据映射时提供字段批量处理、整库处理和大批量处理等映射规则。数据安全管理方面,实施了严格的分类分级、加解密措施,并对任务管理进行了优化,包括前置检测、导入导出、断点续传和DDL变更等功能。- 监控告警层面系统支持故障转移,如通过检查频率来实现超时任务的故障迁移。任务执行过程中,监控大屏能够实时显示任务状态、数据同步量和资源消耗情况。为确保数据质量,系统支持与源端进行数据质量校验,并结合告警规则对超时任务和状态进行监控。此外,系统支持多种消息提醒方式,如短信、钉钉电话、Webhook等,从
11、而快速为下游应用提供必要的数据支撑。2.产品核心功能修典费金第ff产品核心功能1 .资源管支持界面配置多种计躯调度&存储资源类型。支持界面配置多种类型数据源,测试连通性。3 .担件管理WE11tta-Iflft,就拓取、指氟WAffift.4 .任务配量支持按项目空间&目录进行任务会。(I)IttHHS采集:支持根据源表生成目标表建表SljL等,快速创建目标表,支持按时间周期自动调度全量/增量数据采集.实时败据采集:支持通过订阅数据源HEi。得方式,无侵入实现实时增量数据采集.批流一MHe入湖:支持通过一个任务实现批流一体数据入IcMrgS运维盥控翻实例日志I支持根据日志层级,分类专看日志信息
12、,快速定位问题;jffi告鲁,支持钉钉、解箱、短信、电话等多种告警方.式:MXX(3)更据质Ib支持界面查看抽取总数、写入总数、运j长等指标进彳板场量触“资源管理支持界面配置多种计算、调度、存储资源类型。数据源管理支持界面配置多种类型数据源,测试连通性。O组件管理将ETL能力抽象为“组件”,支持界面管理读取、转换、写入组件。任务配置支持按项目空间&目录进行任务管理。离线数据采集:支持根据源表生成目标表建表SQL等,快速创建目标表,支持按时间周期自动调度全量/增量数据采集。实时数据采集:支持通过订阅数据源Binlog等方式,无侵入实现实时增量数据采集。批流一体数据入湖:支持通过一个任务实现批流一
13、体数据入ICeberg等数据湖。运维监控实例日志:支持根据日志层级,分类查看日志信息,快速定位问题。监控告警:支持钉钉、邮箱、短信、电话等多种告警方式。数据质量:支持界面查看抽取总数、写入总数、运行时长等指标进行数据质量管理。C 盘露警 JgtaFun.支 持DCT On Locak DCT On Yarn、Spark on Yarn 、DLink不同的资源调度引擎,用于不同的场景,如Yam 资源调度,满足湖仓一体、批流一体等。自研收,调度弓摩实现本地资源调度,资基于资源调度,通过B妙嗨离资源。渡蝌氐。基于SPark引擎,任务运行在Yam 里,i敌稳定,基于DLink,任务运行在Yarn 或者KSS里,适用于批流一体3.多引擎调度多引擎调度 DCTOnLocal这种调度方法基于我们自主研发的PSC调度引擎,利用本地资源进行资源调度,其资源消耗极低。 DCTOnYarn这种调度方法通过队列机制实现资源隔离,保证了调度的效率和安全性。 SparkOnYarn这种调度方法采用Spark引擎。在这种情况下,任务实际上运行在Yarn集群中,确保了高效和稳定的运行环境。 Deli