《-数据工程白皮书-.docx》由会员分享,可在线阅读,更多相关《-数据工程白皮书-.docx(15页珍藏版)》请在优知文库上搜索。
1、”数据工程白皮书“1、数白据皮工书程数据工程白皮书引言1什么是数据2数字化转型浪潮下的企业数据3企业数据流转链路分析4数据工程概述6什么是数据工程7数据工程价值8数据工程落地与力量建设10数据工程落地10数据工程力量建设28数据工程展望33数据工程白皮书数据是新一代技术革命下的生产要素,把握了生产要素与生产要素的加工方式就是把握了数字经济下的价值密码。引言新生产要素的崛起数据纵观历史,伴随着科学技术的进展以及社会形态的演化,在社会进展的不同阶段,生产要素的数量不断增加,并且每个历史进展阶段,不同生产要素的重要程度也始终在发生变化。在信息技术革命到来之前,社会经济学公认的四大生产要素分别为:土地
2、、劳动、技术和资本,而2、随着信息技术革命的到来,数据的产生与应用已经渗透到各行各业的生产经营活动之中,数据已经成为继土地、劳动、资本、技术之后的第五大生产要素。数据之重要,已不单单局限于企业内部的认知,更是成为全社会的共识。在2022年11月工信部发布的十四五大数据产业进展规划当中,更是把数据要素的价值转化提升到了国家层面,进一步突出了数据作为国家基础战略性资源的重要地位。图:生产要素在不同阶段的变化生产要素土地、劳动土地、劳动、技术、资本土地、劳动、技术、资本土地、劳动、技术、资本、数据简单程度农业社会第一次工业革命其次次工业革命信息技术革命历史阶段33在当今数字经济时代,一方面企业在经营
3、的过程中时刻都在3、产生大量数据,这些数据从业务过程中产生,并蕴含着大量学问;另一方面,面对如此重要的生产要素,许多企业无法将其好好利用。而数据又与土地等生产资料不同,其有比较强的时效性,也就是数据对生产的促进作用会随着时间的推移渐渐降低,假如不准时利用将会导致数据价值白白流失,这对企业是一种极大的损失。而要搞清晰数据价值如何落地,就必定要分析数据的生命周期,包含数据的产生、收集、存储、传输、处理、应用等多个阶段,搞清晰数据从哪里来,到哪里去,怎么使用。数据全流程的不同阶段,需要依靠各种信息系统进行落地,我们将落地过程中涉及到的工程实践统称为数据工程。数据工程的好与坏,直接关系到企业内部数据价
4、值转化效能。接下来我4、们将系统地介绍数据定义、数据工程的定义、数据工程实施原则。什么是数据通常,数据是通过观测得到的数字性的特征或信息,是一组关于一个或多个人或对象的定性或定量变量,数据不仅指的是数字,还可以是有意义的文字、字母、符号的组合,也可以是图像、图形、视频和音频等。通常而言,从数据组成形态的视角,我们可以将数据分为结构化数据、非结构化数据、半结构化数据三种。结构化数据:通常由明确定义的信息组成,这些信息可以通过高度组织化的表格或数据库进行搜寻、维护或跟踪。常见的结构化数据如关系型数据库中的客户数据、订单数据、产品数据以及由人工维护的Excel表格等。半结构化数据:是结构化数据的一种
5、特别形式,它没有5、固定的结构,因此它不遵循表格数据模型或关系数据库的格式,但是它包含了一些易于分析的结构化元素,例如标记。非结构化数据:是指没有固定组织原则的未经过滤的信息,如图像、视频、音频文件以及文本信息等。非结构化数据的形式多样,无法用关系数据库储存,且数据量通常较大。图:不同结构数据的关系结数构据化半结数构据化非结数构据化总的来说,结构化数据、非结构化数据、半结构化数据的最主要区分在于是否存在预先定义好的数据模型。结构化数据能够用统一的某种结构加以表示,离开了这种结构,数据就没有意义;非结构化数据没有概念数据模型形式的限制,可以自由表达;半结构化数据介于上述两者之间。数字化转型浪潮下
6、的企业数据在了解了6、数据详细含义的状况下,企业想要更好的管理数据、利用数据,就必需了解数据在现代企业中的产生源头、组织形态等。现代企业数据的产生离不开企业的数字化转型,企业数字化转型程度凹凸则直接影响了数据的利用效率,在分析了众多企业数字化转型的案例之后,我们认为企业数字化转型一般分为三个阶段:信息化:信息化为企业数字化转型的初级阶段,此阶段侧重于将企业生产制造过程、物料转移、事务处理、资金流淌、客户交互等流程进行电子化,其整个思维导向以流程管理为主,以无纸化办公为目标,旨在提升企业流程管理效率,这一阶段的企业主要呈现为系统离散化,数据碎片化的特点。智能化:在企业拥有大量数据的背景下,伴随着
7、人工智能领域技术的7、快速进展,原本只在学术界活跃的人工智能算法与模型能够快速在商业领域落地,智能算法与模型极大提高了企业从数据中提取业务学问的效率,企业各种系统与应用变得越来越智能,系统在算法与模型的关心下可以自学习学问、再制造学问。智能化由于自然的高效,成为了企业数字化转型的必定趋势,此时系统构建的思维导向为业务创新,旨在利用人工智能算法与模型解放生产力、查找新商机。此阶段企业主要呈现为系统自动化、数据模型化与智能化的特点。数字化:在企业信息化达到肯定程度之后,由于业务的快速进展,原有流程和系统已经不能满意企业的管理诉求,企业渐渐由流程管理转向业务管理,企业对其业务进行细粒度的拆分、分析与
8、优化,便于对制造流8、程、业务流程、用户旅程等进行管理、分析与改善,这一阶段为企业数字化转型的中级阶段,主要强调数字对商业的重塑,转型过程中通常伴随着组织结构的调整,赋能企业商业模式不断创新和突破。处于这一阶段的企业信息化主要呈现系统平台化、数据集约化与模型化的特点。图:企业数字化转型三个阶段业务流程电子化业务数据化业务创新化系统离散系统平台系统智能系统数据碎片数据数据模型智能模型信息化企业数据流转链路分析数字化智能化数据只有依托于信息系统,才能在企业内部流转起来。数据在企业内部会经过一系列的处理才能最终产生价值,一般我们会简化为以下几步:数据产生:一般而言,企业数据由生产活动以及服务客户的过
9、程产生,不同行9、业的数据产生特点也不相同。假如是生产型企业,数据主要由传统信息系统如ERP,CRM等系统产生;假如是服务型企业,则数据主要在不同类型的在线系统产生,例如电商系统、推举系统等。除此之外,由于物联网的进展,还有一部分数据由传感器产生。此时数据还相对原始,其形态可能有结构化数据、半结构化数据、非结构化数据。数据收集:数据收集通常是指将业务数据从业务系统或者外部系统接入的过程。数据收集阶段需要满意三大原则才能保证后续步骤的有序进行:首先是无侵入性原则,通常数据接入需要直接对接业务系统,而对业务系统而言最重要的是稳定性,即数据收集过程不能对业务系统造成负担。其次是无修改原则,数据收集是
10、数据10、工程全部流程的起点,在数据收集过程中数据肯定要与源系统保持全都,避开不必要的处理导致数据所蕴含的信息缺失。最终是可追溯原则,收集来的数据可以进行冷热备份,但不进行任何删除操作,便于审计、回溯等。数据预处理:收集的数据格式存在多样性并且掺杂着有效或无效的数据,导致这些数据无法直接进行利用,必需要进行相关预处理才能进入下一阶段。这一步骤会提升数据的信息有效密度,并且会对数据进行转换与处理便于后续计算,一般而言数据清洗、数据标注、编码等均属于这一步骤。数据提炼:此阶段为数据价值转化的主要步骤,从数据中提取信息、凝练学问就发生在这一步。对于一般的数据仓库而言,数据模型建立、ETL计算,以11
11、、及业务标签构建,都在这一步完成。而对于机器学习类的平台,智能模型的训练也可以归到数据提炼中去。数据服务与应用:经过规律计算完成后的数据,蕴含了大量的信息,是指导决策的重要依据。通过供应在线数据服务或者应用的方式,使得数据价值能够自动、高效落地。我们常见的数据APkBl报表、Al模型的在线应用都属于这一范畴。数据治理:数据治理严格来说并不能算作数据生命周期中的某一环,数据治理是贯穿整个数据生命周期的。为保证企业内各个业务领域数据工作的有序开展,就必需对数据进行统一的规划,包括数据资产、数据标准、数据质量、元数据、数据平安与隐私等,我们将这些工作统一划归到数据治理的范畴之中。从数据产12、生到数
12、据价值落地的过程中,数据的信息密度越来越高,其中蕴含的学问也越来越丰富。虽然并不是全部的企业在数据工程落地过程中都需要对数据全生命周期进行分析与管理,但是假如不去分析数据的全生命周期,很简单导致一叶障目不见泰山,那么就必定会消失企业对数据认知不足、规划不清楚的状况。通过分析企业数据全流程,企业可以识别薄弱环节,抓住重点环节,因地制宜的制定数据工程落地规划,所以说数据全流程分析,是每个企业在进行数据工程落地之前的必修课。图:企业数据流转链路洞见数据服务与应用学问数据提炼数据预处理预处理数据数据数据收集数据产生原始信息数据高信息密度低随着数据重要性的不断提升、数据在企业内的13、流转越来越常见。数
13、据工程则是关心企业高效地挖掘数据价值,持续地赋能业务增长,加速数据到资产的升华过程的最佳实践。数据工程概述数据在企业流转的问题数据在企业内部流转会经受多个阶段,而每个阶段之间还存在着各种各样的问题。数据是用来产生价值、为企业供应便利的,因此企业的进展阶段、企业对于数据使用或产生价值的诉求也有不同,想要解释清晰数据在企业流转的问题,就不能忽视企业自身的诉求和特征。接下来我们将绽开来描述这些阶段以及区分。首先,我们先来看企业通过数据想干什么,企业可以分成以下四个阶段:通过数据描述企业正在发生什么,清晰地了解企业的数据形态。通过数据回答企业为什么正在发生这些变化,探明企业遇14、到的问题、进展的变化
14、都是由什么引起的。通过数据关心企业在遇到问题时进行示警,明确下一步行动的方向在哪里。通过数据关心企业应对数据展现出的业务状态,动态调整投入以确保得到预期的产出。从上述描述中不难看出,在不同的阶段,数据都可以为企业带来价值,这些价值产生的过程就是数据在企业内部流转的过程。为了便利理解,我们以做报表为例看看数据的流转都经受了哪些过程,信任不少数据从业者都经受过类似手工Excel维护表格只需要2小时,为什么要花3天时间做报表的灵魂拷问,这里的2小时也好3天也罢要从实际的诉求动身,仍有企业仅需手工维护的方式就能满意诉求,因此我们也并不推举为了做报表而做15、报表,这里要争论的是对数据呈现过程自动化、低
15、廉运维成本、数据可信、报表直观可用有诉求的企业。图:报表实现过程中的数据流转报如表何展更示直形观式需要许多背后的工作数找据谁有修变改化了出自了动问预题警如何恢保复是后相犹如何数确据构需建要这哪张些报数表据构找建谁这要张数报据表同解一不个一指致标理数何据自出动错恢了复如看似一个简洁的诉求我要做一个报表数据成品数据服务与应用数据加工数据预处理数据提炼数据收集数据“原料这接些用数吗据能直构据建是报怎表么的来数的构数建据这在张哪报里表如上图所示,数据从原料到成品并非是简洁的将数据接进来、展现出去,而是将数据自动化地从系统中猎取到、根据业务逻16、辑对数据进行补全和纠错、通过统一的各部门都认可的计算规律
16、来进行计算、用更友好和直观的方式将数据呈现出来。数据企业流转的过程中,收集、处理、计算、使用这几个核心的步骤仅会由于企业对于数据不同的诉求而导致这四个步骤实际处理起来的简单程度有所区分。由于企业的实际状况不同而导致这四个步骤实际处理起来有所倾斜,但总的来说并不会由于这些区分导致其中某个步骤被舍弃。因此,企业收集、处理、计算、使用的过程有快慢之分,这快慢之分的核心就是企业在数据工程实践好坏的区分。什么是数据工程正如前面提到的,数据工程能够加速数据接入、处理、计算、使用的全流程,但是对数据工程究竟是什么缺少一个清楚的描述。要解释数据工程是什么17、,就需要从软件工程说起。从软件开发消失到软件开发逐步规模化的过程中,IT从业者们一点点积累下关于需求、设计、实现、测试、运维等方面的工作最佳实践,因此我们不难看出软件工程并不仅仅是软件开发,而是一套体系。这套体系不仅仅适用于应用开发,也同样适用于数据开发,因此数据工程是软件工程的一部分。这里为了便利大家理解,我们将软件