《Q_SY10017-2023元数据管理规范.docx》由会员分享,可在线阅读,更多相关《Q_SY10017-2023元数据管理规范.docx(18页珍藏版)》请在优知文库上搜索。
1、O/SY中国石油天然气集团有限公司企业标准Q/SY100172023元数据管理规范Specificationformetadatamanagement20231201 实施20231019发布中国石油天然气集团有限公旬发布目次前言III引言.IV1范围12规范性引用文件13术语和定义14元数据分类14.1 结构化数据元数据14.2 非结构化数据元数据25元数据设计25.1 结构化数据元数据设计25.2 非结构化数据元数据设计36元数据采集56.1 元数据采集定义56.2 元数据采集步骤57元数据注册57.1 注册范围57.2 注册原则67.3 注册方法67.4 注册步骤78元数据运维89元数据
2、应用9参考文献10刖百本文件按照GB/T1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件由中国石油天然气集团有限公司标准化委员会信息技术专业标准化技术委员会提出并归口。本文件起草单位:中国石油集团共享运营有限公司、数字和信息化管理部、昆仑数智科技有限责任公司、勘探开发研究院、新疆油田分公司。本文件主要起草人:陈希、方可、刘慈、张云辉、纪晨曦、冯需 宁、刘金平、王健、蔡筱璇、张乐乐、商梅梅、马铮铮、杨桦、王薇 丽、田晓岚、孙静娴、何婷婷。本文件审查专家:黄幽丽、张万莉、王文革、曲京、梅运谊、 刘晓、唐爽。、主巨杉、朱玉秀、刘洋、何梦、主静、高天宇、侯宁宁、李爱李
3、亚东、时付更、刘大为、袁维I引言为进一步规范中国石油天然气集团有限公司(以下简称集团公司)数据管理工作,构建“共建、共治、共享”的数据生态,挖掘数据价值,规划了十二项数据管理标准,数据管理标准的制定可促进集团公司数据管理体系的建立,明确各类数据管理活动的框架和具体要求,促进数据的安全与共享,充分挖掘数据资源价值,持续提升数据应用水平和决策支持能力。十二项数据管理标准包括:一数据管理工作导则: 数据资源目录构建规范;一一数据架构管理规范;一一数据质量管理规范! 数据安全管理规范。 数据湖管理规范; 元数据管理规范;一一数据运营管理规范; 数据分析管理规范。 数据中台管理规范, 数据共享与服务管理
4、规范;一一数据出境安全管理规范。本文件为此系列标准的第七册,通过规定元数据管理的要求,建立从元数据设计、采集、注册、运维和应用的全过程管理机制,统一数据管控、推进资源整合,支撑数据管理工作的落地实施。元数据管理规范1范围本文件规定了元数据分类、设计、采集、注册、运维和应用要求。本文件适用于数据管理工作。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。Q/SY10075-2022数据资源目录构建规范Q/SY105532022数据架构管理规范3术语
5、和定义下列术语和定义适用于本文件。3.1元数据metadata关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。来源:GB/T360732018,3.83.2结构化数据structureddata可以存储在关系型数据库里,用二维结构来表达实现的数据,3.3非结构化数据unstructureddata形式相对不固定,不便使用二维表来表现,无法用关系数据库存储的数据。非结构化数据形式多样,如文档、PDF文件、Emaik网页、图片、视频、音频、XML文件等。3.4血缘分析datalineageanalysis针对数据流转过程中产生并记录的各种信息
6、进行采集、处理和分析的过程。4元数据分类4.1 结构化数据元数据结构化数据的元数据分为业务元数据、技术元数据和操作元数据,说明如下:a)业务元数据:用户访问数据时了解业务含义的途径,包括主题域、业务对象、逻辑实体、属性名称及数据标准等:b)技术元数据:为开发人员或技术用户提供系统信息,包括物理数据库表名和字段名、字段属性、其他数据库对象的属性和数据存储特性;c)操作元数据:主要用于满足信息系统运维的需求,包括数据迁移信息、数据源和目标系统信息、批处理程序、任务频率、调度异常处理、备份与恢复信息、归档规则和使用等信息。4.2 非结构化数据元数据非结构化数据的元数据分为文件元数据、基本特征类元数据
7、与内容增强类元数据,说明如下:a)文件元数据:非结构化数据对象的抽象类,包括所有格式的办公文档、文本、图片、图像、音频、视频等;b)基本特征类元数据:实现对非结构化数据对象的规范化定义,如标题、格式、来源等;c)内容增强类元数据:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、索引等。5元数据设计5.1 结构化数据元数据设计5.1.1 业务元数据设计5.1.1.1 业务元数据业务元数据包括一级主题域、子主题域、业务对象、逻辑实体、属性和数据标准,相关定义与说明应符合Q/SY100752022的要求。5.1.1.2 业务元数据设计要求业务元数据设计
8、应符合以下要求。a)主题域和业务对象的业务元数据设计应符合QSY10075-2022的要求,逻辑实体、属性及数据标准的业务元数据设计应符合Q/SY105532022的要求。b)业务元数据间需有明确的关联关系并遵守以下规则:D一个一级主题域下有多个子主题域,一个子主题域下有多个业务对象,一个业务对象下有多个逻辑实体,一个逻辑实体下有多个属性,一个属件关联一个或零个数据标准;2)每个数据标准可被一个或多个属性引用,每个属性归属于一个逻辑实体,每个逻辑实体归属于一个业务对象,每个业务对象归属于一个子主题域,每个子主题域归属于一个一级主题域。c)业务元数据有唯一身份标识,进行统一管理。5.1.2 技术
9、元数据设计5.1.2.1 技术元数据技术元数据包括表、视图、表与视图关系、字段,说明见表1。5.1.2. 2技术元数据设计要求技术元数据设计应符合以下要求:a)物理表设计满足三范式,如为了降低系统的总体资源消耗,提高查询效率,可反范式设计。b)物理表、视图和字段的设计基于用途进行分类。c)承载业务用途的物理表、虚拟表、视图与逻辑实体一一对应,承载业务用途的字段与属性一一对应。部分特殊场景下,允许逻辑实体与物理表存在1:N的关系,例如数据量过大、分库、跨产品、分布式部署等。d)系统间的数据传递优先采用数据服务。表1技术元数据说明技术元数据技术元数据说明表分为物理表和虚拟表。物理表为数据库的核心组
10、件,由行和列组成,行包括若干列信息项,一行数据称为一个或一条记录,列又称为字段,描述相关数据的特征:虚拟表基于物理表进行定义用于提供数据服务,但不实际存储数据,其数据使用方式和物理表一致视图一个虚拟表,它不实际存在于数据库中,按照一定规则显示的拓扑图表与视图关系物理表与视图关系字段物理表7视图/虚拟表中的列信息5.1.3 操作元数据设计5.1.3.1 操作元数据操作元数据示例见表2。表2操作元数据示例操作元数据操作元数据说明用户访问日志系统对用户的访问模式、频率和执行时间的记录数据库日志数据库操作过程的记录作业执行日志对批处理等作业执行状态的记录数据源和目标系统信息在进行数据抽取过程中的源系统
11、和目标系统的配置信息5.1.3.2 操作元数据设计要求操作元数据设计应符合以下要求:a)应按照日志目的的不同进行分类设计;非自研情况下,应按软件包适配;b)根据信息系统运维的需求,在开发过程中输出相应操作元数据。5.2 非结构化数据元数据设计5.2.1 文件元数据文件元数据设计说明见表3。5.2.2 基本特征类元数据基本特征类元数据设计说明见表4。基本特征类元数据由集团公司统一设计管理。表3文件元数据设计说明(示例)元数据元数据属性属性定义及规则文件文件编码文件的堆一标识获取路径获得该文件对象的源端路径表4基本特征类元数据设计说明(示例)元数据元数据属性属性定义及规则文件编码文件的唯一标识文件
12、名称赋予文件资源的名称逻辑实体编码文件所属的逻辑实体编码类型文件资源所属的类别,包括文档、图片、音频、视频格式文件的物理格式,包括doc、xls、ppt、jpg、bmp等创建者创建资源内容的主要责任方基本特征类主题资源内容的主题描述描述资源内容的解释发布者使资源成为可获得的责任方其他贡任者创建日期资源生存期中做出贡献的,除制作者/创作者之外的其他撰稿人和贡献者,如插图绘制者、编辑等资源创建的时间发布日期资源发布的时间最后修改时间资源最近被修改的时间生效时间资源有效的开始时间失效时间资源有效的结束时间版本资源的版本信息标识符资源的唯一标识,如ISSN(国际标准刊号)、URI(统一资源标识符)等语
13、言描述资源知识内容的语言、语种。文档、文本类资源的必填项来源对当前资源来源的参照,包括组织、大、信息系统等关联与其他资源的索引关系,用关联ID来标引参考的相关索引、资源覆益范围资源使用、应用的范闱,如适用区域(地理位置)、业务领域、客户群、角色等数据安全级别根据Q/SY10018数据安全管理规范的要求确定文件的数据安全级别个人数据级别根据Q/SY10018数据安全管理规范的要求确定文件的个人数据级别5.2.3 内容地强类元数据内容增强类元数据由承担数据分析工作的信息化内部支持单位设计并增补至对应非结构化业务对象的基本特征类元数据中。6元数据采集6.1 元数据采集定义元数据采集是指从信息系统、设
14、备及软件平台等数据源获取元数据,对元数据进行转换,然后写入到集团公司数据治理平台的过程。元数据的来源可分为关系数据库、建模工具、数据集成工具、BI报表工具、调度工具、开发语言及脚本、文档、图片、视频等类型。6.2 元数据采集步骤6.2.1 配置数据源配置数据源是采集元数据的关键,在确定数据源所选择的采集工具的基础上,配置数据源的名称、连接参数和描述,说明如下a)数据源名称:不能为空,允许输入字符有数字、字母、中文、下划线等,数据源名称不能与已创建的数据源同名;b)连接参数:针对不同类型的采集工具配置不同的连接参数;C)数据源描述:对该数据源的简要描述,方便其他用户理解与使用该数据源。6.2.2 配置采集任务采集任务为自动调度的工作单元,为元数据的采集提供自动化的、周期性的、定时的触发机制。配置采集任务包含内容如下。a)任务名称:不能为空,允许输入字符有数字、字母、中文、下划线等,任务名称不能与当前已存在的任务同名b)数据源名称:不能为空,选择当前用户有权限的、可用于配置采集任务的数据源。O调度周期:选择适当的自动化调度周期,设置采集的时间间隔太短、频率太高,可能导致系统资源被占用。d)入库策略:包括全量采集入库及增量采集入库。1)全量采集入库:全量比较集团公司数据治理平台所有元数据,若数据资源编码相同则更新其内容,若不存在则插入新的元