《数据交易 第3部分:数据产品质量评估规范.docx》由会员分享,可在线阅读,更多相关《数据交易 第3部分:数据产品质量评估规范.docx(19页珍藏版)》请在优知文库上搜索。
1、ICS35.240.01CCSL70H31上海市地方标准DB31TXXXX-XXXX数据交易第3部分:数据产品质量评估规范DataexchangePart3:ThequaIityevaIuationspecificationfordataproduct(征求意见稿)在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。XXXX -XX-XX 发布XXXX-XX-XX实施上海市市场监督管理局发布目次前言II引言II1范围12规范性引用文件13术语和定义14评估原则25评估框架2qI质量模型24,指标项组成36指标体系3KI基础质量指标3A1技术使用指标6Kl市场应用指标77评估方法87I
2、评估方法类型87)定量评估871定性评估874结果评分98评估流程9Rl流程模型9R)明确评估主体10Rl设计指标方案10R4实施质量评估11R4提升产品质量11R4数据产品运营11Rl质量需求变更11Rq质量评估完成11附录A(资料性)数据产品质量评估报告编制要求12A.1总体要求12A.2首页12A.3正文12A.4附录12参考文献13刖百数据交易分为下列6个部分:一第1部分:数据流通交易合规指南;一第2部分:数据产品权益认定指南;一第3部分:数据产品质量评估规范;一第4部分:数据资产评估规范;一第5部分:数据产品定价方法;一第6部分:数据产品可信交付技术要求与评估规范。本文件为DB31T
3、XXXX的第3部分。本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由上海市经济和信息化委员会提出并组织实施。本文件由上海市信息标准化技术委员会归口。本文件起草单位:上海数据交易所有限公司、中远海运科技股份有限公司、上海质量管理科学研究院有限公司、中国建筑第八工程局有限公司、上海计算机软件技术开发中心、上海富数科技有限公司、上海浦东软件平台有限公司、蚂蚁科技集团股份有限公司、上海芯化和云数据科技有限公司、北京市中闻(上海)律师事务所、复旦大学、上海商学院、上海华东电信
4、研究院、上海市软件评测中心有限公司、欧冶云商股份有限公司、国网上海市电力公司、中国工商银行软件开发中心、上海浦东发展银行股份有限公司、上海生腾数据科技有限公司、上海久事(集团)有限公司、上海智慧城市发展研究院、上海信投数字科技有限公司、上海数字产业发展有限公司本文件主要起草人:卓训方、韩懿、张瑞韬、司萌萌、杨琳、孟凯、王超毅、李远刚、张绍华、昌文婷、杨天雅、李川、侯觅、关淘、彭莉、张诚、程夏莹、林力、苏运、苏亚武、丁瑾、陆燕、金晶、唐飞、朱喜华、李周平、彭晋、卞阳、常永波、李浩林、李凡、沈蒋瑾、徐宏杰、谈云骏、姜善定、杨晓倩、徐香君、王冠群、胡琼方、胡力旗、罗凌、杨冠军本文件根据中共中央国务院
5、关于构建数据基础制度更好发挥数据要素作用的意见“十四五”数字经济发展规划中共中央国务院关于加快建设全国统一大市场的意见和上海市数据条例等要求制定,旨在促进数据要素流通、培育数据要素市场、推动数字经济高质量发展和加快数据质量标准化体系建设。本文件的落地实施,有利于保障数据的可靠性和实用性,规范数据产品质量评估领域工作,提高数据产品质量水平,促进本市数据产品交易,推进数据要素市场建设,完善数据要素流通交易市场制度体系建设,加快数字经济发展。数据交易第3部分:数据产品质量评估规范1范围本文件提供了可交易数据产品的质量评估框架、指标体系、评估方法和评估流程。本文件适用于各类数据交易场景下的数据产品质量
6、评估,为数据交易中相关方开展质量评估与自评估提供参考。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T36344-2018信息技术数据质量评估指标DB31TXXXX-XXXX数据交易第1部分:数据流通交易合规指南3术语和定义下列术语和定义适用于本文件。a1属性attribute目标数据的固有性质或特性,能用人工或自动手段定量或定性地区分。a9元数据metadata定义和描述其他数据的数据,主要用来指示数据类型、内容概要、存储途径、数据访
7、问权、资源查找、信息记录等。来源:GB/T36344,2.2,有修改数据文件datadocument一个单元化的相关数据记录。数据格式dataformat对于数据的储存或记录的管理编排。数据项dataitem在特定上下文内数据的最小可识别单位,其定义、标识、允许值和其他信息是由一组属性指定,对应于数据源中一列信息的一组完整内容,与字段同义词。a6数据记录datarecord对应于数据源中一行信息的一组完整的内容。,7数据值range通过进行测量对目标实体的属性所赋予的数值或者类别,是数据项的内容,也称为值域。数据标准datastandard数据的命名、定义、结构和取值规范方面的规则和基准,保障
8、数据使用和交换规范性约束。来源:GB/T36344,2.8,有修改O数据质量dataquaIity作为数据产品的内容时,数据的特性满足明确的和隐含的要求的程度。来源:GB/T36344,2.3,有修改4评估原则数据产品质量评估应遵循下列原则:一科学性。评估应能正确、客观地反映数据产品质量状况,主要体现在正确的质量指标选择,以及采用科学合理的评测方法等方面。评估应有一定的理论基础,但又不能脱离实际。指标既要相互联系,相互制约,又要相互独立,不互相包容,避免指标间冲突;严谨性。质量评估过程中应根据业务需求制定清晰、准确的指标计算方式并进行评估实施,避免产生歧义;可操作性。应考虑评估的可行性、操作的
9、便捷性,选取可量化、易获取、可靠的指标进行评估。5评估框架4 1质量模型数据产品质量模型包括基础质量、技术使用及市场应用指标三方面。基础质量要求包括完整性、规范性、一致性、准确性和时效性;技术使用指标包括可用性、可靠性、高效性和可理解性。市场应用质量指标包括转化率、复购率、满意度、改进效率和持续高质量。每个质量特性包含若干个质量测度,见图1。数据产品质量模型基础质量指标技术使用指标市场应用指标持续高质量改进效率满意度复购率转化率可理解性高效性可靠性可用性时效性准确性规范性完整性图1数据产品质量模型5 5指标项组成本文件给出评价表的表头信息如下:一指标编号:采用4位阿拉伯数字,第1位代表所属一级
10、指标,为1表示是通用质量质量指标,为2表示是使用质量指标,为3表示是价值质量指标。第2位代表该二级指标在所属级指标中的排序,3、4位表示该三级指标在所属二级指标里的排序; 指标名称:三级指标的名称; 指标描述:指标的定义、解释与示例; 计算/实施方法:指标的计算公式。6指标体系A1基础质量指标6.1.1 完整性完整性是指数据产品中数据文件记录的数据项被赋予数值程度,评价指标定义见表1。表1完整性评价指标指标编号指标名称指标描述计算方法HOl记录完整性数据产品记录的数据字段被赋值数量完整程度,即行的完整性。X=A/B式中:A=数据产品通过检查被赋值的字段个数;B=被评价的数据产品总字段数的个数。
11、1102属性完整性数据产品记录的条数被赋值数量完整程度,即列的完整性。X=A/B式中:A=数据产品通过检查被赋值的记录条数;B=被评价的数据产品总条数。1103数据值完整性数据产品记录的数据值被赋值数量的完整程度。X=A/B式中:A=数据产品通过检查的数据值的数量;B=被评价的数据产品数据元素总数量。6.1.2 规范性规范性是指数据产品符合数据标准、业务规则、元数据及格式等要求的规范程度,评价指标定义见表2。表2规范性评价指标指标编号指标名称指标描述计算方法1201值域规范性数据产品是否符合值域标准规范。X=A/B式中:A=数据产品通过值域标准规范检查的数量;B=被评价的数据产品数据元素总数量
12、。1202元数据规范性数据产品是否符合元数据标准规范。X=A/B式中:A=数据产品通过元数据标准规范检查的数量;B=被评价的数据产品数据元素总数量。1203格式规范性数据产品是否符合格式标准规范。X=A/B式中:A=数据产品通过格式标准规范检查的数量;B=被评价的数据产品数据元素总数量。1204安全规范性数据产品是否符合法律法规和行业安全标准规范。X=A/B式中:A=数据产品通过法律法规和行业安全标准规范检查的数量;B=被评价的数据产品数据元素总数量。一致性是不同数据产品描述同一件事物的无矛盾程度,评价指标定义见表3。表3一致性评价指标指标编号指标名称指标描述计算方法1301数据赋值一致性数据
13、产品具有相同的意义的数据在同一时点、存储在不同位置的赋值一致程度。X=A/B式中:A=数据产品通过相同含义数据赋值一致检查的数;B=被评价的数据产品数据元素总数量。1302语义一致性数据产品的数据项符合语义规则一致程度。X=A/B式中:A=数据产品通过数据项语义规则检查的数量;B=被评价的数据产品数据元素总数量。6.1.4准确性准确性是数据产品准确描述事件的真实程度,评价指标定义见表4。表4准确性评价指标指标编号指标名称指标描述计算方法1401内容准确性数据产品说明书揭露事项与数据产品中所列的数据项内容致情况X=A/B式中:A=数据产品通过内容表述正确检查的数量;B=被评价的数据产品数据元素总
14、数量。1402数据重复率数据产品之特定字段、记录或数据文件重复记录情况X=A/B式中:A=数据产品重复记录的条数;B=被评价的数据产品记录总条数。1403脏数据出现率数据产品存在非法字符和业务含义错误等无效数据情况X=A/B式中:A=数据产品无效数据数量;B:被评价的数据产品数据元素总数量。6.1.5时效性时效性是数据产品真实反应事件的及时程度,评价指标定义见表5。表5时效性评价指标指标编号指标名称指标描述计算方法1501更新频率及时性数据产品符合业务周期更新频率要求情况X=A/B式中:A=数据产品通过业务周期频率要求的数量;B=被评价的数据产品数据元素总数量。1502更新即时性数据产品符合延迟时间要求更新情况X=A/B式中:A=数据产品通过延迟时间更新要求的数量;B=被评价的数据产品数据元素总数量。6,技术使用指标6.2.1可用性可用性是数据产品能被正常访问的程度,评价指标定义见表6。表6可用性评价指标指标编号指标名称指标描述计算方法2101可访问性数据需方成功请求访问的情况X=A/