信息技术视觉特征编码第6部分：结构点序列编制说明.docx

资源描述

《信息技术视觉特征编码第6部分：结构点序列编制说明.docx》由会员分享，可在线阅读，更多相关《信息技术视觉特征编码第6部分：结构点序列编制说明.docx（8页珍藏版）》请在优知文库上搜索。

1、团体标准信息技术视觉特征编码第6部分：结构点序列（征求意见稿）编制说明一、工作简况新一代人工智能产业技术创新战略联盟（简称ArnSA联盟）是在科技部的指导下于2017年成立，由近200家来自行业内的顶尖企业、高校和科研院所、资本机构、服务机构、创新创业企业组成。在AVS工作组近20年标准制定经验及标准制定团队的基础上，联盟从成立开始，便以人工智能产业发展需求为引领，围绕产业发展中存在的共性问题，建立了AI标准工作组，着手人工智能标准体系的搭建和技术标准的制定。AI标准工作组内部成立了若干专题组，分别承担相关细分领域的标准制定工作，视觉特征编码专题组是其中之一，致力于视觉特征编码相关技术标准的制

2、订。信息技术视觉特征编码第6部分：结构点序列规定了视觉特征编码中视频内容的结构点序列的定义、语义信息、获取方式、格式要求、编码、解码等内容。随着计算机视觉算法的发展及其在视频监控、自动驾驶中的广泛应用，结构点数据的数量和使用范围都在不断扩大。本部分提出一种高效的结构点序列无损压缩算法，可适用于视频目标跟踪、人群流量统计、人脸识别、运动目标行为分析等结构点序列的无损压缩，可以极大降低该类数据的传输带宽和存储空间要求，具有广泛应用价值。根据中关村视听产业技术创新联盟2023年标准制修订计划的安排，下达了由鹏城实验室牵头制定的团体标准信息技术视觉特征编码第6部分：结构点序列（标准计划号为202103

3、2506）的制定任务。工作组自2018年3月第2次会议开始，讨论视觉特征编码技术标准制定工作中，关于视频内容的结构点序列的压缩编码技术，以解决在智慧城市建设相关领域中涉及到的海量的数据压缩问题，推进城市大脑的建设。在标准制定的整体路线方面，前三次会议（2017年12月-2018年6月）对视觉特征编码的技术需求和应用场景进行讨论与梳理，首先形成了视觉特征编码提案征集书（草案）（AlMIo16）技术文档与视觉特征编码评价框架（草案）（AlMlOI7）,前者明确了提案需求,并规提案阶段设置、提案内容、时间节点计划等，后者列出了典型视觉任务的验证数据集，设置核心实验中的测试任务、基本思路、测试条件、参

4、考技术文档、性能度量等。经过后续会议（2018年8月-2019年12月）修订完善，最终形成了视觉特征编码核心实验数据集6.0（AIN1160）视觉特征编码核心实验设计6.0（AINll59）、视觉特征编码测试模型V1.0（AINlO93）技术文档。关于结构点序列编码的部分，经过多次会议和对在智慧城市建设中相关数据压缩需求的分析和讨论，以及结合未来城市大脑建设中可能涉及的数据形式的预期，首先于2018年3月第2次会议形成了基于时域差分关系的位置及骨架信息编码（AIM1006）技术提案。提出了使用多模式方式，充分使用视频帧间信息对人体骨架序列进行无损压缩编码的技术。在2018年8月第4次会议的基于

5、时域差分关系的骨架信息编码（AlMlO25）中完善了技术描述。在2018年12月第5次会议的人体骨架数据的无损压缩编码（AlMlO65）和2019年3月第6次会议的基于多模态的视频骨架序列无损压缩方法（AlM1087）技术提案在广泛采纳成员单位意见的基础上，进一步改进了使用多模式对视频中骨架序列进行压缩的过程，完善了相应的技术内容描述，并得到采纳。在2019年6月第7次会议的视频中人体骨架的无损压缩编码（AlMlO98）提案中，对序列输入格式，参数定义等内容进行了完善。结合对未来智慧城市建设中数据的多样性分析，工作组将技术对象从单一的人体骨架序列扩展到了通用的结构点序列（比如人脸关键点，ROl

6、区域的识别框，汽车关键点等）中，并在2019年8月第8次会议提出了面向视频的关键点信息无损压缩方法（AlMIl23）技术提案，对技术中的特殊处理操作进行了内容完善。在2019年12月第9次会议中，形成了关键点序列的无损编码测试结果（AIMl157）,并对除人体骨架信息外的通用结构点序列进行了测试，实验验证了技术的性能。在2020年6月第11次会议中，提出了视频中结构点序列无损编码的待改进问题（AIM1287）,在后续代码维护过程中对所提及的问题进行了改进。在2020年8月第12次会议中，工作组形成了信息技术视觉特征编码第6部分：结构点序列（AlMl338）标准文档的第一份草案。在2020年12

7、月第13次会议中，提案监控视频的骨架序列无损压缩（AlMl343）对参考软件及技术的改进进行了描述。在后续的工作组会议中，广泛采纳各单位专家的意见，对收到的反馈意见进行讨论和完善，不断修订标准文档的内容，并最终于2023年5月形成了标准的征求意见稿。本标准起草单位：上海交通大学，鹏城实验室，北京大学，博云视觉（北京）科技有限公司，青岛海信网络科技股份有限公司，青岛新一代人工智能技术研究院本标准起草人：林巍晓，刘鸣洲，陈一航，段凌宇，陈杰，高雪松，张四海,王雯雯，熊红凯二、标准编制原则和确定主要内容的论据及解决的主要问题在我国建设智慧城市的过程中，智能驾驶技术、智能监控和追踪技术等会产生大量的视

8、频结构点序列，而随着智慧城市建设的推进，这些结构点序列数据量还会快速增加。在结构点序列的处理中，往往涉及多设备间（如本地-云端）的数据传输，这就对压缩技术提出了需要。本部分即是面向视频中结构点序列的压缩技术所制定的，目标是提高数据压缩率，从而提升数据传输与共享的效率。信息技术视觉特征编码第6部分：结构点序列是以我国科研机构课重点科技创新企业为首、引领信息技术领域有影响力的企业共同创新而成。为了形成优化的技术方案，专题组根据标准的通用性和实用性对系统的参考架构进行了多轮讨论和评估，收集了业内有实际产品研发和生产经验的企业代表的意见，技术评估的基本依据是综合考虑提案对解决视频中结构点序列压缩的无损

9、性、有效性、可实现性、可扩展性、对已有设备的兼容性现有标准的复用性以及知识产权情况等，这些原则与手段为结构点序列压缩的技术先进性和妥善解决知识产权问题奠定了坚实基础。本部分规范了结构点序列无损压缩编码解码的过程和编码格式，适用于视频目标跟踪、人群流量统计、人脸识别、运动目标行为分析等结构点序列的应用。本部分根据结构点序列特点，提出基于多模式的动态压缩编码方法，能够根据序列的特点动态选择最优的编码方法，显著降低了结构点序列对传输带宽和存储空间的要求。从架构上看，现有技术模式是使用多模式进行结构点序列压缩，具体可以归纳为使用帧内信息的编码模式和使用帧间信息的编码模式。考虑到帧内结构点的空间相关性，

10、空间自差分编码被主要考虑用于帧内信息的编码；对于帧间信息，结构点的时域相关性为数据提供了很大的压缩潜力，因此基于多帧关联的帧间编码也成为了主要的技术支撑。视觉特征编码第6部分结构点序列的特色技术包括：基于空间自差分的帧内编码模式通过对结构点序列的依赖关系建模，形成结构点的空间依赖关系数组，用于为帧内空间自差分编码提供相对位置参考,。该技术充分利用不同结构点间的空间依赖关系和位置联动关系，有效地达到了数据压缩的目的。帧内空间自差分模式具有帧独立可解的特点。基于多帧关联的帧间编码模式基于多帧关联的帧间编码模式有效地为具有时空相关性的相邻帧建立依赖关系，并通过多模式的自适应选择的方式有效地去除结构点

11、的时空冗余，以达到压缩的目的。该模式可以根据结构点预测方式的不同进一步划分为以下四种子模式：1）基于运动矢量的帧间差分模式基于运动矢量的帧间差分模式首先编码结构体的中心参考点在当前帧和参考帧间的运动矢量，再将其运动矢量应用到结构点以得到预测值。再用嫡编码方法编码其预测值和真实值的残差。2）基于运动矢量的相对帧间差分模式基于运动矢量的相对帧间差分方法首先利用基于运动矢量的帧间差分模式得到中心参考点的运动矢量以及当前结构点的预测值，再用当前结构点的父结构点的残差进行补偿以得到预测值。再用嫡编码方法编码其预测值和真实值的残差。3）基于线性预测的帧间差分模式基于线性预测的帧间差分模式会根据前序参考帧和

12、参考帧计算得到当前结构点的运动矢量预测值。再用烯编码方法编码其预测值和真实值的残差。4）基于中值预测的帧间差分模式基于中值的帧间差分模式首先分别通过上述三种帧间差分模式计算出当前结构点的坐标预测值，在每个维度上，取三者的中值作为预测值。再用端编码方法编码其预测值和真实值的残差。三、主要试验【或验证情况分析高效的视频编码是视觉特征编码的核心特征之一，下面给出视觉特征编码中建议采用的结构点序列压缩算法相比于使用直接编码算法节省的性能。使用了多组视频序列进行测试。测试数据如表1所示。表11测试数据说明结构点序列名称原视频大小(KB)帧分辨率帧数每帧结构体数结构点信息视频描述编码对象facel1741

13、7205769427-342维68点室内会议脸部二维关键点face22140128072012810-152维68点人们在公园走路脸部二维关键点face314647205768826-292维68点向站着的人群扫拍脸部二维关键点carl69761600900328-223维8点路上的汽车汽车三维检测框car28530I6009004110-313维8点路上的汽车汽车三维检测框car31007916009003811-713维8点转角的卡车和障碍物汽车三维检测框car4658616009002616-263维8点停车场的汽车和行人汽车三维检测框skeleton12096964030017981-

14、162维14点人们在楼梯上行走人体二维骨架点skeleton299455I28072048192-142维14点在实验室里的人人体二维骨架点skeleton329301I660108095244-652维14点食堂里的用餐场景人体二维骨架点skeleton4646801280720150811-292维14点小学里的场景人体二维骨架点bboxl280781920108091126-372维4点广场上的场景人体二维检测框bbox23628264034433007-232维4点幼儿园里的场景人体二维检测框bbox317565128072056436-452维4点人们在自动扶梯上人体二维检测框bbo

15、x469977I9201080141612-232维4点小朋友在操场上玩耍人体二维检测框测试结果数据如表2和表3所示。在直接编码方式中，使用无符号哥伦布编码方式编码每帧结构体数和结构体编号，使用1位无符号定长编码方式编码结构点缺失标志数组，使用n位有符号定长编码方式编码结构点坐标，其中n取决于当前结构点序列各个维度上的坐标最大绝对值。表22视频序列测试结果一比特率。其中，红色和加粗分别标定最优和次优性能。结构点序列名称直接编码(bits)基于运动矢量的帧间差分(bits)基于运动矢量的相对帧间差分(bits)基于线性预测的帧间差分(bits)基于中值预测的帧间差分(bits)多模式编码(bits)facel4154640150385312637191904(X)313594111273541face225199839503527986521446

展开阅读全文