《信息技术视觉特征编码第4部分:深度特征图编制说明.docx》由会员分享,可在线阅读,更多相关《信息技术视觉特征编码第4部分:深度特征图编制说明.docx(7页珍藏版)》请在优知文库上搜索。
1、团体标准信息技术视觉特征编码第4部分:深度特征图(征求意见稿)编制说明一、工作简况新一代人工智能产业技术创新战略联盟(简称ArnSA联盟)是在科技部的指导下于2017年成立,由近200家来自行业内的顶尖企业、高校和科研院所、资本机构、服务机构、创新创业企业组成。在AVS工作组近20年标准制定经验及标准制定团队的基础上,联盟从成立开始,便以人工智能产业发展需求为引领,围绕产业发展中存在的共性问题,建立了AI标准工作组,着手人工智能标准体系的搭建和技术标准的制定。AI标准工作组内部成立了若干专题组,分别承担相关细分领域的标准制定工作,视觉特征编码专题组是其中之一,致力于视觉特征编码相关技术标准的制
2、订。信息技术视觉特征编码第4部分:深度特征图规定了图像分析任务中,深度网络提取的特征图数据的编码格式和解码工具。本标准适用于图像数据中目标或场景的分类、检索、识别等应用。根据中关村视听产业技术创新联盟2023年标准制修订计划的安排,下达了由鹏城实验室牵头制定的团体标准信息技术视觉特征编码第4部分:深度特征图(标准计划号为2021032504)的制定任务。工作组自2017年12月第一次会议开始,讨论启动视觉特征编码标准制定工作,为视觉特征建立新一代编解码技术体系架构,以解决视觉特征编码的难题,推进领域技术发展。在标准制定的整体路线方面,前三次会议(2017年12月-2018年6月)对视觉特征编码
3、的技术需求和应用场景进行讨论与梳理,首先形成了视觉特征编码提案征集书(草案)(AlMIO16)技术文档与视觉特征编码评价框架(草案)(AIM1017),前者明确了提案需求,并规提案阶段设置、提案内容、时间节点计划等,后者列出了典型视觉任务的验证数据集,设置核心实验中的测试任务、基本思路、测试条件、参考技术文档、性能度量等。经过后续会议(2018年8月-2019年12月)修订完善,最终形成了视觉特征编码核心实验数据集6.0(AlNII60)、视觉特征编码核心实验设计6.0(AlNll59)、视觉特征编码测试模型V1.0(AlNIO93)技术文档。关于深度特征编码,工作组在2018年8月第4次会议
4、首次收到基于视频编码标准的DeePfeatUre有损压缩框架(AlMlo30)技术提案,提出采纳预量化与视频编码相结合的方案作为特征图压缩的基础编码框架。在2018年12月第5次会议收到基于视频编码标准的特征图有损压缩框架及测试条件(AIM1061)技术提案,提出基于视频编码标准的深度特征图有损压缩框架,并最终审议通过。在2019年3月第6次会议收到多任务下特征图有损压缩测试及实验平台升级(AlMlO88)技术提案,该提案报告了在目标检测任务下的特征图有损压缩性能,并建议更新实验平台。在2019年8月第8次会议收到特征图有损压缩中预量化和重打包模块的模式拓展(AlMlI22)技术提案,并最终审
5、议通过。在2019年12月第9次会议收到特征图有损压缩试验补充(AlMiI54)技术提案,该提案对特征图有损压缩进行了试验补充,并对视频序列特征进行试验,探索含有时空冗余的特征序列编码压缩。在2020年3月第10次会议收到深度特征图量化技术更新(AlMI220)技术提案,该提案针对特征图有损压缩任务,提出了一种基于特征图统计特性的自适应量化方法,并最终审议通过。在上述技术提案的基础上,形成了信息技术视觉特征编码第4部分:深度特征图标准的第一份草案,之后,该草案在工作组内部进行公示与审阅,广泛采纳各单位专家的意见,对收到的反馈意见进行反复认真讨论和修订相应内容,并最终于2023年5月形成了标准的
6、征求意见稿。本标准起草单位:鹏城实验室,北京大学,中新国际联合研究院,青岛海信网络科技股份有限公司,青岛新一代人工智能技术研究院,青岛图灵科技有限公司,浙江邦盛科技股份有限公司本标准起草人:陈卓,段凌宇,AlexC.Kot,WeisiLin,杨文瀚,汪维,高峰,冯栋,王雯雯,王新宇,陈伟二、标准编制原则和确定主要内容的论据及解决的主要问题随着深度学习技术的发展和普及,诸多视觉分析任务开始以深度模型作为算法内核。深度模型的计算量往往十分巨大,云端更难以承受数以万计的视频分析需求,因此将特征提取转移至边缘端十分必要。深度模型的多层次结构产生不同语义层次的特征图,又使特征对视觉分析任务的泛化性得到保
7、证。本部分即是面向深度特征图编解码而制定的,目标是提高深度特征图的编码效率以及降低编解码过程中的信息损失。信息技术视觉特征编码第4部分:深度特征图是以我国科研机构和重点科研创新企业为首、引领信息技术领域有影响力的企业共同创新而成。为了形成优化的技术方案,专题组根据标准的通用性和实用性对编码方法的架构进行了多轮讨论和评估。技术评估的基本依据是综合考虑提案对解决深度特征图编解码的有效性、可实现性、可扩展性、对已有设备的兼容性和现有标准的复用性以及知识产权情况等,这些原则与手段为深度特征图编码的技术先进性和妥善解决知识产权问题奠定了坚实基础。本部分规范了深度特征图编码解码的过程和编码格式,适用于图像
8、数据中目标或场景的分类、检索、识别等应用。本部分根据深度特征图的特点,提出了深度特征图量化方法以及重打包/反重打包方法,使深度特征图能够符合传统视频编解码器输入的编码格式,并且提高了深度特征图之间的时间相关性和空间相关性。本标准则是针对深度特征图的特点,专门设计了针对性的编码方式和编码格式,采用了传统的视频编解码技术,在保证任务性能的同时减少了数据体积。信息技术视觉特征编码第4部分:深度特征图的特色技术包括:1.预量化技术深度特征图数据范围很广,并且数据精度很高,同时深度特征图的数据大多数集中在值较小的数据范围,少量值在较大数据范围。可通过预量化技术可以在不影响特征应用的前提下,舍弃部分数据精
9、度,实现降低数据精度的目标以及降低数据压缩难度。D自定义标量量化该技术根据对特征图统计特性的分析,通过手动设计、机器学习等方法设计符合深度特征图特征值分布的量化区间划分,用于对特征数据的量化操作,生成符合传统视频编码器输入要求的数据形式。该量化方式充分利用了特征图的统计性质,对量化区间进行精确划分,有效地降低了由于量化过程产生的量化误差。2.深度特征图重打包/反重打包深度特征图重打包/反重打包将原始特征图的三维数组变化为符合传统视频编码器输入要求的YUV400颜色编码格式,并通过改变特征图的组合方式,提高传统视频编码器对待编码特征图数据的编码效率。该技术可以根据组合方式的不同进一步划分为以下三
10、种重打包/反重打包方式:1)特征图默认顺序叠加特征图默认顺序叠加方式中,特征图的每个通道对应传统视频编解码器输入数据中的一个视频帧,特征图通道顺序为原始顺序,保持不变。特征图的高、宽被填充至符合传统视频编解码器输入要求的高度和宽度。2)特征图指定顺序叠加特征图指定顺序叠加方式中,特征图的每个通道对应传统视频编解码器输入数据中的一个视频帧,同时,固定第一通道,余下通道按照与前一通道二范数最小的规则排列。特征图的高、宽被填充至符合传统视频编解码器输入要求的高度和宽度。3)特征图默认顺序平铺特征图默认顺序平铺方式中,特征图的多个通道平铺拼接成一个二维数组,并作为传统视频编解码输入数据中的一个视频帧。
11、拼接后数组的高、款被填充至符合传统视频编解码器输入要求的高度与宽度。拼接顺序为原始特征图通道的顺序,由数组宽方向优先,高方向依次排列,当前帧铺满后再创造下一帧继续平铺,直到特征图所有通道平铺完毕。4)特征图指定顺序平铺特征图指定顺序平铺方式中,特征图的多个通道平铺拼接成一个二维数组,并作为传统视频编解码输入数据中的一个视频帧。拼接后数组的高、款被填充至符合传统视频编解码器输入要求的高度与宽度。按照指定的特征图通道顺序进行视频帧的拼接,当前帧铺满后再创造下一帧继续平铺,直到特征图所有通道平铺完毕。三、主要试验或验证情况分析高效编码同时保持较好任务性能是本标准的核心特征之一,下面给出使用本标准特色
12、技术进行深度特征图编码在压缩率和信息损失上的表现。测试数据如表1所示,为使用VGGNet-16模型基于ImageNet数据作为输入数据抽取的深度网络特征。表1测试数据说明深度特征图类型深度特征图尺寸深度特征图数据体积convl2242246412.25Mpool1112112x643.0625Mconv21121121286.125Mpool256561281568Kconv356562563.0625Mpool32828256784Kconv428285121568Kpoo141414512392Kconv5141451298Kpoo!577512392K测试结果数据如表2到表4所示。表2测
13、试结果一预量化+特征图默认顺序叠加QPOQP12QP22QP32QP42Comp.RateFidelityComp.RateFidelityComp.RateFidelityComp.RateFidelityComp.RateFidelityconvl0.1480.9970.1160.9960.0800.9850.0480.9550.0200.839pooll0.1800.9970.1450.9940.0990.9840.0570.9140.0230.693conv20.1500.9970.1300.9920.0980.9720.0660.9520.0350.790po120.2140.997
14、0.1850.9950.1380.9820.0900.9470.0470.745conv30.1140.9970.1020.9950.0800.9860.0570.9600.0340.840pool30.1960.9970.1790.9890.1400.9810.1020.9550.0630.819conv40.0700.9980.0650.9920.0530.9840.0410.9670.0280.865pool40.1640.9980.1600.9920.1270.9740.0970.9690.0650.864conv50.0600.9980.0590.9970.0460.9890.0370.9690.0230.920pool50.1620.9980.1620.9950.1290.9860.1060.9670.0750.908表3测试结果一预量化+特征图指定顺序叠加QPOQP12QP22QP32QP42Comp.RateFidelityComp.RateFidelityComp.RateFidelityComp.RateFidelityComp.RateFidelityconvl0.1480.9980.1000.9920.0640.9690.0280.8830.60.694pooll0.1820.9970.124