《信息技术 视觉特征编码 第5部分:语义分割图编制说明.docx》由会员分享,可在线阅读,更多相关《信息技术 视觉特征编码 第5部分:语义分割图编制说明.docx(5页珍藏版)》请在优知文库上搜索。
1、团体标准信息技术视觉特征编码第5部分:语义分割图(征求意见稿)编制说明一、工作简况新一代人工智能产业技术创新战略联盟(简称ArnSA联盟)是在科技部的指导下于2017年成立,由近200家来自行业内的顶尖企业、高校和科研院所、资本机构、服务机构、创新创业企业组成。在AVS工作组近20年标准制定经验及标准制定团队的基础上,联盟从成立开始,便以人工智能产业发展需求为引领,围绕产业发展中存在的共性问题,建立了AI标准工作组,着手人工智能标准体系的搭建和技术标准的制定。AI标准工作组内部成立了若干专题组,分别承担相关细分领域的标准制定工作,视觉特征编码专题组是其中之一,致力于视觉特征编码相关技术标准的制
2、订。信息技术视觉特征编码第5部分:语义分割图规定了语义分割图编解码的解码流程、编码工具等内容。本标准适用于语义分割图编解码的功能实现、验收以及与之相关的设备研发、生产,可应用于自动驾驶等相关领域。根据中关村视听产业技术创新联盟2023年标准制修订计划的安排,下达了由鹏城实验室牵头制定的团体标准信息技术视觉特征编码第5部分:语义分割图(标准计划号为2021032505)的制定任务。工作组自2017年12月第一次会议开始,讨论启动视觉特征编码标准制定工作,为视觉特征建立新一代编解码技术体系架构,以解决视觉特征编码的难题,推进领域技术发展。在标准制定的整体路线方面,前三次会议(2017年12月-20
3、18年6月)对视觉特征编码的技术需求和应用场景进行讨论与梳理,首先形成了视觉特征编码提案征集书(草案)(AlMlOI6)技术文档与视觉特征编码评价框架(草案)(AIM1017),前者明确了提案需求,并规提案阶段设置、提窠内容、时间节点计划等,后者列出了典型视觉任务的验证数据集,设置核心实验中的测试任务、基本思路、测试条件、参考技术文档、性能度量等。经过后续会议(2018年8月-2019年12月)修订完善,最终形成了视觉特征编码核心实验数据集6.0(AlNll60)、视觉特征编码核心实验设计6.0(AlNlI59)、视觉特征编码测试模型V1.0(AINIo93)技术文档。在2019年12月和20
4、20年3月两次会议,工作组收到了关于语义分割图编码的两份技术提案:基于四叉树划分的语义分割图编码框架(AIMll55)技术提案在经过工作组全体会议和成员单位对提案中的技术内容进行了充分讨论和仔细推敲之后,于2019年12月审议通过,基于四叉树划分的语义分割图编码框架补充实验技术提案则经过了工作组全体会议,于2020年4月最终审议通过。在上述两份技术提案的基础上,形成了信息技术视觉特征编码第5部分:语义分割图标准的第一份草案,之后,该草案在工作组内部进行公示与审阅,对收到的反馈意见进行认真讨论和修订相应内容,最终于2023年5月,形成了标准的征求意见稿。本标准起草单位:中国科学技术大学,鹏城实验
5、室,北京大学,上海交通大学,青岛海信网络科技股份有限公司,青岛新一代人工智能技术研究院本标准起草人:刘东,杨闰宇,闫宁,吴枫,段凌宇,白燕,林巍晓,刘士湛,王雯雯二、标准编制原则和确定主要内容的论据及解决的主要问题在图像视频处理领域,人工智能算法、尤其是深度学习技术的发展使视觉特征得到越来越广泛的应用。作为一种高层视觉特征,语义分割图应用广泛。在自动驾驶中,语义分割图可以得到图像中的不同类型物体/目标的位置,用于辅助决策;在特征与图像联合编码中,语义分割图可以辅助图像编码;在视频弹幕人物遮罩过滤应用中,语义分割图可以指明遮罩位置,提升视频主观质量;在图像合成中,语义分割图可以指明合成位置。这些
6、应用对语义分割图的编解码提出了要求。本部分即是面向语义分割图编解码而制定的,目标是提高语义分割图的编码效率。信息技术视觉特征编码第5部分:语义分割图是以我国科研机构和重点科技创新企业为首、引领信息技术领域有影响力的企业共同创新而成。为了形成优化的技术方案,专题组根据标准的通用性和实用性对编码方法的架构进行了多轮讨论和评估,技术评估的基本依据是综合考虑提案对解决语义分割图编解码的有效性、可实现性、可扩展性、对已有设备的兼容性和现有标准的复用性以及知识产权情况等,这些原则与手段为语义分割图编码的技术先进性和妥善解决知识产权问题奠定了坚实基础。从架构上看,现有的语义分割图编码的方法是复用已有的图像编
7、码方法,尤其是针对屏幕内容编码进行扩展的图像编码方法。已有的图像编码方法一般对图像分块,然后逐块从多种编码工具中选择编码工具,这显著提高了编码复杂度,而且已有的图像编码方法并没有针对语义分割图设计专门的编码工具。因此,已有的语义分割图编码方法不仅复杂度很高,而且编码效率低下。本标准则是针对语义分割图的特点,专门设计了针对性的新的编码工具,采用了经典的链式编码技术,在降低编解码复杂度的同时显著节约了码率。信息技术视觉特征编码第5部分:语义分割图的特色技术包括:四叉树划分语义分割图编码使用了四叉树划分技术,这与AVS工作组制定的AVS2、AVS3系列视频编码标准框架兼容,易于作为一种编码工具集成到
8、AVS系列视频编码框架中,无需额外设计软件、芯片等载体。链式编码与现有图像编码方法从多个编码工具中选择编码工具不同,语义分割图编码针对语义分割图的特性仅使用了链式编码作为编码工具,在降低编解码复杂度的同时显著节约了码率。三、主要试验域验证I情况分析高效编码是本标准的核心特征之一,下面给出本标准的参考软件实现的语义分割图编解码方法相对于传统图像编解码方法的编码码率和编解码复杂度,使用多个语义分割图数据集进行对比测试。测试数据如表1所示。表u测试数据说明测试数据说明数据集情况数据集名称分辨率语义分割图数目CityScape2048x10242975YouTuBe-VOS1280x7203232DA
9、VIS848x4806268CASIA-B320x24013251数据集数量4覆盖场景城市道路与交通语义分割图视频中对象的语义分割图针对步态识别所提出的人体轮廓语义分割图测试结果数据如表2所示,负数表示码率与编解码时间的节省。表2测试结果说明HEVC-SCC本标准参考软件性能增益语义分割图数据集名称码率/B娟码时间/S解码时间/S码率/B编码时间/S解码时间/S码率节省媚码时间节省解码时间节省CityScapc6314.96.62720.12634()14.50.10540.0674-36.4%-98.4%-46.6%YouTuBc-VOS1020.72.69150.06164190.0812
10、0.0186-58.9%-97.0%-69.8%DAVIS997.5i.584l0.0373515.20.05640.0158-48.4%-96.4%-57.6%CASbVB273.70.24930.013192.90.01880.0043-66.1%-92.5%-67.2%由表2可见,本标准参考软件的方法与同时期最好的语义分割图编码方法HEVCSCC对比,在显著降低编解码复杂度的前提下,平均节省码率50%以上。四、知识产权情况说明标准能够妥善解决知识产权问题,不存在知识产权侵权风险。五、采用国际标准和国外先进标准情况本部分未采用对应国际标准,而是采用自主制定的技术路线,这是由于目前该领域的标
11、准均是复用己有的图像编码标准,而本标准中的语义分割图编码,为语义分割图专门设计高效的编码工具,在降低编解码复杂度的同时显著提升了编码效率,国外尚无同类标准。六、与现行相关法律、法规、规章及相关标准的协调性符合我国有关的现行法律、法规。七、重大分歧意见的处理经过和依据无。八、标准性质的建议建议发布为推荐性标准。九、贯彻标准的要求和措施建议为了促进语义分割图编码的广泛应用和产品化,需要大力开展语义分割图编解码的芯片研发。同时,应在自动驾驶、图像视频处理等应用领域大力推广使用语义分割图编码标准,产生更大的影响力。十、替代或废止现行相关标准的建议无。十一、其它应予说明的事项无。团体标准信息技术视觉特征编码第5部分:语义分割图编制工作组2023-05-10