《人工智能识别林长制巡查的影像数据样本库建设指南-征求意见版v8.docx》由会员分享,可在线阅读,更多相关《人工智能识别林长制巡查的影像数据样本库建设指南-征求意见版v8.docx(23页珍藏版)》请在优知文库上搜索。
1、ICS35.020CCSL70T/SHLY团体标准T/SHLY*人工智能识别林长制巡查的影像数据样本库建设指南Guidelinesfortheconstructionofimagedatasampledatabaseforartificialintelligencerecognitionforestchiefschemeinspection(征求意见稿)上海市林学会发布目次前言U1范围12规范性引用文件13术语和定义14建设内容35工作流程96数据样本分类与组织117数据样本处理128数据样本入库139质量控制1410建设成果1511数据样本安全15附录A16前言本文件按照GB/T1.2020
2、标准化工作导则第一部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由上海市林学会提出并归口。本文件起草单位:上海岩易科技有限公司、上海市林业总站。本文件主要起草人:周俊峰、蒋含笑、韩玉洁、李琦、刘璐璐、吴尧。首期承诺执行单位:上海岩易科技有限公司、上海元易勘测设计有限公司、上海仲蓝信息科技有限公司、常州市新翼空间信息科技有限公司、武汉中地数码科技有限公司、上海宝天信息科技有限公司、南京韬讯航空科技有限公司、河南恩盾智能科技有限公司、河南鹏禄电子科技有限公司。人工智能识别林长制巡查的影像数据样本库建设指南1范围本文件提供
3、了人工智能识别林长制巡行的影像数据样本库建设的指导建议。包括建设内容、工作流程、数据样本分类与组织、数据样本处理、数据样本入库、质量控制、建设成果及数据样本安全的信息。本文件适用于为训练智能识别林长制巡查典型违规场景的人工智能模型,而进行的影像数据样本库建设工作。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T14911测绘基本术语GB/T17798地理空间数据样本交换格式GB/T24356测绘成果质量检查与验收GB/T41867信息技
4、术人工智能术语1.Y/T1662.7数字林业标准与规范第7部分:数据样本库建库标准1.Y/T1662.7数字林业标准与规范第9部分:数据样本库管理规范1.Y/T1662.7数字林业标准与规范第10部分:数据样本库管理规范1.Y/T2930林业数据样本采集标准规范3术语和定义下列术语和定义适用于本文件。人工智能artificialintelIigence;Al人工智能系统相关机制和应用的研究和开发。来源:GB/T418673.2影像数据样本imagedatasampIe包含目标物体或场景的影像。能看清物体特征,无过曝、模糊、撕裂等情况,关键日标场景的遮挡、覆盖面积小于10乳包含全色影像、多光谱影
5、像、高光谱影像等多种类型。3.3数据标注datalabelling给数据样本指定目标变量和赋值的过程.来源:GB/T418673.4标签数据样本IabeldatasampIe本文件中是指对于影像数据样本的标注,通过区域标注、框标注、线标注等数据样本标注技术,标识出数据样本中需要识别的场景或物体。3.5元数据metadata数据的内容、质量、状况和其他特性的描述数据。来源:GB/T14911对数据进行描述的数据,即数据的标识、覆盖范围、质量、空间参照系和分发等信息。来源:LY/T29303.6实时检验o11-goinginspection实时检验是数据标注过程中一种随标随检”的检验方式,能够及时
6、发现存在的问题,并降低重复问题的出现次数。一般而言,为保证最终交付质量,降低修改成本,实时检验是数据样本标注中必不可少的环节。全量检验full-scaleinspection全量检验是对整个标注数据集的核验,能够有效统一不同标注员的主观因素造成的标注区别,并对整批次数据进行准确率评估。3.8批次抽验batchsampIinginspection批次抽验是对待交付的数据进行抽验的过程,一般在全量检验工作量过大或交付时限紧张时进行。3.9影像数据样本库imagedatabase基于计算机软硬件系统,遵循统一分类体系,涵盖多尺度(天、空、地)、多源数据样本、多季节、多地区的数据集,具备数据样本类别动
7、态扩展,同时能满足场景、目标、像素等不同层级的精准识别要求,实现数据样木组织、存储、查询和管理的数据样木仓库。3.10数据集dataset可以标识的数据样木集合。数据集可以是数据样本库,也可以是数据样本库的一个(逻辑组成)部分。来源:LY/T1662.73.11林长制巡查forestchiefschemeinspection根据林长制精神,对林地、绿地中的违法违规和失管失养护问题的巡逻、检查、上报、处置等工作,一般分为日常巡查与专业巡查。4建设内容4.1影像数据样本库框架影像数据样本库建设内容包括确定需求、建立数据样本库、管理数据样本库3个部分,如图1所示。确定需求数据样本分类数据样本采集数据
8、样本标注S数据样本入串建立数据样本库影像数据样本库标签数据样本库数据样本管理管理数据样本库数据样本扩充数据样本查询数据样本修改数据样本下载数据样本删除数据样本统计图1影像数据样本库框架图4.2确定需求4.2.1数据样本分类4.2.1.1分类原则1)场景类型主要包括林业监管部门关注的林长制巡查重点违规场景;2)应采用多级分类法:3)分级和分类应当考虑平衡实际巡检要求及计算机视觉原理;4)宜使用定量与定性结合的方法描述每个类别的场景特征:5)应考虑不同地区林长制巡查场景的共性。4.2.1.2分类内容根据林业主管部门对林长制巡查的工作要求,按照工作场景进行分类,按照场景内容和类别进行分级。4.2.2
9、数据样本采集4.2.2.1采集前期准备影像数据样本采集前期准备工作,包括组织准备、技术准备和其他准备:1)组织准备:组织影像数据样本采集团队,明确团队责任和分工等:2)技术准备:指定影像数据样本采集工作方案、技术方案和操作细则等,并作好相应记录:3)其他准备:明确影像数据样本采集对象,采集季节、采集数量以及采集地点等。4.2.2.2数据样本类型根据数据样本采集设备不同,数据样本类型主要包括手持设备拍摄图片、遥感影像、无人机影像、地面监控影像及其他方式采集的影像。4.2.2.3采集方法1)手持设备拍摄图片通过手持手机或者相机等设备采集影像数据样本。2)遥感影像根据遥感影像数据获取的平台不同,分为
10、卫星遥感影像、航空遥感影像等。通过国内外卫星搭载的遥感传感器获取卫星遥感影像数据样本:通过飞行器(如飞机、飞艇等)搭载的遥感传感器获取航空遥感影像数据样本。3)无人机影像通过无人机搭载相机、多/高光谱成像系统等设备拍摄获取的影像数据样本。4)地面监控影像调取地面固定摄像头拍摄的视频画面。5)其他方式采集的影像包括但不限于行车记录仪采集的影像数据样本等。4.2.2.4元数据相关信息记录元数据贯穿影像数据样本库建设的全过程,影像数据样本元数据、标签数据样本元数据等。按照LY/T1662.10-2008数字林业标准与规范第10部分:元数据样本标注的规范,影像数据样本元数据和标签数据样本元数据应包括标
11、识信息、数据样本质量信息、空间表示信息、空间参照信息和时间序列信息。4.2.2.5采集数据样本格式数据样本格式应满足GB/T17798的要求。影像数据样本格式应支持常用的遥感影像数据样本、无人机影像数据样本以及地面监控摄像影像数据样本格式,包括TIFF/GeoTIFF、JPEG等常见格式。4.2.3数据样本标注流程与检验方式数据样本标注基本流程,如图2所示。标注数据集整理4.2.3.1标注角色在标注员和质检员投入正式生产前,应由数据标注培训师对其进行标准、操作规范、业务需求的相关培训。人工数据标注中的用户角色至少需要包括以下两类:1)标注员负责标注数据样本,通常是根据具体数据样本标注要求,经过
12、一定专业培训的人员来担任。对于某些特定场景且对标注质量要求较高,由模型训练人员或者领域专家来担任。2)质检员负责审核已标注的数据样本,完成数据样本校对和数据样本统计,适时修改错误并补充遗漏的标注。一般由经验丰富的标注人员或权威专家来担任。4.2.3.2标注工具对影像数据样本进行标注时,根据具体的识别内容和人工智能算法模型选择合适的标注工具,可视采用全手工标注或半自动标注软件。图像数据样本的标注工具一般采用2D框或多边形。姿态识别的标注工具一般采用关键点或线条。4.2.3.3标注对象数据样本类型主要是图像,图像标注一般要求标注员对不同的场景标注上对应的标签类别,用标签来概述场景内容,以便让算法模
13、型能够识别图像中的不同场景或者目标。在实际操作中需要根据实际情况进一步细化。4.2.3.4标注质量通常情况下,不同数据样本集对标注准确率的不同,需视具体的项目和识别需求制定。图像标注的质量的评判标准主要有如下几个因素:D标注标签分类是否正确;2)标注标签名称是否正确:3)标注框线边缘与标的物实际边缘的偏差;4)标注标准与审核标准在同一批样本中是否保持一致。4.2.3.5注意事项数据样本标注应当注意下列事项:D一般而言,对于分割类模型标注,标的物的标注框中不能再嵌套其它标的物,确实存在重合或遮挡的,应当严格贴合其可见的边缘标注,或对存在遮挡关系的部分进行挖空处理。2)对于分割类模型标注,应严格按
14、照场景的边缘贴边标注,一般标注框线与标的物边缘的偏差应小于1像素。对于目标检测类模型标注,可采用最小包围框的方式,标注与标的物边缘贴合的最小矩形框。3)标注过程中,标注员的标注方法和尺度应统一。4)对于超出已制定场景分类的情形,一般不标注。5)对于模糊、拖影等难以判别类型或边缘的数据样本,一般不标注。6)特定复杂场景的最小标注面积和最大允许误差,需要根据具体的算法模型训练和巡检实际要求确定。一般而言,宽高小于30X30像素的不宜标注:7)标注标签宜以英文字符命名,应大于6个字符,大小写需要保持一致。4.3建立数据样本库建立数据样本库主要包括影像数据样本库、标签数据样本库、文档数据库和元数据库4
15、个部分,并分别包含其本身的数据样本描述,即元数据。4.4管理数据样本库管理数据样本库主要包括数据样本扩充、修改、删除、查询、统计和下载六个部分。5工作流程人工智能识别林长制巡查的影像数据样本库建设流程主要分为以下五个部分:1)场景类型划分及标准制定:确定识别场景和需求,根据人工智能基本原理和林长制巡查业务实际需求,划分识别场景,明确各类场景的典型特征,确定标注的尺度和准确度要求。2)数据样本采集:通过手持设备、固定摄像头、卫星、飞行器等设备搭载的传感器,采集包含目标物体或场景的影像数据样本。3)数据标注:通过标注工具,对目标物体或场景进行标注。4)数据样本入库:主要指影像数据样本、标签数据样本、相关文档以及元数据的入库5)数据样本库管理和维护:对数据样本库中的数据样本进行备份、修改、新增、删除等操作