《2024人工智能 深度学习算法评估.docx》由会员分享,可在线阅读,更多相关《2024人工智能 深度学习算法评估.docx(21页珍藏版)》请在优知文库上搜索。
1、人工智能深度学习算法评估前言III引言IV1范围12规范性引用文件13术语和定义14评估指标体系24.1 评估指标构成24.2 基础性能24.3 效率34.4 1可解样性34.5 鲁峰性44.6 安全性54.7 公平性64.8 深度学习算法的评估等级65评估流程75.1概述75.2 评估准备85.3 评估执行95.4 分析评估结果10附录A(资料性)12附录B(资料性)15参考文献18深度学习算法评估的意义和作用主要体现在以下几个方面:1,算法性能的度量和比较:评估深度学习能法的性能是算法研发和优化过程中不可缺少的一环。通过对比不同算法的性能,可以了耕各种算法的优劣,为算法的改进提供依据,同时
2、,对于相同算法,通过对比不同参数设置或不同数据傀上的发现,可以评估算法在不同场景下的适应性.2、算法问的的没断:深度学习算法的评估结果可以用于诊断算法存在的问题.如果蚱法在某些方面的表现不佳.可以通过分析注估结果未定位同髭所在,为改进算法提供突破口,例如.如果模型的测准确率较低,那么可能需要检查模型的架构、训练数据的质量、训练过程的多数设置等方面。3、算法的应用前景预测:深度学习算法的脚用前景预测是算法评砧的一个重要方面.通过评估深度学习算法在不同领域的应用效果,可以了解该驿法在不同场景下的适用性,为算法的应用推广提供参考.例如,深度学习在图像识别、语音识别、自然语言处理等领域的应用己经得到了
3、广泛认可,但在某屿领域的应用效果可能还需要进一步探索和评估.总之,深度学习算法评估是算法研发和应用过程中不可或跳的一环,它可以精助研发人员了解算法的性能、问跑和应用前景.为算法的优化、改进和推广提供依据.然而,业界缺乏对深度学习算法的系统性评估方法,一定秘度上影响着深度学习的广泛应用和技术发展,本文件比版本仅针对人工智能深度学习心法的基础性能、效率可解择性、件棒性、安全性和公平性评砧进行要求,密在研究的深入及应用的发展,后续将不断进行持续改进,逐渐技展到深度学习算法可移掖性等方面的评估.人工智能深度学习算法评估1范困本文件确立了人工智能深度学习算法的评估指标体系,描述了评估方法等内容.本文件适
4、用于指导深度学习律法开发方、用户方以及第三方等相关加织对深度学习算法及其训缥得到的深度学习模型开展评估工作.2规色性引用文件下列文件中的内容通过文中的规范性引川而构成本文件必不可少的条款.其中.注H期的引用文件,仅该日期时应的版本适用于本文件:不注日期的引用文件,其最新版本(包括所有的修改垠)适用于本文件.GB/T41861-2022信息技术计算机视觉术语GB/T41867-2022信总技术人工智能术语ISO/1EC25059:2023软件工程系统和软件质量要求与评估(SQuaRE)人工智能系统的质贵模型(Sor1.WareenKineerinK-SystemsandsoftwareQua1.
5、ityRtsandEva1.uationQua1.itymode1.forIsystems)3术语和定义GB/T41864、GB/T41867.IS0IEC25059:2023界定的以及下列术谱和定义适用于本文件.3. 1深度学习deep1.earning通过训练具有许多陷薄层的神经网络来创建丰富层次表示的方法.注:深度学习是机器学习的一个子集GB/T418672022,3.2.273.2深度学习模型deep1.earningmode1.一种包含多个层次神经网络结构的机器学习模型.3.3深度学习算法deep1.earninga1.gorithm使用深度神经网络结构进行学习和推理、以完成特定功能
6、的代码片段。3.4测试数据testdata评价数据eva1.uationdata用于评估最终机器学习模型性能的数据.GB/T11867-20223.2.33.5精度precision预测类别为正样本的集合中真实类别为正样本的比率.注:精度一般每一类分别计算。GB/T41864-20223.9.83.6召回率reca1.1.被正确预测的正样本占全部正样本的比率.注1:3回率和精度一般具有反比关系:一方升高时另一方趋向于降低。注2:也称为其阳性率.GB/T11861-20223.9,203.7准确率accuracy预测正确的样本数占总样本数的比率.3.8对抗样本adversaria1.examp1
7、.es在数据集中添加细微干扰形成的输入样本,能以较高概率诱导深度学习算法给出悟误的都出,甚至是给出特定结果.4评估指标体系4.1 评估指标构成基于深度学习作法内外都彰响考虑,结合用户实际应用场景需求.本文件给出深度学习算法的评估指标体系,包括基础性能、效率、可解择性、鲁棒性、安全性、公平性等6个质f掂性,见图I.在实施评估过程中,应根据不同类型的深度学习算法,设置不同质量特性卜的评估指标.图1深度学习算法评估指标体系4.2 基础性能4.2.1 减述V-干不同i果度学习骈法的任务和输出,采用不同的评估指标去衡IA原础性能.4.2.2 评估指标基础性能的评估应包括但不限于下列指标:a)准确率:预测
8、正确的样本数占总样本数的比率.b)精度:预测类别为正样本的集合中我实类别为正样本的比率.C召回率:破正确倭测的正样本占全部正样本的比率.1)错误率:对于给定的数据集,预测枯误的样本占总样本的比率.C)FKfi:精度和召回率的调和平均数,衡鬓二分类模鞭精度的一种指标,兼顼了分类模盘的精度和召回率.f) KUft度:两个概率分布间的差异的非对称性度眼,它比较了真实分布和理论(拟合)分布之间的差异.g) ROCIffiit:受试者工作特性曲线,由不同设定条件下的真正率和假正率向而出的响应曲战,是反映敬塔性和特异性连续变量的综合指标.h) PRC曲线:精度召I可率曲我,是一种同时显示不同阙位下深度学习
9、算法精度和召回率的图形化方法.一般X轴表示召回率,、轴表示精度.i) CRC曲线:累枳响应曲现,也称为增益曲线或纳福图,是显示跨多个俵值的总数期中立阳性率和阳性预测百分比的图形方法。附录A给出了深度学JJ算法针对不同任务选取的基础性能指标示例。4.3 效率4.3.1 期述深度学习算法的效率通常指的是律法在达到给定性能目标时所消耗的资源与时间的多少,4.3.2 评估指标效率的评估应包括但不限于下列指标:a)平均处理时长:用于定义和评价在相同测试环境K深度学习律法模型处理相同任务的时间消耗“在测试阶段,它包含算法模型单训练轮次执行时间多训练轮次执行时间、达到特定精度执行时间等测试元。b)平均资源开
10、销:用于定义和评价在相同测试环境下.深友学习算法模型处理相同任务消耗的资海t大小.在测试阶段,它包含究法执行时的算力满耗、存储消髭、带宽消耗等测试元.4.4 可解释性4.4.1 概述深度学习算法可解修性用于评估蚱法对于结果的解择和理解能力。4.4.2 评估指标可解择性的评估应包括但不限于下列内容:a)解择一致性:针对局部替代模型的可解择测试方法,要求待解样的深度学习算法决策结果与其通过可斛并性方法输出结果具有一致性,即幼玳结果一致性.这是深度学习算法具有可解择一致性的基础,若待解株的深度学习匏法结果与可解糅性方法输出结果没有足筋的一致性,则其不能有效地解修深度学习算法,可使用为代根型一致性等指
11、标评估一致性。斛择一致性可以使用输出结果一致性进行评估,输出结果致性是指通过计算输出结果的异众比率,来表明数据的一致性,其计豫公式如下;-Vr=1.,其中,Vr表示异众比率,Eft为变演值的总频数:%为众数组的频数,n混示数组的数最。b)翎择有效性:要求解保能准检地反映出深度学习算法的决策逻辑.有效的解择应包含深度学习算法预测时所依据佐恩.解柞有效性可以使用判定系数来评估。判定系数:乂称R2系数,是指反映因变收的全部扰动能通过回归关系被自变量例样的比例.R2值越接近于1.回归拟合效果越好,一般认为超过80%的模型拟合度比较而,其计算公式如下:R2=一1-y)2用y,去示真买的观测值,y表示真实
12、观测值的平均值,%表示预测值。c)解择因果性:要求生成的解和与待解样深度学习凭法预泅之间具有因果关系,因果关系是指解择中包含的特征是预测结果的原因.与预测结果有因果性的解择越多,则其解释性越好.解林因果性可以使用特征贡献分数进行评估,特征贡献分数是指用来解样的H1.要性前的k个样本特征分数和与全部特征分数和的比值.其计算公式如下:f_EGhhk1.hr1.fi其中,f“h为特征贡献分数,fa为用来斛择的重要性雏前的前k个特征分数之和,0为全部特征分数和。d解择充分性:要求解林能就凝蔽深度学习算法的整体功能。充分的解释应充分且精掂股靛科本空间.解样充分性可以使用离散系数来评估。离散系数是指数据的
13、标准差与平均数的比俏,用来比较不同类别数据的曲敢程度,其计算公式如下:aVS=X其中,VS表示次敌系数,a为数据的标准差,又为数据的平均数,4.5 鲁棒性4.5.1 飘述鲁林性是在面对非对抗增广的样本时,深度学习算法仍能保持与实脸环境中利试性能相当的能力。4.5.2 评估指标瞥棒性的评估应包括但不限于下列内容:a)性能波动率:描述模里在原始测试数据集和经过非对抗扰动处理后的新测E数据集之间的性能差异.该指标盘化了模型在面对扰动时的稳定性值越小表明模型在面对扰动时具有较高的植定性,从而为模型的俘悻性提供了鹿城,具体计算公式如下;Phn.InUW-PhcrtiSrtJPFD=其中,PFD我示模型的
14、件能波动率.Ph”m每藤由丽嬴试数据集上的性能指标,Ph“.”1表示模缎在经过非对抗扰动后的新测试数据集上的性能指标,对于多种扰动,模型的鲁棒性可以通过如下公式破化:R=w1PFD1.i三1.其中,R表示模型瞥件性,助丧示第i种扰动的权重,N表示共有N种扰动方法,PFD,表示模型在第i种扰动下的性旎波动率.注:这里的性能选取的是基础性能中的评估指标,对于不同任务选取的性能指标不同,例如图像分类任务选取准码率为性能波动指馀,目标检测任务选取nP为性能波动指标;在评估过程中,也Ur以选取多个性能指标,逐一计算性能波动率.b)扰动稔定性:描述模里在经历非对抗扰动后出现性能退化的样本与其对应的原始样本
15、之间的最小矩高.该指标立化了模型在面对扰动时所能容忍的城大变化,值越大衣明模型在面对扰动时具有较强的抵御能力,从而为模型的各棒性提供了度吊,具体计分公式如下:PSQj=min(dist#hh其中,PSDe衣示模型的扰动梗定性,X表示数据集,X表示样本实例,diS1.衣示在类里的扰动下样本与扰动样本的距网函数。具体实现方式如下:W,h=PXT取hGyI,htherrise其中,f(xh去示通过类型扰动牛.成的样本父的判定结果y衣示真实标签C对于多种扰动,模型的行棒性可以通过如下公式砧化:R=min(mindist(xhhXeX其中,R表示模型善栈性.e表示扰动集合.4.6 安全性4.7 61做述深度学习算法的安全性用于评估算法对于对抗样本的防范能力.4.8 .2评估指标安全性的评估应包括下列内容:a)攻击成功率:描述在经过攻击方法构建的新测试数据佻中,模型预测失败的样本数与总样本数之间的比率,该指