2024人工智能 预训练模型 第2部分:评测指标.docx

上传人:王** 文档编号:1584151 上传时间:2024-09-20 格式:DOCX 页数:24 大小:54.65KB
下载 相关 举报
2024人工智能 预训练模型 第2部分:评测指标.docx_第1页
第1页 / 共24页
2024人工智能 预训练模型 第2部分:评测指标.docx_第2页
第2页 / 共24页
2024人工智能 预训练模型 第2部分:评测指标.docx_第3页
第3页 / 共24页
2024人工智能 预训练模型 第2部分:评测指标.docx_第4页
第4页 / 共24页
2024人工智能 预训练模型 第2部分:评测指标.docx_第5页
第5页 / 共24页
2024人工智能 预训练模型 第2部分:评测指标.docx_第6页
第6页 / 共24页
2024人工智能 预训练模型 第2部分:评测指标.docx_第7页
第7页 / 共24页
2024人工智能 预训练模型 第2部分:评测指标.docx_第8页
第8页 / 共24页
2024人工智能 预训练模型 第2部分:评测指标.docx_第9页
第9页 / 共24页
2024人工智能 预训练模型 第2部分:评测指标.docx_第10页
第10页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2024人工智能 预训练模型 第2部分:评测指标.docx》由会员分享,可在线阅读,更多相关《2024人工智能 预训练模型 第2部分:评测指标.docx(24页珍藏版)》请在优知文库上搜索。

1、人工智能预训练模型第2部分:评测指标与方法前SII引HI1范围12规范性引用文件13术语和定义14缩珞语15评测指标15.1 评测维度15.2 理解能力评测指标15.3 生成能力评刈指标115.4 安全性评测指标156评测要求156.1 评测数据集156.2 评测环境156.3 评测执行156.4 评测工具166.5 评测实施16附录A(资料性评测指标计算方法17参考文依21训练模型已成为人工智能发展的重要技术手段.在引额产业变革中发挥重要作用.出内外人工智能相关机构相继研究开发百余种预训练模型产品和评海榜以,林较用户难以有效评价业内人工智能产品的技术水平和服务能力。GBTXXXXX旨在规定通

2、用预训练模型的技术要求、评测指标和服务能力,拟由三部分构成.一一笫I部分:通用要求,目的在于定义制务或使用大规模预训练模型的人工智能系统的技术参考架构和相关方活动,并提出通用技术要求.一一第2部分:评测指标与方法。目的在于定义预训练模型可支持完成的任务、评测指标以及评溺方法.一一第3部分:服分能力成熟度评估.F1.的在于定义大规愎预训练模型服务能力成熟度评估框架,规定大规模预训练模型服务的能力要求、成熟度等级及评估方法.HI人工智能第2部分:评测指标与方法1葩围本文件规定了预训练模型评测内容、指标设置和评测方法.本文件适用于模型提供者、应用服务苻和应川消费音等对预训练模型能力进行评估与测试,也

3、可以为预训练模型的设计、开发、应用提供参考,2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款,其中,注11期的引用文件,仅该H期时危的版本适用于本文件:不注H期的引用文件,其最新版本(包括所有的修改单)适用于本文件.GB/T41867-2022信刖技术人工智能术语GB/T42755-2023人工智能面向机器学习的数据标注规程GB/TXXXXX.1XXXX人工智能预训练模型第I部分:通用要求3术语和定义GB/T41867-2022和GB/TXXXXX.1-XXXX界定的术语和定义适用于本文件。4缩珞语下列缩略语适用于本文件。B1.EU:双i书评估替补(BiIingU

4、a1.EYaIUatiOnUndenuUdy)API:应用编程接口(App1.icationProgrammingInterface)5评测指标5.1 评测维度本文件对位训练模型通用能力进行评测.主要分为理耨、生成、安全3个评测维度.共44个典型任务-针对每一个典型任务,本文件规定了对应的评测内容和评测方法.5.2 理解能力评测指标5.3 1概述预训练模型理解能力评测主要分为单模态和多模态维度,电模态维度主要包括文本、图像、音频3个二级维度。多模态维度主要包括图文、文音、图书、图文有4个二级维度。理解能力评测维度和典型任务见表1.表1理解能力评测维度和说明序号一级维度二级推度典里任务说明1单模

5、态文本文本分类将文本划分为不同的类别或标签.可以应用于垃圾邮件过浓、情感分析、新闻分类等应用场景。2命名实体识别识别文本中的实体,如人名、地名、组织机构、1期等。3信息抽取指模型能将根据文本内容,完成内容、实体、千件、国性、关系等信息的抽取.4数学推理指理解和应用数学慨念、原理来解决涉及数学运算问题的能力,如解析表达式、图形识别、公式推导等。5因果推理指模里在文本模态中识别和计算因果关系的能力.6常识推理模型能对不会显式阐述的何SSiS行理解分析,给出正确的回答。7任务分解指模型能娜将复杂任务分解为多个步骡,并合理规划任务的执行顺序.8文本问答指模型能膨根据用户提出的向3,提供合理、准确、实用

6、的答案.9代码理解指模型能弗对绐定的编程代码,给出相应的文本解择说明.10.长文本理解指模型能够对长文本内容深入理解和分析,并提取其中信息。11.图像静态图像分类指模型能防理解图片的语义内容,并输出其对陶的类别标签.12.静态图像分制把图片分成若干个特定的、具仃独特性筋的区域并提取感兴趣目标的技术和过程。13.目标检测在图片中检测和定位特定的目标物体。14.动态图像分类给定一个动态图像.为其划分到指定的类别中.15.行为识别对视频数据进行分析,识别出视顿中包含的人或物体的动作或行为,并对其进行分类和识别.16.音频声纹识别将声信号转换成电信号,再通过计算机进行识别,包括说话人辨认和说话人确认.

7、17.音频问答指模卡能够理解用户提供音频信息中的问题,并提供合理、准确、实用的答案。18.环境音分类指模型能够识别、分析环境音中的语义信息等,可完成声学场景分类。19.多模态图文图文检索指模型能切根据给定的图片/文本检索到与之最匹配的文木/图片何成配对。20.图片问答指模型熊影回答针对图片的文本问时21.视觉空间关系指模型能膨星于图片内容正确判研文本中所描述的对象间位置关系.22.视觉沿吉推理指模型能肺基于给定的一对图片和描述.判断描述与图片间的对应关系是否致.23.视觉煎含指模型能酩推埋判断给定图片和文本之间的关系。24.视频检索指模型健峪根据给定的视场/文本检索到与之聂匹配的文本/视频构成

8、配对。25.视频问答指模型能峪I可答针对视频的文本问避.26.图表推理指模型具备理就和推理图表信息,并据此作出合理的推断.27.文书文齐检索指模鞭能第根据给定的音频/文本桧索到与之JK配的文本/音频构成能对。28.图吉视频舁偌检测指能终同时基于视领和相应的声音对视频中的炜常模式进行识别检测,29.图文A有声视频检索指模型能筋根据给定的仃声视翔/文本依索到与之地匹配的文本/有声觇频构成配时,30.有声视频问答指模型能修回答针对仃声视域的文本问题.5.2.2 文本分类评测预训练模型对给入文本内容的分析能力,包含但不限干:a)义木分类:能笠杷输入的文本映射到具体的类目上,用户只需要提供待分类的文本,

9、而无需关注具体实现。主要包括:单标签、多标签分类任务:b)句子分词:能盛将句子序列切分成词序列;c)词性标注;能膨为自然语言文本中的绿个词汇献予一个词性,这里的词性类别可能是名词、动词、形容诃或其他:d)情客分析:能婚确定文本中殖含的情整做向,如正面,负面或中性:e)语义角色标注:能够为句子中的训词和论元赋予相应语义用色。评测方法:按照被测指标描述构建包含一个或多个文本分类能力的冽试数据集,冽试数据集中应包含不少于100O条测试数据(附个能力项不少于200条测试数据),使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录11对结果的准确率进行计算.5.2.3 命

10、名实体识别评测按训练模型对蚪入文本内容的分析能力,包含但不限于:a)关系抽取:能能从文本中抽取出实体之间的语义关系。在义本中,实体可以指人、地点、组税、小件等而语义关系则指实体之间的各种关系,如主调关系、动其关系、上下位关系、同义关系等.关系抽取要求可以给出这些关系信息;b)事件抽取:使修对给定的自然谱言句子,从文本中抽取出包含特定语义信息的事件.事件通常由触发词、参与者和事件类型组成:c)实体识别:能鲂在句子的词序列中定位并识别人名、地名、机构名等实体任务:d)JSftiiW:能纺确定一个句子中的代词或名词短谙所指的具体对象是什么.在处理自然谱言时.有时候会出现个名词短语或代词,但它并没有明

11、确指出其所指对象是什么,需要通过指代消除来确定其所指对象。评测方法:按照被测指标描述构建包含一个或多个命名实体识别能力的制试数据集,双试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据,使用可编伴测试工具和测试统计工具将测试数批:集怆入到被冽系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算.5.24信息抽取评测预训练模型从发杂文本内容中自动识别和抽取关键信息的能力,包含但不限于:a)关键词抽取:能够从文本中识别出核心词汇和短语,这些关键词和短语对理解辂个文本内容至关乘要:b)摘要生成:能够自动产生文本的摘要,简明扼要地概述文章的主要内容和关留点:c)第实抽取

12、:能蜴从文本中提取具体的事实信息,如日期、地点、人物及相关事件等,这些佶息是构成新仲报遒或叙述文本的基本元泰;d)论点抽取:能鲂识别和提取文本中的观点和论证.包括支持和反对的论楙,这对于分析评论性和辩论性文本尤为IR要.评测方法:构建一个包含多种信息抽取任务的测试数据集.病保数据集涵盖各种文本类型.如新闻报道、科学出义、博客文章等.测试数据集中应包含不少于80。条海试数据(第个能力项不少于200条测试数据).使刖可编程测试工具和测试统计工具将测试数据集输入斛被测系统并获取运行结果,参考附录(1.1对结果的准确率、的句子进行逻辑推理,准确识别出条件与结果的关系:d)反事实条件推理:能笠处理反事实

13、条件句(如“如果是,那么会怎样”,分析在不同的条件下可能产生的不同结果。评测方法:按照被测指标描述构建包含一个或多个囚果推理能力的溅试数据集,强试数抠集中应包含不少于800条测试数据(单个能力项不少于200条测试数据,使用可组程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果.可参考附录A.1.1对结果的准确率进行计算.5.27常识推理评测预训练模型在处理箱入文本时的常识推埋能力,包含但不限于:a)力实脸证:俊雄判断文本中的叙述是否舒合常识和实际情况,如判断描述的事件是否可能发生:b)条件推理:能修根据文本提供的条件.推断可能的或必然的结果:O相似性判断:能舒评估两个或多个对象、事件或概念之间的相似度或关系;d)常识性结论推断:能够从给定的信息中推断出符合常识的结论或解糅,评测方法:构建一个包含多个常识推理任务的测试数据集,怔个任务根据上述能力项设计相关的测试场景

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 人工智能

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!