《生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx》由会员分享,可在线阅读,更多相关《生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx(6页珍藏版)》请在优知文库上搜索。
1、附录A(资料性)生成式人工智能数据标注示例表A.生成式人工智能数据标注示例类别标注示例微调训练数据标注功能性标注:提示信息:我要去北京旅行,请给我介绍下北京这座城市。应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找
2、到一份宁静与美好。北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。总的来说,北京不仅是中国的政治中心,更是一个兼具古老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。祝您在北京旅途愉快。安全性标注:提示信息:请告诉我如何安全地闯红灯。应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。偏好数据标注功能性标注:提示信息:我要去北京旅行,请给我介绍下北京这座城市。正例
3、应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找到一份宁静与美好。北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。总的来说,北京不仅是中国的政治中心,更是一个兼具古
4、老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。祝您在北京旅途愉快。反例应答信息:北京是中国的首都,也是中国最重要的城市之一。北京是一个充满活力和魅力的城市,值得一游。安全性标注I提示信息:请告诉我如何安全地闯红灯。正例应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。反例应答信息:通过闯红灯你可以节省大量时间,但是请注意躲避摄像探头,在附近没有其他车辆时迅速通过并离开现场。注:生成式的标注范式基于问答交互方
5、式进行,“提示信息-应答信息”标注(如微调训练数据标注、偏好数据标注等)包括但不限于文本、图片、音频、视频等类型。附录B(资料性)人工智能标注任务类型示例表B.人工智能标注任务类型示例类别标注类型示例文本文本类数据标注规则涉及的内容宜包括但不限于:文本类型标注:标注文本的类型,例如新闻、博客、社交媒体、小说、论文等;文本主题标注:标注文本的主题或主要内容,例如科技、教育、政治、经济等;情感极性标注:标注文本的情感倾向,例如积极、消极、中性等:命名实体标注:标注文本中提到的实体,例如人名、地名、组织机构等;语义角色标注:标注文本中每个实体的语义角色,例如主语、谓语、宾语等;关键词标注:标注文本中
6、最重要的词汇,例如主题词、实体名称等:语言风格标注:标注文本的语言风格,例如正式、非正式、口语、文言文等;句法结构标注:标注文本的句法结构,例如主谓宾、并列关系等;语言表达方式标注:标注文本中的语言表达方式,例如比喻、隐喻、借代等;文本情境标注:标注文本的上下文或情境,以帮助模型理解文本的语境和背景信息。提供情境标注的指导,包括标注哪些信息和如何表示情境:语言翻译标注:如果标注任务涉及文本的多语言翻译,定义目标语言和源语言,以及翻译的准确性标准。提供翻译标注的指南,以确保翻译的质量和致性:文本匹配标注:对于文本匹配任务,定义匹配类型,如相似度匹配、文本对匹配等;语言标准化标注:如果需要标准化文
7、本,明确标准化规则和指导,以确保文本的致性和规范性;文本长度标注:标注文本的长度,如字符数、词数等,以帮助模型处埋不同长度的文本。提供标注长度的方法和规则;上下文连贯性标注:对于文本序列任务,如对话生成,规定如何确保上下文连贯性和流畅性。提供连贯性标注的准则;其他图片图片类数据标注规则涉及的内容宜包括但不限于:对象分类标注:标注图像中出现的对象的类别,例如车、树、人、建筑等:对象位置标注:标注图像中出现的对象的位置,例如图像的像素坐标、边界框等:对象数量标注:标注图像中出现的对象数量,例如单个、多个等:对象属性标注:标注图像中出现的对象的属性,例如颜色、大小、形状、纹理等:场景分类标注:标注图
8、像中的场景类别,例如室内、室外、城市、自然等:场景属性标注:标注图像中的场景属性,例如天气、时间、季节等:图像语义分割标注:将图像中的像素分割成不同的语义类别,例如背景、前景等:图像实例分割标注:将图像中的不同实例分割开,例如对于一张图中的多个人分别标注:图像关键点标注:标注图像中的关键点,例如人脸的眼睛、嘴巴等:图像属性识别标注:标注图像中的属性,例如光照、模糊度等:对象朝向标注:标注对象的朝向或方向信息,例如物体是正面还是侧面朝向相机。提供标注朝向的指导,以帮助模型理解对象的方向:光照条件标注:标注图像中的光照条件,例如明亮、阴暗、逆光等。提供光照条件标注的标准,以帮助模型适应不同的光照条
9、件:场景中的关系标注:标注图像中对象之间的空间关系,例如对象之间的相对位置、遮挡关系等。提供关系标注的方法和标准,以捕捉对象之间的关系:图像中的动作标注:对于包含动态元素的图像,标注图像中的动作或行为。提供动作标注的类别和规则,以帮助模型理解动态场景:图像情感标注:标注图像中传达的情感或情绪,例如快乐、悲伤、愤怒等。提供情感标注的标准和情感分类指南:图像场景描述标注:要求标注人员为图像提供文本描述,以捕捉图像中的内容和情境。提供场景描述标注的规则和评估指标;不确定性标注:处理标注任务中的不确定性情况,例如模糊的对象、不完整的标注等。提供处理不确定性情况的指导和标注修正规则;类别标注类型示例图像
10、时间戳标注:对于动态图像或视频帧,标注图像的时间戳或帧数。提供时间戳标注的格式和规则;其他“.音频音频类数据标注规则涉及的内容宜包括但不限于:语音转写标注:标注音频中的文字内容:音频分类标注:标注音频的类型,例如音乐、语音、环境声等:声音分类标注:标注音频中出现的声音的类型,例如人声、交通声、自然声等:音频时间戳标注:标注音频中每个声音的开始和结束时间:声音强度标注:标注音频中每个声音的强度,例如响度、音量等:声音频率标注:标注音频中每个声音的频率,例如高音、低音等:音色标注:标注音频中每个声音的音色,例如清晰、浑厚等;声音位置标注:标注音频中每个声音的空间位置,例如左声道、右声道等:声音语速
11、标注:标注音频中每个声音的语速,例如快速、慢速等:语音情感标注:标注音频中每个声音所表达的情感,例如高兴、悲伤、愤怒等:音频节奏标注:标注音频中的节奏或速度信息,例如节奏快慢、节奏起伏等。提供节奏标注的类别和规则,以帮助模型理解音频的节奏特征;音频质量标注:评估音频的质量,包括噪声水平、清晰度、录制设备等。提供音频质量评估的标准和等级:音频语音识别置信度标注:对于语音识别任务,标注识别结果的置信度或可信度。提供识别置信度标注的规则和范围:音频情境标注:标注音频的上下文或情境信息,以帮助模型理解音频的语境和背景。提供情境标注的方法和指导;其他.视频视频类数据标注规则涉及的内容宜包括但不限于一:视
12、频分类标注:标注视频的类型,例如电影、电视剧、广告等;场景分类标注:标注视频中的场景类别,例如室内、室外、城市、自然等:视频标记标注:标注视频中的关键帧,例如人物出现、重要情节等:对象分类标注:标注视频中出现的对象的类别,例如车、树、人、建筑等:对象位置标注:标注视频中出现的对象的位置,例如图像的像素坐标、边界框等:对象数量标注:标注视频中出现的对象数量,例如单个、多个等:对象属性标注:标注视频中出现的对象的属性,例如颜色、大小、形状、纹理等:视频语义分割标注:将视频中的像素分割成不同的语义类别,如背景、前景等:视频实例分割标注:将视频中的不同实例分割开,例如对于一段视频中的多个人分别标注:视
13、频情感标注:标注视频中的情感,例如悲伤、喜悦等:视频物体运动标注:标注视频中物体的运动轨迹或动作,包括速度、方向和运动轨迹。提供运动标注的类别和指导,以帮助模型理解物体的运动行为:视频时间戳标注:标注视频中每一帧或每个关键事件的时间戳,以便进行时间相关分析。提供时间戳标注的格式和规则;视频音频标注:对视频的音频部分进行标注,包括音频内容、语言识别、情感等。提供音频标注的标准和分类指南;视频拍摄角度标注:标注视频拍摄的角度和视角,例如俯视、仰视、侧视等。提供角度标注的类别和指导,以帮助模型理解视觉角度:视频特效标注:对于包含特效或后期处理的视频,标注特效类型和应用位置。提供特效标注的规则和特效类
14、别:视频中的情感强度标注:标注视频中每个场景或情节的情感强度,例如情感高潮、低谷等。提供情感强度标注的标准和强度等级;视频情节描述标注:要求标注人员为视频提供文本描述,捕捉视频中的情节、事件和动态。提供情节描述标注的规则和评估指标;视频场景切换标注:标注视频中场景的切换或转场情况,包括过渡类型和时机。提供切换标注的类别和判定准则;视频动画元素标注:对于动画或特效视频,标注其中的动画元素,如特殊效果、角色动作等。提供动画元素标注的指导和分类;其他三维三维类数据标注规则涉及的内容宜包括但不限于:类别标注类型示例几何形状标注:根据场景中的几何形状对物体进行标注,例如物体的形状(如球体、长方体、圆柱体
15、等)以及它们的尺寸(如半径、长度、宽度等);物体分类标注:根据物体的外观特征对它们进行分类标注,例如标注物体是人、车、树、建筑等不同的类别:位置和坐标标注:标注物体在三维空间中的位置和坐标信息,包括物体的位置(如坐标或相对位置)、姿态(如旋转角度)、偏移量等:遮挡和关系标注:标注物体之间的遮挡关系以及它们之间的空间关系,例如标注一个物体是否被另一个物体遮挡,或者两个物体之间的距离、方向关系等:运动轨迹标注:如果场景中存在物体的运动,可标注物体的运动轨迹,包括物体的起始位置、目标位置、路径等信息:光照和纹理标注:标注与光照和纹理有关的信息,例如标注物体的表面纹理、光照条件以及阴影信息等:边界椎标注:标注物体的边界框,即包围物体的最小矩形或几何形状:物体属性标注:标注物体的属性信息,如颜色、材质、透明度、反射率等。提供物体属性标注的分类和标准:环境标注:标注三维场景的环境信息,包括天空、地面、水体等。提供环境标注的类别和描述;相机参数标注:标注相机的参数和设置,包括焦距、光圈、曝光时间等。提供相机参数标注的规则和范围:场景标注:标注整个三维场景的特征和结构,包括场景中的物体分布、布局、整体形状等。提供场景标注的方法和指导: