《2024大模型训练数据白皮书.docx》由会员分享,可在线阅读,更多相关《2024大模型训练数据白皮书.docx(24页珍藏版)》请在优知文库上搜索。
1、目录CONTENTS训坂敕三对大理型友联的要性03科学理解高质量数家的含义与作用06023J-.-.-032.1训l大语言模型的财0322训防多候卷松堂的数玄HS空的标准07321高质量数理型的三富不调定性073.22同芟数格的评住标准并不完全一致08合成划作为解决训嫉勤:18供的不足的新方案“094.1 训母螭供给不足帝来的思学094.2 台图雌的定义1043台磁据的必要性104.4 合成蚊纪的生成方法及分类H45合蝴不在模型训练中的作用124-5.1预训练语料的新嚷卿12452提升对齐语料次取效率的DRia器134.6 解决训每到靛供给不足的新方案H054.7 在发痕中告理的合成数先165
2、.1 大MJ型对训降睢的使用特点175.2 大程型训结激笈合期的治理之智1806政府与杜金力除同的训博做据生表196.1 (196.2 中国的现状21肋】甲巴巴,警闭在大横母10ll(.与应网的染索23以更开放和辑卖的方式解决高质训炼数据供给2401训练数据对大模型发展的重要性业界认为,一法.Il力与睢,是支獐大模邕发厘的三大基石.史丰1的数据是以GpI为例的生成式人工解大班至成功的期动力.GPT模势架由从第1代到第4代均较为相似,而用来训期.敷酬故不观横相质娟很大的不S).GPT-IIg由48G耒过冷原结:以练,GPT-2是由姓人笑过淀后的40GBffiiIIIS.GPT-3是由从45T原始
3、政据中过该的S70G0R讥缘,而ChatGPT/GPTY则是在馁星砒上JlXO入了高0人版注.以又题达(AndrewNg)为代表的学者观点认为,人工愉器以SftS为由的,而不是以横型为40.”有标注的高质数据力矮放人工智能的价值,如果业界将更多精力放在班蹶上.人工智的发展会更快,.三数据在Al模型中发挥的重要作用-以CMrGQr为例YnMurtvu3arcQ*rcturMMjrT13quab11r1!.BxittutttBMaCPTMSIMnnBiCZ)02模型训练所需的数据类型政掘作为大慢型训练的基剑.就供7大发型所必需的知识和信S区别于以往授糕统、个性化推荐等所需的大用户行为和IB好数笈,
4、Je技术的演进,大理出所需隹激枇层对知识性内容百条需求,忍f斯的类部,2.1 训练大语言模型的数据大模型所需要的蚊38根麻嗯的阶段有所不均.以ChatGPT为代表的大滂音便型(1.1.M)为轨其训练过程分为项lift(Pre-training).监:锹调(SFT),厦于人类反!S的强化学习(R1.HF)三个阶段,后两部分又则为=大模型训练需要IW些数据?.MKA三WF)WWAr?VV*行双的行业型,10,11HWHlMArfta犬,ft&食xr.Wlm*OM-Wg11gglM.MrrrJt9uCf.MTMVA、Ifl、对齐(Anment)舱段.第THS预训缪所需的iSHfi!各种奏型的世界知识
5、,包话网页、书JR.Siffl.论文JB刊.对话文本.代码等形式,通过大量学习世界知五.构itt三的基批能力,理*客观世界的楣*,该阶段的语料特征可以Cl括为r.第二阶段SFT,通过标注人员设计问答,我与正确答案.格伤懒投峨给建型,并需里蝇在没有见过的任务中,-fi三,提升泛化族力.X三尬段R1.HF,训IS目标是让侬的恰值现与人类灼齐.需要人类对慢生的回答进行打分.雉序,让模嬖知通,怎么说更好.第二和第三吩段的数SE茯跳要求姣品,需要条自人类的惠展量反1,法*例征可以假恬为-JF.妁果将模型褥耙后部宕史用于特定的场H形成行业大建型(如工业.金咫、医疗等),则需亥满足该场景专业需求的特定飒知识
6、做Kl训陈和对齐,需要同各一定专业深度,妁行业Sm年.专业文档.专业网诂等.这部分的iSWft.专”.2.2 训练多模态模型的数据大国自模里迅速发牌的间时,Transform”开始迁移副班像.嬲而语3等HM8离故除城.并与大语言横型跆,形成绯JiS大模型.多模态慢里模以人类大珞处攫信息的方式.据各樽悉如慢态恬合起来.以更全面.合的方式理解和生成值息,最经实现更丰京的任务和应用.从以Midjcumey和Sora为例的多祖杰大理出看,在口购输段需要大图像-文本对、ffl-文本对黜标注睢Ii1.ia彳式1也图像-文本对是包含T长图惴11-yg述设网像内砌文本的S陶,让横si学习组成国像的像素之傅.文
7、字与国像的关球.则i文本对包括TaJ机知和一段描述根侬中发生事件的文本,让模型不仅学习单个画面,还砥理X期中的时间序列f呦&变化.2.3 训练数据的常见疑问和误解2.3.1 大慢到Il陲并不依核用户个人信息人工智能经历了从有监管学习到无监辞学习的防阶段,神坡网堵等茂术游动了数糜动的应用短式,传统的决策类人工智径在需求仰通过学习和分析海量的用户行为激露,刘断用户的偈好和需丧在供给则通过学习内容的特征,借助燧机排序等机制实现需求和内容的四K.并根富用户的行为反切遂行优化,a三ll法的浅稀1.以个性化搜索为例,以大的用户使用记录、用户面算内容画像等原始散照为星碑,提媪客群和内自标签等不同维电的假g.
8、迸而抽象出特征点量,用向量的空间通商计算用户和内称的相似度,对过瓯与律名进行个性化的用率结果召回.IS于上述特点.此芟决策式人工招隹技术在需求你需要更多用户Srte,在供给制依藏史为全面的内容特S1.与以前的决策类人工法能用比,以大模邕为化S的生成式人工智的技术特征有明显差异.大使型是恻&人类的阳堆活劭方式生成人类可以理眸和!用的内容,而WlS数施也ISH于世月知识,对语料库等知识性内容有廨依求.21此大模型训法第段不依较个人信息等便他B.此外,为保证生成内容与人类VHB应对齐,业界往往*啊强化学习.通过纳入人工标注等机制优化哀达.使模型生成内容更接近于人类认知.因此大模型对于用户BaR并不依
9、15.而对号业化.品质量语料的HhR住内容依颈大.由此看出,BB雪投术的演进,对训练数SB的需求类SltB有所不同.然而,有很多人对此仍?7在误解.根据第三方与业机内测评显示,超过60%的受访古觑了“盗取.港ar个人1和数据的安全风尚-作为大模型的最主要风阳点.与一般看法相反.近11的个人S!据会负面影璃大模型的能力,而过于个性化的攻用也移余加大描犁的区为负相.对此,OPenAj负质人SamAJtman表示,ChatGPT不需要用户的个人8.用户可以选择d跆其与ChatGPT的交。历史;美似的.我国目前主流大使型在提供用户由机保妒的基地上.弁不汉度收集和使用用户个人惬J,并允讦用户控膜QBl除
10、其与大馒型交互的官用喉供的内各.当然,在大横51的准理阶段,如果用户等息语导.尽管百相应的织织安全巩制,仍不统企理免个人值.QiWiI的可.但可以明次的It.大根型在3陈就区并不礴个人信息.2.3.2 中文iSIUO轶不星:M约我国大横也金般的1要因素谈到中文大模型,一个普JB关注的何Ittai,中文语W(I英文语科在互成网中的占比存在拉番主异:在全球网站中,英文占593%,而中文仅占1.3%,那中文语科供给短纵是否是制妁我国大模范蜗的关例要素呢?在实践中发现.就模并不是决定性影喧因索.一是世界知识的积累存的属于吉况事实.用英文或中文表达,具原理是一依的.或者说.在机器腌译后量存保版的前提下,
11、可以弥补这部分中文语网的狭少.二是在训绒技本上引入新方法也可以别卜语科供给不足的词眩.例Jfl通过合理安排不同语言类生的酒鼓嗔力,也能让畏型学习到供雄的对较少语言的丰富符征.然而有f类型的中文曲斗是报为In要自存在短&的中式你ft视类谢4.因为模型为了更好地理Mf观世界和It侬律.需签学习大量来自知识知价值现三的颐,它们史克受至队类王刃!Jg志的影响.而大阚Mel率分布模型.其使用的效据采港分布将使得模空Ji里与之相以的人类意志.所以,识缥中加入更多代去中式价伯观的语料.存助于大模型更好地理解和反映中文使用者的文化药Jll和价4取向,从而在全球化的稗景下保持文化的多年性而且此英语料场H的网81
12、也没有办法通过机三Hfl泛冽卜.因为即使翻评05量有第三,仍会引入新5自的KX.体现的仍恩新SM的Hfi观.总体来,文盲文.古汉语.电子书籍等反映优秀传茂文化的内容,以及主流*体发布的能反帙本土价值观的内容,却可视为高质量归府中式伙值视的语料.但目称,与有*Mfl关的各环节:从积察机制.故字化(比如我国古籍散于化率不到30%),到开SS共享与开发利用,及训瞪过程中机糜籁法与我日系统的加设,邙仍需大量持绫投入用力.可见,中文语科量的珀缺尚可有解决方案,但中式价fi双英的语料切,哙成力也灼找H大桢型发展的原庆.03科学理解高质量数据的含义与作用在生成式人工智网代,模邕训法的成功与否与所依殁的睢反1
13、.B相关.慢型的松力很大程度上可以反映出其训缚数据的质,这也襁凸显了高质量睢在大叁野I修和应用中不可瞥代的M要性.3.1 高质量数据的重要性由于离质效据可以更野地横发客观世界,将其作为女将效空可以5强慢生能力.从J支术屋面石,通常用损失函鼓来量化模型预Sl检出与实标目标之问的不匹配程度.能更好模以客视世界的高质量数据,可以使模朔簿的柢军分布尽可能逼近实际蚊冬的真实分布,通过优化算法3蝌SSi故,让度理在训IS集上的报失的数詹小.从楂型傩力表现*.T品陵三d三可以提升柢型的准幽!粕Ia定住.首先,这些数条通常包含更准麻加丰富的信息.B助于慢邕更好络理解败据的内在结构.掌攫世界规律,提升产出的隔奉
14、性.其次,ISjKll洗是提磁衣质It的IB要环H,包括去雷.日除个信隐私内容.纠正UhR.填补H失他等.经过;若检JBrJS可以提升3踹阶段的希定性,二三ttffitt三SHtt,可以阳胃吸物特定助三集的依戴.提升Hl棒性MI泛化能力.-三三SatSilW观有不同来源的数据!D以泄合.种试配t匕,提升慢生执行下游任务的泛化能力.另一方面可以利用数空推强等手段有Sl提升多样性,叩药过对现有敷描进行变没或犷充,如胡.缩放.亮度调岸等,生成更多的训练择本,创钏城数蚓七表性和多样性.然,即使砌瓯各JIS中的解啊是期量,0趣真实性:旃.容妣.”多样忙0M求,仍不嫡完全遨免模型(S果产生幻觉,即,一本正(Sy)说&r.因为大蝇本质是权率模型,是基于前文预测世界中对柚事件期卯足的网81.另一方面,!SU模里长上