OPENAI-SORA+技术文档总结+中英对照原稿.docx

资源描述

《OPENAI-SORA+技术文档总结+中英对照原稿.docx》由会员分享，可在线阅读，更多相关《OPENAI-SORA+技术文档总结+中英对照原稿.docx（8页珍藏版）》请在优知文库上搜索。

1、OPENAlSORA技术报告原文+译文+报告总结要点总结模型路径：1 .架构为扩散模型（diffusionmodel）+transformer2 .训练时先用预训练模型把大量的大不一的视频源文件编码转化为统一的patch表示，把时空要素提取作为transformer的token进行训练。3 .模型效果好和超大量的数据集和更多的运算时间息息相关优势：1 .人物和背景的连贯性，即时人物运动出了相机范围再回来时还保持同样特征2 .自然语言的理解程度很高3 .可以在同一个种子下生成不同尺寸（横向竖向）的视频适配不同设备4 .可以生成长达Imin高清视频5 .可以以文字，图片，视频作为控制要素控制输出结

2、果不足：1 .对于物理规则了解较弱，比如吹气后蜡烛不会熄灭，左右不分，玻璃掉落不会碎2 .对于算力要求较高（猜测）可以实现：1 .文生槐顷,图生视频，图+文生视频，视频修改2 .视频转绘，视频延伸，视频补全未来畅想：1 .重新洗牌Al生成视频产业2 .扩散模型的上限比想象中的高！3 .全局一致性可以被解决4 .文字生成3D或将迎来突破5 .AR,VR,VIsionPro新型应用潜力大神观点：路思勉清华叉院看完TeChrliCalRePcXt的一些想法：1. DiffUSiOn生成框架的天花板远比我们之前想象的要更高（费可能已经学了）.makediffusiongreatagain!给DiffU

3、Sion研究者注入一剂之心剂也.从数学理论上来说.DiffUSion也是舱解几乎双合任意数据分布的（包括Ik实世界的连费住视频）.2. Scaleisallyouneed.SCaIe上去后,在视频生成上能券产生类似在LLM里的满观现象.包括视续连贯性,3Dconsistency.Long-rangecoherence.3. PhysicsPrkx什么的可能都不需要强外引入.ScaleData足以.报告原文hups:/ODenaicomresearchVideOgeneration-models-as-woidsimulalors英文原文中文翻译Videogenerationmodelsaswo

4、rldsimulatorsWeexplorelarge-scaletrainingofgenerativemodelsonvideodata.Specifically,wetraintext-conditionaldiffusionmodelsjointlyonvideosandimagesofvariabledurations,resolutionsandaspectratios.Weleverageatransformerarchitecturethatoperatesonspacetimepatchesofvideoandimagelatentcodes.Ourlargestmodelz

5、Sora,iscapableofgeneratingaminuteofhighfidelityvideo.Ourresultssuggestthatscalingvideogenerationmodelsisapromisingpathtowardsbuildinggeneralpurposesimulatorsofthephysicalworld.Thistechnicalreportfocuseson(1)ourmethodforturningvisualdataofalltypesintoaunifiedrepresentationthatenableslarge-scaletraini

6、ngofgenerativemodels,and(2)qualitativeevaluationofSorazscapabilitiesandlimitations.Modelandimplementationdetailsarenotincludedinthisreport.Muchpriorworkhasstudiedgenerativemodelingofvideodatausingavarietyofmethods,includingrecurrentnetworks,lz2f3generativeadversarialnetworks,45,6z7autoregressivetran

7、sformersz8z9anddiffusionmodels.10,11,12Theseworksoftenfocusonanarrowcategoryofvisualdatazonshortervideos,oronvideosofafixedsize.Soraisageneralistmodelofvisualdataitcangeneratevideosandimagesspanningdiversedurations,aspectratiosandresolutions,uptoafullminuteofhighdefinitionvideo.Turningvisualdatainto

8、patchesWetakeinspirationfromlargelanguagemodelswhichacquiregeneralistcapabilitiesbytrainingoninternet-scaledata.l3z14ThesuccessoftheLLMparadigmisenabledinpartbytheuseoftokensthatelegantlyunifydiversemodalitiesoftext-code,mathandvariousnaturallanguages.Inthiswork,weconsiderhowgenerativemodelsofvisual

9、datacaninheritsuchbenefits.WhereasLLMshavetexttokens,Sorahasvisualpatches.Patcheshavepreviouslybeen视频生成模型作为世界模拟器我们探索了在视频数据上进行大规模生成模型的训练。具体而言，我们联合在可变持续时间、分辨率和宽高比的视频和图像上训练了文本条件扩散模型。我们利用了一个在视频和图像潜在编码的时空块上操作的transformer架构。我们最大的模型，Sora,能够生成一分钟高保真度的视频。我们的结果表明，扩展视频生成模型是建立通用物理世界模拟器的一条有前景的道路。本技术报告关注以下两个方面：（1

10、）我们将各种类型的视觉数据转换为统一表示的方法，以实现大规模生成模型的训练，以及（2）对Sora的能力和局限性进行定性评估。模型和实现细节未包含在本报告中。之前的研究已经探讨了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变压器和扩散模型。这些工作通常侧重于某一类视觉数据、较短的视频或固定大小的视频。Sora是一种视觉数据的通用模型一一它可以生成跨越各种持续时间、宽高比和分辨率的视频和图像,高清视频最长可达一分钟。将视觉数据转换成patch我们受到大型语言模型的启发，这些模型通过在互联网规模的数据上进行训练而获得了通用能力。LLM范式的成功部分得益于优雅地统一了文本的多

11、种模态一一代码、数学和各种自然语言的标记。在这项工作中，我们考虑了生成视觉数里模型如何继承这些好处。而LLMs具有文本标记，Sora具有视觉patch0patch已被证明是视帝数据模型的有效走示。showntobeaneffectiverepresentationformodelsofvisualdata.15,16,17,18Wefindthatpatchesareahighly-scalableandeffectiverepresentationfortraininggenerativemodelsondiversetypesofvideosandimages.我们发现，patch是一种高

12、度可扩展且有效的表示方法，适用于训练不同类型的视频和图像的生成模型。Atahighlevel,weturnvideosintopatchesbyfirstcompressingvideosintoalower-dimensionallatentspacez19andsubsequentlydecomposingtherepresentationintospacetimepatches.VideocompressionnetworkWetrainanetworkthatreducesthedimensionalityofvisualdata.20Thisnetworktakesrawvideoa

13、sinputandoutputsalatentrepresentationthatiscompressedbothtemporallyandspatially.Soraistrainedonandsubsequentlygeneratesvideoswithinthiscompressedlatentspace.WealsotrainacorrespondingdecodermodelthatmapsgeneratedIatentsbacktopixelspace.SpacetimeLatentPatchesGivenacompressedinputvideo,weextractasequen

14、ceofspacetimepatcheswhichactastransformertokens.Thisschemeworksforimagestoosinceimagesarejustvideoswithasingleframe.Ourpatch-basedrepresentationenablesSoratotrainonvideosandimagesofvariableresolutions,durationsandaspectratios.Atinferencetime,wecancontrolthesizeofgeneratedvideosbyarrangingrandomly-in

15、itializedpatchesinanappropriately-sizedgrid.ScalingtransformersforvideogenerationSoraisadiffusionmodel21,22,23,24,25;giveninputnoisypatches(andconditioninginformationliketextprompts),itstrainedtopredicttheoriginaldeanpatches.Importantly,Soraisadiffusiontransformer.26Transformershavedemonstratedremar

16、kablescalingpropertiesacrossavarietyofdomains,includinglanguagemodeling,13,14computerViSiOn,15,16,17,18andimagegeneration.27z28,29在高层次上，我们通过首先将视频压缩成低维度潜在空间，然后将表示分解为时空补丁来将视频转换成补丁。视频压缩网络我们训练了一个网络来降低视觉数据的维度。这个网络以原始视频作为输入，并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并随后生成视频。我们还训练了一个对应的解码器模型，将生成的潜在空间映射回像素空间。时空潜在补丁给定一个压缩的输入视频，我们提取一系列的时空补T这些补丁充当transformer的tocken。我们

展开阅读全文