2024计算机行业：Sora技术深度解析.docx

资源描述

《2024计算机行业：Sora技术深度解析.docx》由会员分享，可在线阅读，更多相关《2024计算机行业：Sora技术深度解析.docx（30页珍藏版）》请在优知文库上搜索。

1、华福证券HUAFU SECURITIES CO,TD证券研究报告I行业专题报告计算机行业行业评级强于大市（维持评级）2024年2月25日Sora技术深度解析证券分析师：施晓俊执业证书编号：S0210522050003研究助理：请务必阅读报告末页的重要声明李杨玲王思0华福证券ML A KtX L Klt CX . MU投资要点Sora横空出世引领多模态产业革命。美国时间2月15日，文生酶大模型Sora横空出世,能够根据文本指令或静态图像生成1分钟的视频。其中，视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧。总体而言，不管是在视频的保真度、长度、

2、稳定性、一致性、分辨率、文字理解等方面，Sora都做到了业内领先水平，引领多模态产业革命。此外，当Sora训练的数据量足够大时，它也展现出了一种类似于涌现的能力，从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。拆解视频生成过程，技术博采众长或奠定了Sora文生视频领军地位。从技术报告中，Sora衩濒生成过程大致由视频编码+加噪降噪+视频解码三个步骤组成，视濒压缩网络、时空PatChes、transfOrmer架构、视频数据集等技术与资源在其中发挥了重要作用。视频压缩网络：过往VAE应用于视频领域通常需插入时间层，Sora从头训练了能直接压缩视频的自编码器,可同时实现时间和空间的压缩，

3、既节省算力资源，又最大程度上保留视频原始信息，或为Sora生成长视频的关键因素，并为后续处理奠定基础。时空patches:1）同时考虑视频中时间和空间关系，能够捕捉到视频中细微的动作和变化,在保证视频内容连贯性和长度的同时，创造出丰富多样的视觉效果；2）突破视频分辨率、长宽比等限制的同时显著提升模型性能，节约训练与推理算力成本。Transformer架构：1）相比于U-Net架构，transformer突显ScalingLaw下的暴力美学，即参数规模越大、训练时长越长、训练数据集越大，生成视频的效果更好；2）此外，在transfOrmer大规模训练下，逐步显现出规模效应,迸发了模型的涌现能力。

4、视频数据集：Sora或采用了更丰富的恻顷数据集,在原生视濒的基础上，将DALL-E3的re-captioning技术应用于视频领域，同时利用GPT保障文字-视频数据集质量，使得模型具有强大的语言理解能力。投资建议：我们认为，在视频压缩网络与时空PatCheS提高计算效率与利用原生视频信息的基础上，transformer或取代U-Net成为扩散模型主流架构。可拓展性更强的anSformer需要更为有力的算力支持才能保障视频生成质量，同时相比于大语言模型，视觉数据的训练与推理算力需求更大，因而算力有望成为确定性最高的受益赛道。此外，Sora发布有望形成多模态产业站鱼效应“，激励其他多模态厂商的良性

5、发展。建议关注：1）Al算力：云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、中科曙光、浪潮信息、拓维信息、四川长虹、工业富联、神州数码等；2）AI+多模态：万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技。风险提示：技术发展不及预期、产品落地不及预期、AI伦理风险等。华福证券HL AhL MX l lU g Co. Ll U 1.Sora引领多模态革命，技术与资源突显优势 2.博采众长，Sora技术开拓创新 3.投资建议 4.风险提示1.1 Sora横空出世，引领多模态产业革命美国时间2月15日，文生视频大模型Sora横空出世，

6、能够根据文本指令或静态图像图表：Sora和其他模型优势对比总览生成1分钟的视频。其中，视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧。总体而言，不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等OpenAlSora能力项其他模型60秒4则时长最多十几秒1920x1080与1080x1920I-Ia匕A固定尺寸方面，Sora都做到了业内领先水平，引领多模态产业革命。此外，当Sora训练的之间任意尺寸如16:9,9:16,1:1等数据量足够大时，它也展现出了一种类似于涌现的能力，从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力

7、。1080P视频清晰度UPSCQle之后达到4K支持文本生成视频支持图表Sora与业内主流视频生成模型对比支持图片生成视频）支持公司名称生成功能最长时长时长可延展相机控制（平移/变焦）动作控制支持支精文生视频-Runway图生视频4S支持文本编辑视频支持D；,文生视频2/向前/向后扩展扩展视频仅支持向后扩展,IKa图生物濒八VVJGenmo文生视频6S支持视频连接，不支持IJenmO图生视频bjV文生物濒支持真实世界模拟I支持Kaiber图生视频16SXX视频生视频强运动相机模拟I弱Stability图生视频4SX文生视频强Q依赖关系进行建模弱Sora图生初濒60S强影响世界状态（世界交互）弱

8、资料来源:datalearner,新浪新闻图数室,华福证券研究所4资料来源:datalearner,新浪新闻图数室,华福证券研究所0华福证券ML AU SU-L华福证券ML A KtX LKinfcS (X . Llll 1.Sora引领多模态革命，技术与资源突显优势 2.博采众长，SOra技术开拓创新 3.投资建议 4.风险提示2.1视频压缩网络实现降维，或为长视频生成基础华福证券HLUMJCUKlnUC.LIDOPenAl训练了降低视觉数据维度的网络，该网络接受原始视频作为输入，并输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并随后生成视频。与之对应，Sor

9、a训练了相应的解码器模型,将生成的潜在表示映射回像素空间。压缩网络本质上是将高维数据映射至低维空间，低维空间中每个点通常对应原始高维数据的潜在表示，在复杂性降低和细节保留之间达到最优平衡点，实现提升视觉保真度的同时降低算力资源消耗的作用。VAE为图片生成领域的常见图片编码器，应用到视频领域则需要加入时间维度以形成视频框架。例如，2023年发布的VideoLDM通过将视频拆解为每一帧，之后插入时间对齐层，从而实现了视频生成。Sora从头训练了能直接压缩视频的自编码器，既能实现空间压缩图像，又能在时间上压缩视频。我们认为，在时空维度上压缩视频，既节省了算力资源，又最大程度上保留视频原始信息，或为S

10、ora生成60s长视频的关犍因素，并为后续时空patches和transfomer架构处理奠定基础。图表：VideoLDM在图片编码器基础上加入时间维度图表：VAE技术原理图，由编码器和解码器组成资料来源：Medium, Towards Data Science,华福证券研究所资料来源:Blattmanneta/AlignyourLatents:High-ResolutionVideoSynthesis7withLatentDiffusionModels),华福研究所2.2时空patches统一视频分割，奠定处理和理解复杂视觉内容的基石 Sora借鉴LLM中将文本信息转化为token的思路，针

11、对视频训练视觉patch,实现视觉数据模型的统一表达，实现对多样化视频和图像内容的有效处理和生成,之后通过视频压缩网络分解为时空patches,允许模型在时间和空间范围内进行信息交换和操作。从Sora技术报告来看，时空patches或借鉴谷歌ViViT操作。/ViViT借鉴ViT在图片分割上的思路，把输入的视频划分成若干个tuplet,每个tuplet会变成一个token,经过spatialtemperalattention进行空间和时间建模获得有效的视频表征token. 传统方法可能将视频简单分解为一系列连续的帧，因而忽略了视频中的空间信息，也就是在每一帧中物体的位置和运动。我们认为，由于

12、连续帧存在时空连续性，Sora的时空patches可同时考虑视频中时间和空间关系，能够更加精准生成视频，捕捉到视频中细微的动作和变化，在保证视频内容连贯性和长度的同时，创造出丰富多样的视觉效果，灵活满足用户的各种需求。资料来源:Google Research (ViViT:A Video Vision Transformer),华福证券研究所8HL AuJ MX L KI11kC . LI D2.2Sora时空patches突破视频长宽比、分辨率等限制OpenAI表示，过去的图像和初濒生成方法通常会将初濒调整大小、裁剪或修剪为标准尺寸，而这损耗了被顷生成的质量。例如，ViT通常需要将图像调整为

13、固定的分辨率与尺寸进行处理，并仅能分解为固定数量的PatCheS,因而限制了灵活处理不同尺寸、分辨率视频的建模.Sora或借鉴谷歌NaViT中“Patchn,Pack”的方法，在训练效率、模型适应性和推理灵活性等方面具有显著优势。1)允许从不同图像中提取多个patch打包在一个序列中，从而实现可变分辨率并保持宽高比。2)NaViT相比ViT具有较高计算性能。例如，使用四倍少的计算量,NaViT到达顶级ViT的性能.此外，NaViT可以在训练和微调过程中处理多种分辨率的图像，从而在各种分辨率下都能表现出优秀的性能，在推理成本方面给NaViT带来了显著的优势。我们认为，经过patch化之后，Sora无需对数据进行裁剪，就能够对不同分辨率、持续时间和长宽比的视频和图像的原始数据进行训练，既极大程度上利用原始信息保障生成高质量图片或视频，又显著提升模型性能，节约训练与推理算力成本。图表：ViT需调整图像为标准尺寸并分解为固定数量patches资料来源:GoogleResearchl Brain Team (AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE),华福证券研究所图

展开阅读全文