《20231204-招商证券-计算机行业AIGC系列报告(五):大模型多模态应用深化AIAgent为应用普及提速正式版.docx》由会员分享,可在线阅读,更多相关《20231204-招商证券-计算机行业AIGC系列报告(五):大模型多模态应用深化AIAgent为应用普及提速正式版.docx(17页珍藏版)》请在优知文库上搜索。
1、大模型多模态应用深化,AlAgent为应用普及提速推荐(维持)AIGC系列报告(五)TMT及中小盘/计算机追踪当前AlGC行业发展,大模型多模态发展进一步深化,尤其文生视频能力快速提升,将大幅降低创作门槛,打开C端创作商业空间,及游戏、影视制作等B端视频应用空间。应用端,在大模型能力提升及大模型开发工具门槛降低共同作用下,AIAgent构建能力有望快速下沉,推动Al应用进一步爆发,也将推动大模型厂商需求提升。口大模型文生视频能力快速发展,AlGC赋能智能创作。继文生图能力快速嵌入各个大模型之后,文生视频为大模型多模态应用的下一重要方向。近期多家厂商发布相关产品或更新,大幅提升文生视频效果,实现
2、更高清晰度、更高流畅度、视频任意修改等功能。海外厂商中,文生视频头部厂商Runway的发布Gen-2更新,支持4K高清视频,并新增“涂哪动哪”功能,实现由静态图到动态图的转变;此外PikaLabS发布Pikal.0,实现高质量的Al视频生成与编辑。国内万兴科技天幕大模型也实现文生视频能力,万兴FiImOra、万兴瞄影、万兴播爆等工具实现大模型多模态应用商业化。文生视频能力升级将大幅降低创作门槛,打开C端创作商业空间,同时进一步打开游戏、影视制作等B端视频应用空间。更强的大模型基座能力+低门槛开发工具=AlAgent提升应用普及效率。大模型赋能让进一步智能化的AlAgent成为可能,未来或将使软
3、件应用的范式从面向过程转为面向目标,提升AlGC应用的能力边界和使用效率。目前OPenAl的GPTs+AssistantsAPI已为用户提供自定义AlAgent的初级形态,GPTBuilder自然语言开发大幅降低开发门槛,使人人都有可能拥有自己的人工智能助理,从供给端打开GPT相关Al应用空间。国内讯飞已构建星火助手生态,上架超5000个Al助手,昆仑万维发布天工SkyAgents,将Agent构建能力推向C端,国内应用爆发可期。大模型厂商纷纷跟进AlAgent浪潮,在大模型能力提升及大模型开发工具门槛降低共同作用下,AlAgent构建能力有望快速下沉,Al应用将迎来进一步爆发,也将推动大模型
4、厂商需求提升。口风险提示:Al应用研发进度不及预期;Al服务器供应链风险;Al芯片研发不及预期风险;技术创新不及预期。行业规模占比股票家数(只)2755.4总市值(十亿元)2821.73.6流通市值(十亿元)2352.03.4行业指数%1m6m12m绝对表现5.1-11.916.3相对表现7.6-3.326.911%jtI-JWI沪深30050-20-Dec/22Mar/23Jul/23Nov/23资料来源:公司数据、招商证券相关报告1、计算机行业2024年度投资策略一数据驱动增量价值,静候百花齐放2023-12-042、UMGC应用生态加速成熟,自动驾驶聚焦路侧建设一计算机行业周观察2023
5、12032023-12-03刘玉萍S1090518120002liuyuping林语潇研究助理Iinyuxiaol公司简称公司代码市值22EPS23EPS23PEPB投资评级金山办公688111.SH143.12.422.86108.415.1强烈推荐科大讯飞002230.SZ109.50.240.23204.66.7强烈推荐彩讯股份300634.SZ10.00.500.9723.03.9强烈推荐重点公司主要财务指标资料来源:公司数据、招商证券(备注:市值单位为十亿元)正文目录一、模型端:多模态发展深化,文生视频能力升级41、大模型多模态能力升级,文生视频快速发展42、万兴科技:己实现AIGC
6、赋能智能创作5二、应用端:Al应用开发门槛降低,AlAgent提升应用普及效率81、AlAgent或将帮助Al应用进一步智能化82、海外:OPenAlGPTS展现AlAgent初级形态113、国内:讯飞构建星火插件生态,昆仑发布天工SkyAgent12(1)讯飞构建星火助手生态12(2)昆仑发布天工SkyAgents14三、风险提示15图表目录图1:RUnWayGen-2“涂哪动哪”功能5图2:MetaEmUVideO按指令精准修正图片能力5图3:PiXelDanCeMagiCMOde生成效果图5图4:Pika输入指令ElonMuskinaspacesuit,3danimation”视频截图5
7、图5:万兴天幕大模型Al创作人生四季5图6:FiImOraAl文生视频6图7:FilmoraAlCopilotEditing智能编辑视频6图8:Filmora基于人工智能的文本编辑6图9:FilmoraAlThumbnailCreator智能创建缩略图6图10:Al稳定影片,稳像算法全面升级7图11:智能人声分离,基于文本剪辑,事半功倍7图12:Al智能补帧,多种补帧选项7图13:Al智能遮罩,智能笔刷切换多种背景7图14:上百套专业级模板,覆盖不同场景视频需求7图15:超逼真数字人,满足各类口播视频7图16:输入关键词,Al快速生成脚本8图17:基于LLM驱动的Agent基本框架8图18:人
8、类与Al协同的三种模式9图19:AlAgent使软件行业从面向过程框架转向面向目标框架10图20:OpenAI发布的官方GPTs11图21:用户自行构建的热门GPTS12图22:星火插件为大模型赋能助力13图23:星火大模型已接入8款插件13图24:星火APP已上架大量助手13图25:SkyAgents六大优势14图26:高度自定义编排,工具更灵活高效14图27:SkyAgents对话式交互14图28:SkyAgents示例15表1:近期文生视频产品动态频繁4表2:AlAgent四大模块8表3:AlAgent历史与现阶段对比9表4:AlAgent或将实现多场景下智能程度大幅提升10一、模型端:
9、多模态发展深化,文生视频能力升级1、大模型多模态能力升级,文生视频快速发展大模型多模态能力升级,文生视频快速发展。继文生图能力快速嵌入各个大模型之后,文生视频为大模型多模态应用的下一重要方向。近期多家厂商发布相关产品或更新,大幅提升文生视频效果,实现更高清晰度、更高流畅度、视频任意修改等功能。如RUnWay的Gen-2发布更新,现可支持4K高清视频,并新增“涂哪动哪”功能,实现由静态图到动态图的转变;Meta发布EmUVide0,既支持图像编辑,也支持根据文本图片生成高分辨率视频;字节跳动发布PixeIDance,生成有高度一致性且有丰富动态性的视频,细节处理覆盖人物动作、脸部表情、相机视角控
10、制、特效动作等;PikaLabS发布PikaI.0,使用Al实现画布与视频长度拓展。文生视频能力升级将大幅降低创作门槛,打开C端创作商业空间,同时进一步打开游戏、影视制作等B端视频应用空间。表L近期文生视频产品动态频繁日期公司产品更新简介11月3日RunwayGen-2升级至可支持4K清晰度的作品;训练有效性:通过视频生成“分解”或分割方法,训练视频生成模型。关键设计决策:包括调整视频扩散的噪声时间表和多阶段训练,直接生成更高分辨率的视频。11月16日MetaEmuVideo模型性能:与以前的深度级联模型相比,EmUVide。的先进方法使用仅两个扩散模型即可生成分辨率为512x512的四秒长视
11、频,每秒16帧。用户评估:在人类评估中,EmUVide。得到高度青睐,96%的受访者更喜欢该模型基于质量,85%的受访者更喜欢该模型基于对文本提示的忠实度。基础模式(BaSiCMode),提供一张指导图片+文本描述,PiXelDanCe可以生成有高度致性且有丰富动态性的视频,其中指导图片可以是真实图片,也可以利用现有的文生图模型生成。成品适应多种风格,细节处理覆忐人物动作、脸部表情、相机视11月18日字节跳动PixeIDance角控制、特效动作等。高级魔法模式(MagiCMOeIe),用户提供两张指导图片+文本描述,可生成进阶难度的各种特效镜头。11月21日RunwayGen-2上线“涂哪动哪
12、”运动笔刷新功能,用户可使用笔刷简单涂抹,使静态图变为动态图。11月21日StabilityAlStableVideoDifusion(SVD)支持文本到视频、图形到视频生成、物体从单视角到多视角的转化、3D合成。文本/图像生成视频:输入文本或上传图像,Al即可创建简短高质量视频。视频样式转换:将现有视频以不同风格转换,包括角色、对象,保持视频结构。11月28日PikaLabsPika1.0画布扩展:扩展视频画布或宽高比,从TikTok9:16到宽屏16:9格式,Al预测超出原视频边界的内容。内容编辑:使用Al编辑视频,如更换衣服、添加角色、改变环境或添加道具。视频长度扩展:使用Al扩展现有视
13、频剪辑的长度。资料来源:RUnWay官网、Meta官网、PixeIDanceGithub.StabiIityAI官网、PikaLabS官网、招商证券图1:RunwayGen-2“涂哪动哪”功能资料来源:RUnWayGen2官方宣传视频、招商证券图2:MetaEmuVideo按指令精准修正图片能力资料来源:MetaEmUVideO官网、招商证券图3:PixelDanceMagicMode生成效果图资料来源:PiXelDanCeGithUb网站、招商证券图4:Pika输入指令ElonMuskinaspacesuit,3danimation”视频截图资料来源:Pikal.0宣传视频、招商证券2、万兴
14、科技:已实现AIGC赋能智能创作天幕大模型支撑万兴AlGC创作能力。万兴“天幕”是国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型,由视频、音频、图片、文本大模型组成,支持视觉、音频、语言多模态Al生成及优化,具备一键成片、Al美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。万兴于12月1日展示天幕大模型文生视频能力,生成视频“人生四季”,视频已具备较高的清晰度和流畅度。图5:万兴天幕大模型Al创作人生四季资料来源:万兴科技官方公众号、招商证券WondershareFilmora:已实现Al文生视频。万兴海外产品WondershareFiImora已实现Al文生视频,同时具备Al辅助创作、基于文本编辑视频等功能。FilmoraAl文生视频:基于用户输入的prompt生成视频;FilmoraAlCopilotEditing:Al辅助创作及编辑,使用Al分析用户视频并根据用户需求提供智能建议;基于人工智能的文本编辑:将用户的视频转换为文本,并使用Al基于文本的编辑功能像编辑文档一样编辑视频;FilmoraAlThumbnailCreator: