大模型应用专题报告:多模态大模型催生产业应用革新.docx

上传人:王** 文档编号:807700 上传时间:2024-01-16 格式:DOCX 页数:14 大小:128.49KB
下载 相关 举报
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第1页
第1页 / 共14页
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第2页
第2页 / 共14页
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第3页
第3页 / 共14页
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第4页
第4页 / 共14页
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第5页
第5页 / 共14页
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第6页
第6页 / 共14页
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第7页
第7页 / 共14页
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第8页
第8页 / 共14页
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第9页
第9页 / 共14页
大模型应用专题报告:多模态大模型催生产业应用革新.docx_第10页
第10页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大模型应用专题报告:多模态大模型催生产业应用革新.docx》由会员分享,可在线阅读,更多相关《大模型应用专题报告:多模态大模型催生产业应用革新.docx(14页珍藏版)》请在优知文库上搜索。

1、大模型应用专题报告:多模态大模型催生产业应用革新GPT-4V迈向多模态,打通图像与文本的语义空间多模态技术的一小步将带来产业应用落地的一大步ChatGPT带来大模型能力的变革式提升,GPT-4V推动大模型加速跨入多模态。ChatGPT使用了InstructGPT(GPT-3.5)架构,在GPT-3基础上基于人工反馈训练奖励模型,再使用奖励模型训练学习模型,使得其具备准确理解人类意图和自然语言语义挖掘能力。ChatGPT相较于GPT-3,在文本生成等方面展现出了非常强大的能力,与人类对话的智能感大幅提升,可以完成许多相对复杂的语言任务,包括文本生成、自动问答、多轮对话等。此外,它还能编写和调试计

2、算机程序。在海量数据和超大规模参数量的支撑下,大模型的涌现与思维链等能力开始出现。GPT-4则在各项能力上有了质的突破,根据OPenAl官网,GPT-4的最大token数达到32768个,在创作能力方面可以能够编写歌曲、剧本并学习用户写作风格,同时在GREsSAT等考试中也获得了更加优异的测试成绩。而2023年9月25日发布的GPT-4V则是从语言模型迈向能力更加全面且强大的多模态模型。GPT-4V的最大变化为能够接受图像及语音的输入,并且在图像及语音的识别与理解方面表现出色。IJ与大语言模型对比:多模态大模型增加了输入信息模态,大幅扩展大模型的应用范围。模态指表达或感知事物的方式,每一种信息

3、的来源或形式都可以称为一种模态。视觉模态是直接从现实世界获取的初级模态,数据源丰富且成本低廉,相比语言模态更直观易于理解。此外,当前英文文本在互联网和自然科学论文索引中的数量具有优势,这也导致多数大模型数据训练集以英文语料为主。多模态模型旨在模拟人类大脑处理信息的方式,通过预训练+调参,大幅提升信息输入规模和信息流密度,有效打破语言模态的限制。多模态模型能力的提升还体现在提高信息交互效率,降低应用门槛。大语言模型需要通过输入文本prompt来激发模型的文本回应,然而,编写精准的prompt往往需要一定的技巧和思考。纯文本的交互方式有时会受到文本表达能力的限制,使得复杂的概念或需求难以传达。相较

4、之下,多模态模型的图像交互方式门槛更低,更为直观。用户可以直接提供图像或视觉信息,从而提升信息交互的效率。与传统机器视觉模型对比:多模态大模型泛化能力更强,对知识、逻辑理解更具深度。传统机器视觉模型只能处理图像数据,无法处理文本信息,也不具备逻辑推理能力。由于这些模型仅对图像数据进行表征编码,通过提取视觉特征如颜色、纹理和形状等来识别图像,没有涉及语言模态。这是由于多数视觉模型是针对特定任务设计的,因此在处理不同任务或数据集时,其可迁移性受到限制。而多模态大模型通过联合训练各种感知模态如图像、文本和声音等,能够学习到更通用和抽象的特征表示。这种预训练使得多模态模型在各种应用中都具备强大的基础性

5、能,因此具有更高的泛化能力,进而赋予了更强的可迁移性和更广泛的应用范围。多模态的扩展不一定是技术主线的重大突破,但对产业应用落地的影响可能十分巨大。从技术视角看,回顾AI的发展历程可以大致分为四个阶段,分别为基于规则的系统、经典机器学习技术、深度学习、使用RF或其他技术的下一阶段深度学习。整体来看在发展进程中,越来越多的训练环节被替换为可学习模块,可学习模块越多的模型能适应的任务越抽象,这也赋予模型逐步从单一模态向多模态发展的能力。OPenAl科学家HyungWonChung认为损失函数逐步变成系统中的可学习部分将会是未来的下一个范式,对抗生成网络(GAN)和人类反馈强化学习(RLHF)都是这

6、一范式下的成功案例,这让AI系统可以学习去做那些正确行为难以形式化的任务。在未来发展趋势中,范式转变可能在可学习的损失函数,带来下一阶梯式技术跨步。从产业视角看,大模型输入模态从文本向语音和图像等模态的扩充,将进一步提升产业应用的适应性,更多语音、视觉信息占比较高的场景将接入多模态大模型,并带来产业应用效率的提升,例如日常生活中视觉模态的信息占比约为70%o图1:Al技术的进步伴随着可学习模块逐渐增多RuIe-IMisedsystemsIBM DeepBIueLearna ble part ofthe systemClassical machine learninggTH嚷:丁Mapping

7、from features- OuIPUt aHand- designedloss functionDwp learning; (self)supervsed learningInpm j aLearned featuresMapping fromfeatures Output HHand designedloss functionGT3ET温:黑”卜0UaDeeplearningotherRLformulationsinputLearned featuresMapping fromfeaturesOutpul B?视觉模态:GPT-4V打通图像模态与文本模态的语义空间,凸显图片逻辑与语义理解

8、GPT-4V具备丰富的模态输入模式,并在多个应用领域中展现出了超群的能力。根据官方文档介绍,GPT-4V的输入方式共有5种分别为输入图像images)、子图像(sub-images)、文本(texts)、场景文本(scenetexts)和视觉指针(visualpointers)。GPT-4V同时支持三种能力,分别为指令遵循(instructionfollowing)、思维链(chain-of-thoughts)和上下文少样本学习(in-contextfew-shotlearning)。GPT-4V应用领域中包含开放世界视觉理解(open-worldvisualunderstanding)、视觉

9、描述(visualdescription)、多模态知识(multimodalknowledge)、常识(commonsense)、场景文本理解(scenetextunderstanding)、文档推理(documentreasoning)、写代码(coding)、时间推理(temporalreasoning)、抽象推理(abstractreasoning)及情感理解(emotionunderstanding)领域。视觉参考提示和场景文本识别能力让模型能够聚焦图片中的要点和文字,在海量应用场景中具备应用价值。GPT-4V提出了一种新的多模态提示词技巧”视觉参考提示(visualreferring

10、prompting),可以通过直接编辑图像来指示感兴趣的任务,并结合其他提示词技巧使用。GPT-4V可以识别出图片中文字及图形标注,并根据标注的提示完成相应任务。GPT-4V当前暂不支持图片的编辑及生成,对于图片编辑可以给出一定的操作建议。虽然GPT-4V具有较强的图像理解能力,但是暂时并不具备图像的修改、编辑及生成能力,仅能根据原始图片及指令给出图片修改步骤的建议。语音模态:语音交互革新,提供实时类人对话体验GPT-4V移动端支持实时语音对话交互,模拟人类语气逼真。在GPT4中,用户已经可以进行语音输入,但是此时的语音交互系统的本质还是文本的输入,GPT4会将用户的语音转化为文字作为Prom

11、Pt输入模型。在GPT-4V中,用户可以直接以对话形式与GPT-4V进行交互,交互效果接近语音通话。语音交互功能支持多种语言的输入及输出,但目前仅在移动端开放。多模态继续革新应用落地,信息模态占比成分析要点基础能力:图像语义挖掘与逻辑认知能力突出,细节识别能力有待提升GPT-4V具备图片基础信息提取能力,但与OCR的技术逻辑完全不同。图像要素信息的提取是图像分析的基础,GPT-4V模型可以相对准确地提取图片中的信息。此处,我们上传贵州茅台酒的图片作为prompt,要求GPT-4V将其中信息进行提取并以表格形式展示。可以看到,GPT-4V从图片中较为全面及准确的提取出了产品名称、容量、酒精度、生

12、产厂家、商标及附加特点等多维度信息,并依照指示以表格形式呈现。GPT-4V支持多图分析,并且可以对多张图片中的文本信息进行关联分析。在prompt举例中,我们共上传了三张包含文字指令的图片,其中图片一表示真实任务是完成图片三的指令,图片二和图片三分别是两个具体指令,GPT-4V在回答中将图片中信息进行了关联,并正确回答了图片中包含的文字问题。由于图像模态与文本模态的语义空间打通,GPT-4V具备一定的信息分析能力。GPT-4V在识别图片时同样具备背景知识,我们以一张车辆中控台图片作为prompt,要求模型判断车型并描述图中的细节。从返回的回答结果可以看出,模型可以根据图片特征与背景知识对车型进

13、行猜测,同时识别出了显示器中TheWitCher的游戏界面。GPT-4V对示意图中逻辑理解能力超预期。GPT-4V对图片的主体与细节捕捉准确。识别出了传入的图片整体是两个机器人技术的发展阶段并且细节描述了两阶段机器人运作的逻辑细节。同时,通过左右对比,精准分析LLM对机器人运作带来的变化,对图片中蕴含的逻辑进行了梳理。金融场景:逻辑与技术分析超预期,但复杂图表细节的抽取能力欠佳以财务模型的可视化数据为例,模型可以相对准确理解个股的营收拆分逻辑。研究员构建的财务模型包含了个股分析的逻辑与信息,我们将财务模型中的经营模型可视化图片作为prompt,并让模型对逻辑图进行分析。在prompt文字描述中

14、我们共设计的三个问题分别为:A、简述该公司营收的拆分逻辑;B、每个节点下方的红色数字标签代表该节点的营业收入金额,判断影响该公司营收最重要的系列是哪个,最重要的产品是哪个,并给出分析理由。从GPT-4V的分析结果来看,在A问题的回答中,GPT-4V对公司的营收拆解整体逻辑理解和描述准确;在B问题的回答中,GPT-4V理解融入了每个节点旁的营收数据,且找到了图中的核心指标,但是在判断A2产品时没有分辨出销量和销售额,导致判断最重要的产品时出现了偏差。图14:财务模型可视化逻辑图分析PromPt融合背景知识的K线图技术分析超预期,精准识别曲线含义与技术结构。我们将个股K线图作为prompt输入模型

15、进行技术分析,GPT-4V可以准确判断图中每条线的含义,并根据背景知识对图中的曲线进行简单的技术分析。行均以每修鳏GPT-4V可以对研究报告中的图表内容进行分析,但细节聚焦能力欠佳。在示例中,我们从研究报告中截取了锂电池各环节制造费用占比的图表,并设计了相应的prompt让模型分析图中信息表达的投资观点。从回答结果来看,GPT-4V模型通过输入的文本和图片信息精准地理解了该图片的整体定位,并可以准确地按点对横轴的要点进行分析。但是在数据与文本提取时会出现误差,我们将回答中抽取错误的细节进行了标注,部分错误文本在图片中完全没有出现,由此也可以看到模型对图片的分析与OCR识别完全不同。背景知识会一

16、定程度影响复杂表格信息的精确识别和分析。财务报表的数据表截图同样可以融入PrOmPt传入GPT-4V0在这里我们选取了近10年A公司财务摘要,并设计了三个相应文字prompt分别为:A、梳理总结图中具体包含了哪些类型的财务指标;B、我希望根据财务数据判断公司短期或长期的风险,请根据图中包含的财务指标设计衍生指标,用于判断和跟踪公司财务风险;C、根据你在B任务中设计的衍生指标,利用图中最新的数据计算指标值,并对A公司的财务风险进行判断并给出分析原因。从回答结果来看,GPT-4V准确识别出多种财务指标,并在回答后两个问题时展现出清晰的逻辑。但在对衍生指标计算时,GPT-4V对原始数据的捕捉出现了识别错误,进而影响了结果的准确性。其他场景:传媒、教育、医疗等包含视觉信息的行业,均为潜在落地场景

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 论文 > 自然科学论文

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!