《2024年斯坦福AgentAI论文.docx》由会员分享,可在线阅读,更多相关《2024年斯坦福AgentAI论文.docx(82页珍藏版)》请在优知文库上搜索。
1、人工智能代理:调查多模式交互的前景TheEmergingAgentAlParadigmforMulti-modalandCross-RealityAGIPhysical WorldVirtual WorldAgent ParadigmEmbodimentProductCamerasAmbient IntelligenceService Robots Virtual RealityMid Reality Virtual AvatarAugmered Reality GUI AppMuhi*moda sensors Social networksGencralistAgentsAssistantA
2、utonomous VehicleGamingAutonomousVehiclesManufacturingEmbodied SystemAl CopilotsAl for HealthInfra- StrUetUre Microphones IOTMuItbGPUVideolAudio SimulatorsPlanning capabilitiesPrirtiveaction ystemActuatorsSecurityCloud ServersWebsearcKnowledgeReasoning systemhoboticsdontrollerHumanInteractionMechani
3、cal armGenerative AlMemoryrainComipiltcr Interface) Objects / EnvironmentOser/Agent Input2D lmaSpeechPhysicsEnvironmentControllerPhysical ExperimentsPhilosophy of mindTextBig dataI ObservationsInferenceTrainingAgent ActionPerception Task-SpecificInfoSmartsensorsData CompressionMLTheoryInformaticsTas
4、k-Planning and Skill-ObservationPerceptionReasoningIntuitionConsciousness Intelligence!Cognitkmc ScienceTactileensorsControl TheoryMechanicsOptimizationSystem EfficiencyActionCognition(Thinking, Consciousness,Sensing, Empathy, andoverall Cognitive System)/ Agent、 I Interactive J I Closed-loop/ XiJ.L
5、earning(PretrainZero-shot, few-shotfrom LLM and VLM, etc.)Memory(Knowledge, Logic, Reasoning, and Inference)图1:可以在不同领域租期幅序中够由采取行动的智铜W系统概述一大壬智能伸蚯在成为通用天王智能(AGI序f有前途的途径。i智能代理Uii练警展示了对物理世界的多模式理解的能力。它叫怀IJm生成式人工智能以及多个独立数据源为导赎无随培训提供了一个框架当针对跨现翔据进行练时针对代理手呦作相关任务说刊练的大型基础模型可以应用于物理和虚拟世界。物摘绍了智能体人工智能系统的总体概述该螭可以在许多
6、不同的领域和应用程序中感知和行动可能作为使用智能僦隧现AGl的途径抽象的多模式人工智能系统可能会在我们的日常生活中无处不在。一个有前途的使这些系统更具交互性的方法是将它C麻现为物理中的代理和虚拟环境.目前系统利颠有的幽的甦作为基5出用于创建具体代理的构建块。在此类环境中嵌入代理促进模型处理和解释视觉和上下文数据的能力,这一点至关重要用于创建更复杂和上下文感知的人工智能系统。矽如一个系统可以感知用户动作、厩行为、环境物体、敲隔番喋体场景的情绪可用于通知和指导代理在给定环境中的响应。为了力睡基于代理的多模态智能的研究我的uAgentAIw定义为T交互系统可以感知视觉激、语言输入和其他基于环境的数据
7、并可以产生有意义的具体行动。悔屉我门探索系统旨在通过结合外部来改进基于下一个具体动作预测的智能体知识多感官输入和人类反馈。我们认为通过开发代理人工智能接地环境中的系统,还可以减轻大型基础的幻觉模型及其产生环境不正确输出的倾向。代理新兴领域人工智能包含了多模式交互的更广泛的体现和代理方面。超越代理商在物理世界中行动和互动,我彳门设想未来人门可以轻松地创腌任何虚拟现实或模拟场景并与虚拟环境中体现的代理进行交互。AgentAI分类通才代理领域5.2。20实体代理。GOO。OooOOOOQaOaoo201.1.1 T1t9oo*oevooo*20理21.1.2 弋*veooooo*evovoo理。一2
8、5.3 模拟和环境代.0.0。01理。ooooo25.4 生成代理。.。.1。0。25.4.1 AR/VR/2混合现实代理.0,0.(I(I(I0.,0.l2、知识和逻辑推理主2体。OO.OOO.O.0.0.0.0。23“逻辑代理。情感推理代2理234神经象征齐Il。23独蚪M和VLMN46苦能代理应用任务6.1游戏代理245.4.2 NPC行为245.4.3 人与NPC交互255.4.4 基于代理的.25博弈分析。25.4.5 游戏场景合.7成.i三三三2281.LM/VLM机器人代30理3实验和结果31.医疗保健35.当前的医疗保健能力36.多模式代理。.图像语言理。36解和生成。oooo
9、ooooooooo.视频和语言36理解和生成.实验和结果376.5视频语言实验。39OOOOOOO41.NLP代理N一般LLM代理.法学硕士.遵循指令的LLM代理代理。实验与结果4545.045。46467跨模态领域和现实的智彘体7.1跨模态理解的智能体48“跨域理解代理48,跨模态和跨现实的交互代理49.模拟到真实的传输OOooo*oooooooooo*oo*oooooo8AgentAI的持续自我完善&1人机交互数据49。498.2基桃模型生成的数据509代理数据集和排行榜9.1用于多代理游戏的uCuisineWorIdw数据集。50509.1.1基准9.1.2任务9.1.3指标和判断。51
10、519.1.4评价519.2音频-视频-语言预训练数据51集,10更广泛的影响声明52道德考虑S3领印本12多元彳W明53参考55附录69GPT-4V代理提示详切佶息69BGPT-4V尖端技术69CGPT-4V用于微软战斗模以筹69DGPT-4V适用于刺客信条奥德赛69域用于(战争机器4EGPT-4V69FGPT-4V任用于星空751简介1.1 动机从历史上看人工智能系统在1956年达特茅斯会议上被定义为人工生命形式,可以从环境中收集信息并以有用的方式与之交互。个定义的!发,明斯基的麻省理工学院J组于1970年构建了一个名为“复制演示的机器人系统该系缴嚓块世界场景并成功重建了观翎的多面隔相构。
11、该系融膘、规划W限懈成表明每个子间瞬湘具挑战性蠲注一步研究。人工智能领域分为专门的子领域这些子领或在解决这些问题和其他问题方面基本上独立地取得了巨大进展M强度还原论哪了人工智能研究的总体目标,为了超越现状有必要回归亚里士多德整体论驱动的人工智能基础。幸运的是,最近大型语言模型(LLM前视觉语言模型(VLM的革命使得创建符合整体理想的新型人工智能代理成为可能。抓住这个机会本文探讨了整合语言能力、视觉认知、情境记忆直犍野嗨应性的魁。它探讨了使用LLM和VLM完成这种整体综合的可能性。在我们掰稼中我(i比重斯审视了基于亚里士多德最终胭的系统设计即目的论系统为何存在n几轮人工智能发展中可捱被忽视随着强
12、大的预训练法学硕士和VLM的出现自然语言处理和计算机视觉领域的更兴解!1了促进法学硕士现在展现出令人印象深刻破译现实世界语言数据细微差别横力通常能物挺I归人类专业知iR相当甚至随雌力(OpenAI-2023)最近研究人员表明法学硕士可以扩展到在各种环境中充当代理与特定领域的知识和模块配合使用时执行复都臊作和任务(Xi等人2023)这些场景的特点是杂的推理对智能体角色及小腐漉解以及多步骤规划测试智能体在其环微雅(1内做出高度细致和复杂的决策的能力(Wuetal.,2023;MetaFundamentalA三究(FAIR外交团队等,2022)在这些初步努力的基础上人工智能社区正处于重大范式转变的风
13、A浪从为被动、结构fbff务仓腱人工智能模型过海蛇够在多样化和复杂的环境中承担动态、代理角色的!磔在It情景下,本文财了使用LLM和VLM作为代理的巨大潜力强国7融合了语言能力、视觉认口、情境记忆、直碘野腌应曲外睡mLLM和VLM作为代理,尤其是在游戏、机器人和园7保健等领域不仅可以为最先进的人工智能系僦供严格的评估6台,而且还预示着以代理为中心的人工智能将产生的变革性影响社会和行亚。当充邠岬时田野镂可以重新定义人类体验并提靛营标准。这些模型带来的全面自动(冰J潜力预示着行业和社会经济动态的巨大转变。这些进步将与多方面的排行榜型R在一起不仅是技术方面的而且是道德方面的IB瞰们将在第11节中详细阐述的那样。我们深入研究智能体这些子领域的重叠领域并在图1中说明它们的相互关联性。1.2 12我们现在将介绍支持智能体的概念、理论前景和现代实现的相关研究论文大型基础模型:LLM和VLM一直在推动通用智能机器的开发(BUbeCk等人2023;MirChandani等人2023)尽管他们是使用大型文本语料库进行训练的但他们酬问题