《机械设备行业周专题:大模型如何赋能人形机器人正式版.docx》由会员分享,可在线阅读,更多相关《机械设备行业周专题:大模型如何赋能人形机器人正式版.docx(12页珍藏版)》请在优知文库上搜索。
1、行业报告一行业周报6L国联证券机械设备行业周专题(12.2512.31)大模型如何赋能人形机器人?人形机器人是实现通用人工智能录有效的途径目前的大模型已经满足智能涌现和自主代理,即能够根据指令按照一系列的思维链完成复杂的内容输出,但功能可见性和现实具象性是目前大模型所欠缺的。我们认为智能机器人将会是实现功能可见性和现实具象性最有9的路径,即人形机器人是实现通用人工智能最有效的载体。“人形机器人在运辑上全面对标人类人形机器人参考人类身体,可在逻辑上全面对标人类,可分为“眼鼻喉、皮肤”、“大脑”、“小脑”、“身体”,分别完成感知输入、感知处理/交互/决策/规划、运动控制、机械执行等功能。我们认为机
2、械结构和外部传感器是完成人形机器人基本操作的基础,决定了人形机器人智能化的下限,而“大脑”、“小脑”决定了智能化上限。”大模型能全面赋能人形机器人“大脑”和“小脏”我们认为在“大脑”方面,在Al大模型的加持下,人形机器人能够根据环境或人的指令,对自己的行为做出决策;同时,通过视觉SLAM、BEV鸟瞰图和TranSfOrmer模型,能够完成高精度建图和导航。我们认为在“小脑”方面,大模型可以有效帮助机器人理解任务内容,然后将任务拆解,熊后编程执行,完成任务,这将使得任务级编程成为可能。科技巨头将率先推动大模型在人形机器人41域的应用我们认为大语言模型到达了“iPhone时刻”,能力延伸至具身智能
3、领域。以ChatGPT为例,大模型大幅提升人机交互水平,同时可替代工程师编写或优化机器人控制代码。以googleRT-2为例,随着大模型从自然语言领域延伸至图形图像领域,我们认为多模态大模型有望开辟机器人“大脑”、“小脑”快速进化的新方法。以googleGemini为例,随着原生多模态模型的不斯发展,端到端神经网络有望实现从视频输入到高精度控制输出。投资建议我们认为在大模型领域比较有竞争力的公司主要集中在国内外大厂,而产业链投资机会主要集中在感知输入、运动控制、算力等领域,主要包括视觉传感器、力矩传感器、触觉传感器、位置传感器、运动控制器、算力公司等。重点推荐伟创电气,视觉传感器环节建议关注奥
4、比中光、凌云光、奥普特、海康威视;力矩传感器环节建议关注柯力传感、东华测试、八方股份;触觉传感器环节建议关注奥迪威、汉威科技、苏试试验、弘信电子;位置传感器领域建议关注奥普光也、汇川技术、禾川科技、伟创电气、雷赛智能;运动控制器领域建议关注固高科技、雷赛智能、维宏股份;算力公司建议关注寒武纪。风险提示:智能化不及预期,成本下降不及预期,行业竞争加剧风险。证券研究报告2024年01月01日投资建议:强于大市(维持)上次珑议:强于大市相对大盘走势作者分析师:张旭执业证书编号:S0590521050001邮箱:ZXUgI联系人:田伊依邮箱:tianyygI相关报告1、机械设备:科技巨头布局XR产业有
5、望带动中国供应链发展2023.12.232,机械设备:Ii合金手机中框有望增厚刀具市场空间2023.12.16联UE为1.MMMNMRmHB正文目录ut t bC bt ut ut ll bft,N ,刁 VN TZ =Z 1 刁 V;- TZ N ,刁-z =FV 1刁 GZT G QH HMH QM GXr HMH QM 一 MH QM WVI m Wry1 .人彩机器人是Al进入现实世界的载体31.1 人形机器人是实现通用人工智能最有效的途径31.2 人形机器人在逻辑上全面对标人类3大模型能全面赋能人形机器人“大脑”和“小2 .脑”42.1 Al大模型的发展使人形机器人具备了“交互&决策
6、”能力42.2 基于大模型的纯视觉自动驾驶感知方案可迁移至人形机器人52.3 Al大模型将提升机器人决策、规划和导航能力62.4 Al大模型有望赋能人形机器人运动控制63 .科技巨头将率先推动大模型在人形机器人领域的应用73.1 ChatGPT横空出世标志着大模型“奇点”来临73.2 大语音模型能力延伸至具身智能领域73.3 多模态大模型开辟机器人大小脑进化的新方法83.4 原生机器人多模态大模型有望实现视频输入和控制输出94 .建议关注产业链及标的105 .风险提示10图表目录1:人形机器人是实现通用人工智能最有效的途径32:人形机器人运辑上全面对标人类43: Al大模型的发展使人形机器人具
7、备了“交互&决策”能力54:特斯拉的他视觉感知方案可直接迁移至人形机器人55:特斯拉自动标注系统提升训练效率66:特斯拉使用Al解决规划问题67:大模型能力可对应智能机器人需求78:人脑与具身智能框架的关系79:大语言模型(LLIo能力延伸至具身智能领域810:机器人动作表达为文本字符串可完成视觉-语言-动作数据协同微调.811:文本标记被去标记为机器人动作从而实现闭环控制912: Genlini在TEXT领域的性能略超GPT-41013: Gemini在MULTM0DAL领域的性能远超GPT-4V1014: 建议关注产业链及标的101 .人形机器人是Al进入现实世界的载体1.1 人形机器人是
8、实现通用人工智能最有效的途径通用人工智能需要满足4个必备条件,分别为智能涌现、自主代理、功能可见以及现实具象的能力.智能涌现是大模型具备强大推理能力的一个基础条件,只有具备了智能涌现这样一个基础表现的现象后,继续增加模型节点数和训练数据量去训练大模型才能够成为一条可行的路径。自主代理印当接收到环境信息或外部的指令后,能够根据环境采取不同的决策,这种自主代理的能力能够使机器更好的去适应环境和完成复杂的任务。功能可见即理解世界和环境中实物的一种能力,目前大模型只是具备了理解抽象世界的能力。现实具象性相对目前的人工智能而言的,目前大模型是在相对抽象的代码世界里完成的,并没有和现实的传感器、执行器等紧
9、密的结合。目前的大模型已经满足智能涌现和自主代理,即能够根据指令按照一系列的思维链完成复杂的内容输出,但功能可见性和现实具象性是目前大模型所欠缺的。我们认为智能机器人将会是实现功能可见性和现实具象性最有效的路径。图表1:人形机器人是实现通用人工智能最有效的途径dm(rr)UR!VLttTttH资料来源:国联证券研究所1.2 人形机器人在迂辑上全面对标人类人形机器人参考人类身体,可在逻辑上全面对标人类。分为“眼鼻喉、皮肤”、“大脑”、“小脑”、“身体”,分别完成感知输入、感知处理/交互/决策/规划、运动控制、机械执行等功能。感知输入主要由外部传感器完成,包括视觉、嗅觉、听觉、触觉传感器等;感知处
10、理/交互/决策/规划主要由CPU/GPU/NPU/DSP.OS、Al算法、SLAM算法等完成;运控控制主要由CPU/MCU、RTOS.运动控制算法完成;机械结构主要由线性执行器、旋转执行器、灵巧手、躯干、内部传感器完成。我们认为机械结构和外部传感器决定了人形机器人智能化的下限,而“大脑”、“小脑”决定了智能化上限。而随着Al大模型的发展,我们认为有望全面升级人形机器人“大脑”和“小脑”.图表2:人形机器人迂辑上全面对标人类资料来源:国联证券研究所整理2 .大模型能全面赋能人形机器人“大脑”和“小脑”2.1 Al大模型的发展使人形机器人具备了“交互&决策”能力Al大模型的发展使人形机器人具备了“
11、交互&决策”能力。2022年底,ChatGPT.Midjourney、StableDiffusion等相继亮相,Al大模型展示出很大潜力,推动了人工智能在各行各业的应用,也掀起了以人形机器人为代表的“具身智能”的发展热潮。NLP大模型如ChatGPTGemini等,具备上下文理解、多轮对话以及文学创造等能力,加速了人和机器人之间的自然语言交互进程;CV计算机视觉大模型的发展增强了分类、目标检测、语义分割、深度估计四大视觉核心任务的完成精确度,大大提升了机器人的环境感知能力;不同于单模态大模型的单一类型数据处理,多模态大模型可以处理文本、图像、视频或音频等多种类型的数据,使得机器人具备各感官融合
12、决策的能力,提升了机器人的推理决策功能。我们认为在Al大模型的加持下,人影机器人有望具备非常强大的交互和决策能力,能够根据环境或人的指令,对自己的行为做出决策。图表3: Al大模型的发展使人形机器人具备了 “交互&决策”能力资料来源:论文 %PaLM-E: An Embodied Multimodal Language Model ,国联证券研究所2.2 基于大模型的纯视觉自动驾驶感知方案可迁移至人形机器人基于大模型的饨视觉自动驾驶感知方案可直接迁移至人形机器人。视觉是最为经济高效的方案,视觉图片的信息密度和信息量是最大的驾驶感知途径(灯光、颜色、图案、物质的类型、材质)(位置、距离、速度)。
13、通过视觉SLAM算法动态构建向量空间(VeCtorSpace),精准到每个像素点的三维空间,生成BEV鸟瞰图,让车或者机器人在立体的空间中运动。同时在算法中引入了TranSfOrnler模型,使算法精度不断提高。我们认为大模型的发展有望使人形机器人的感知越来越智能。资料来源:特斯拉Al Day,国我证券研究所图表4:椅斯拉的饨视觉感知方案可直接迁移至人形机器人2.3 Al大模型将提升机器人决策、规划和导航能力Al大模型将提升机器人决策、规划和导航能力,以特斯拉为例,大模型持续优化大幅提升FSD的安全性以及规划效率。在特斯拉投资者日披露了FSDbeta的碰撞数据,使用FSDbeta每320万英里
14、行驶中只有1次碰撞,而美国司机平均50英里就有一次碰撞,FSD系统的安全性是美国平均驾驶安全性的5-6倍。而特斯拉自动标注系统能够快速标注海量数据来对FSD算法模型进行训练,在规划算法中引入大模型,提升了规划路径的效率。我们认为大模型有望提升智能汽车和人形机器人的决策、规划和导航能力。图表6:科斯拉使用Al解决规划问题图表5:轿斯拉自动标注系统提升训练效率资料来源:仔斯拉Al Day,国会证券研究所IOmsSOmS2.4 Al大模型有望赋能人形机器人运动控制Al大模型使任务级编程成为可能,有望赋能人形机器人运动控制。当前机器人的通用性普遍较弱,基本上只是针对一个特定的任务或需求设计、制造机器人
15、,如零件组装机器人、扫地机器人等。主要的技术瓶颈有两个:一是机器人的硬件形态限制了机器人的用途;但更重要的原因在于软件层面暂时无法做到任务级编程。所谓任务级编程,指的是根据人下达的指令,实时编写出完成指令对应的程序并执行,使一个机器人能够完成各种任务。我们认为大模型具备较强的自然语言处理等能力,可以有效帮助机器人首先理解任务内容,然后将任务拆解,最后编程执行,完成任务,这将使得任务级编程成为可能。图表7:大模型能力可对应智能机器人需求资料来源:国联证券研究所图表8:人脑与具身智能框架的关系资料来源:智元机器人发布会,国联证券研究所3 .科技巨头将率先推动大模型在人形机器人领域的应用3.1 ChatGPT横空出世标志着大模型“奇点”来临2022年11月由微软投资的OpenAI率先推出了ChatGPT产品,ChatGPT是OpenAI开发的智能聊天平台,推出仅仅2个月,注册用户已经