高端装备制造：人形机器人感知硬件专题研究.docx

资源描述

《高端装备制造：人形机器人感知硬件专题研究.docx》由会员分享，可在线阅读，更多相关《高端装备制造：人形机器人感知硬件专题研究.docx（23页珍藏版）》请在优知文库上搜索。

1、高端装备制造：人形机器人感知硬件专题研究人形机器人加速发展，感知能力愈发重要人形机器人迅速迭代，国内外厂商加速布局特斯拉机器人迭代迅速，历时8个月便可执行复杂动作。2022年10月，在特斯拉AIDay匕特斯拉机器人OPtimUS首次亮相，当时还需要人工推出，仅能完成简单的肢体动作。而在2023年3月的投资者日中，OPtimUS便展现了步行以及组装机器人的工作能力。到2023年5月的股东大会上，OPtimUS已经可以实现对物品的抓取等复杂动作。马斯克提出，OPtimUS将面向应用场景进行快速迭代，预计在特定应用场景将快速推出量产机型。我们认为特斯拉强大的汽车供应链有望加速Optimus量产实现。

2、特斯拉强大的供应链及解决方案有望加速人形机器人量产进程。目前人形机器人商业化量产的瓶颈主要可归结为技术、成本和应用场景三个方面。但特斯拉在三大瓶颈方面均有特有优势。1）技术方面，拥有FSD自动驾驶技术以及DOJODl超级计算芯片的特斯拉在人形运动控制、硬件执行器、运动规划算法等方面正在进行广泛深入的底层研究；2）成本方面：研发团队在设计阶段已充分考虑量产阶段的降本可行性，例如高度集成的电池、6种执行器等，强大供应链保障有望降低量产成本；3）应用场景：特斯拉汽车工厂将为人形机器人提供巨大的试验田，早期版本的机器人将在工厂中进行大量训练，并不断迭代，解决了大多数厂商早期寻找应用场景这一大难题。传统

3、机器人公司技术迭代速度较慢，且并未面向应用场景设计机器人，供应链问题也导致机器人造价十分昂贵。以大家熟知的波士顿动力AtlaS为例，根据波士顿动力官网，波士顿动力的AtlaS拥有近40年的发展历史，1983年-2013年，从麻省理工LegLab走出来的Atlas基本完成了简单的肢体动作和行走能力，2016年Atlas开始具有简单的物体搬运功能，并且没有灵巧手，2019年AtlaS行走能力进一步增强，可实现后空翻等动作，并且能够识别复杂地形，2021年，AtlaS具有一定的工作能力，用简单的灵巧手搬运物体。目前，发展了40年的AtlaS仍然没有明确的应用场景，且售价十分昂贵，达到200万美元以上

4、。特斯拉或在机器人行业再次带来鱼效应。回顾新能源汽车在中国市场的发展史，特斯拉这条站鱼”对于我国新能源汽车升级与降本带来巨大推动作用。2019年1月，特斯拉上海工厂奠基，2020年1月，特斯拉上海工厂新车交付，国产版Model3售价下调，扣除补贴后，基础版车型售价从35.58万元下调至29.9万元，低廉的售价以及优良的性能对我国新能源车厂商带来了巨大冲击，迫使我国新能源车厂商降本提效，加速了新能源车行业的发展，同时也推动了我国消费者对新能源车的接受度提高。因此，我们认为特斯拉在机器人行业中也将扮演这条“贴鱼，极快的迭代速度以及可预期的低廉的售价将迫使老牌机器人厂商加速发展。新能源汽车销量（万辆

5、新能源汽车渗透率图4：特斯拉在中国建厂后，我国新能源车销量快速增长800700-600500-400-300-200-100-0-国内外巨头纷纷参股或设立人形机器人研发公司。现有人形机器人产品主要为日本本田ASIM0、美国波士顿动力Atlas、美国AgiIityRobOt、优必选Walkers、中国小米Cyberne以及特斯拉OPtimUS等。其中，日本本田、小米及特斯拉皆研发了自己的人形机器人。而波士顿动力相继辗转谷歌、软银后，目前被现代公司收购。美国AgilityRObOt的2022年B+轮融资的投资者中，出现了亚马逊及索尼。国内外巨头纷纷下场加码人形机器人，人形机器人有望迎来快速发展。国

6、内外机器人创业公司也纷纷推出人形机器人或产品。国内机器人行业创业公司如追觅科技、达网科技等先后推出自己的双足人形机器人，国内四足机器人领先企业宇树科技也在加入到人形机器人的研发中，腾讯RoboticsX实验室推出自研机器人灵巧手TRX-Hand和机械臂TRX-Arm,为其后续在机器人行业的发展作出铺垫，华为于2023年6月注册成立东莞极目机器有限公司，正式进军机器人领域，注册资本&7亿元。国外方面，OPenAI在A2轮领投挪威人形机器人公司IXTeChnologies,旨在将其强大的AI系统与实体机器人结合起来，从而为AGI的发展奠定基础。人形机器人浪潮下，类人型机器人也迎来快速发展，但人形机

7、器人仍然是各大厂商的主要目标0随着人形机器人浪潮袭来，类人型机器人如四足机器人也迎来了快速发展，成为各大厂商的必争之地，早在2021年3月腾讯便发布多模态四足机器人Max,并在2022年8月推出MaX二代，小米于2021年8月发布第一代四足机器人铁蛋，小鹏鹏行机器也于2022年7月发布首款四足机器人。此外一些在机器人领域深耕多年的创业公司也拥有自己的标杆四足机器人产品，例如宇树科技的AL云深处的绝影X20、蔚蓝科技的E系歹h优宝特的YoBoG0。国外较为出名的四足机器人有波士顿动力的Spot、HT的HyQReaI。但人形机器人相较于仿人形机器人仍有较大优势：（1）仿生步态下运动能力较传统履带/

8、四轮/双轮机器人大幅提升；（2）灵巧手可实现双手配合和工具替换，较工业机器人技能更广；（3）依靠算法能力实现复杂环境识别并实施决策。预计到2027年，全球人形机器人市场规模将达到141亿美元。根据优必选招股书，弗若斯特沙利文预计2026年全球智能服务机器人产品及解决方案的市场规模将达到676亿美元，2021年到2026年CAGR达到25%。而根据StratisticsMarketResearchConsulting数据，全球人形机器人市场规模将在2027年达到141亿美元，2020年到2027年CAGR达到58%。人形机器人是具身智能的重要裁体，AI发展赋能机器人感知人工智能的下一个浪潮将是具

9、身智能。在ITFWOrId2023半导体大会上，英伟达创始人兼首席执行官黄仁勋表示，人工智能的下一个浪潮将是具身智能，即能理解、推理、并与物理世界互动的智能系统。具身智能是具有身体体验的智能。1950年，图灵在他的论文CompiitingMachineryandInteIIigence”中首次提出了具身智能的概念。之后的几十年里，大家都觉得这是一个很重要的概念，但是由于技术限制，具身智能并未有很好的发展。从认知的角度来看，人类是第一人称视角的智能，用1963年的实验来说明，有两只猫，一直猫被绑起来，只能看这个世界，另一只猫可以主动去走。被动的猫是一种旁观的智能，而主动的猫是具身的智能。到最后，

10、这只旁观的猫失去了行走能力。当机器可以主动感知世界时，人工智能也就变成了第一人称的智能，也就无限接近于人类。具身智能由具身感知、具身想象和具身执行三个基础模块构成。上海交通大学卢策普教授在机器之心Al科技年会中提出了PIE方案，即具身感知(Perception)具身想象(Imagination)和具身执行(EXeCUtiorI)。P正方案帮助机器模拟了人类的思维及行动方式，即机器人首先需要识别物体，然后通过交互感知物体，再通过数字挛生进行仿真模拟，利用最好的结果去执行。卢教授也演示了机器人如何抓取被打碎的陶镜瓶碎片，对于不规整的碎片，机器人总是能成功抓取。作为具身智能的大脑，多模态大模型更符合

11、人类大脑接受与处理信息的方式。从人类接受信息的角度看，我们所接收到真实世界的信息来自于多模态的数据源，如语音、文本、图像等，而单模态预训练模型只涵盖了单一模态的信息，无法对人类的信息获取、环境感知、知识学习与表达的主动学习过程进行有效表达，不同模态之间的隐式交互信息并未被充分利用与学习。GPT一小步，多模态Al的一大步，GPT-4支持图片和文本类信息同时输入。GPT-4是由OPenAl发布的大型多模态模型，它不仅能与用户一起生成、编辑，完成创意的迭代和技术写作任务，更重要的是，它还能读懂图片。多模态感知是实现通用人工智能的必要条件，无论是知识/能力获取还是与现实物理世界的交互，这也是其与上一代

12、GPT的主要区别。在GPT-4中，多模态输入的图像和文本基于TranSfOrmer作为通用接口，图形感知模块与语言模块对接进行进一步计算。基于TranSfOrmer技术，GPT-I只有12层，而到了GPT-3,则增加到96层,GPT-4增加了额外的视觉语言模块，理论上具有更大的模型尺寸和输入窗口。图10：视觉与语言TranSfOrmer技术的演进2020202320142017Vision TransformerTranSfonner 类PaLM-EittAIiM语言处理MSTrantformer类架构XLNetTQnSfonner 类架构Kosmos-IRTTransfonntrGPT-2G

13、PTjGPT-4BEiT-3语言方面，以ChatGPT为代表的大模型已具备协助机器人处理语言，从而可以高效地对感知信息进行交互，如人类通过自然语言对机器人进行调试。根据微软SaiVemPrala等最新的论文：”目前的机器人需要专门的工程师不断编写新的代码来修正机器人的行为，而我们使用ChatGPT的目标是让非技术用户参与到修正过程中，通过高级语言命令与语言模型交互，无缝部署各种平台和任务。如果付诸实践，Al有望帮助编写新代码和规范来纠正机器人的行为，因此允许了不懂技术的广大用户提供反馈，轻松地与机器人互动，直到用户对机器人的处理解决方案满意为止，再将这个代码部署到机器人上，一个调试就结束了。视

14、觉方面，谷歌推出ViT统一了CV和NLP框架，用于图像识别。ViT模型将语言模型的transformer架构用于视觉模型，代替了传统的CNN,统一了CV和NLP的架构。2020年10月，谷歌推出ViSiOnTranSfOrmer(ViT)模型，证明了不使用CNN,直接将TranSfOrmer结构应用于视觉模型也可以很好地执行图像分类任务。TranSfOrmer将句子中的每个词（token）并行输入编码器，ViT直接将图像拆分为多个块，将每个块的位置和包含的图像信息当做是一个词，输入到编码器中，训练好的编码器可以将图像输出为一个包含了图像特征的编码，类似于在语言模型中将一句话输出为一个包含了语言

15、信息的编码，之后通过MLP层将编码器的输出转化为不同分类的概率。信息处理方面，算法模型与软硬件一起集成为可供机器人思考的大脑。如谷歌发布RoboCat,其基于谷歌的多模态模型Gato,可以在模拟和物理环境中处理语言、图像和动作。通过将Gato的架构与一个大型训练数据集结合起来，该数据集由各种机器人手臂的图像序列和动作组成，可以解决数百种不同的任务。RObOCat先通过机器视觉观察由人工操作的机械臂完成任务，搜集数据后通过在物理和虚拟环境中进行练习，通过练习生成新的训练数据，合并进入训练集，用于新版本的训练，从而学会此次任务。学会此次任务的RoboCat可被移植到新的机械博上，对新的机械博进行微

16、调后执行相同的任务，RoboCat在几小时内观察100O次人工演示后，可以灵巧的指挥新手臂抓取齿轮，成功率高达86%。RObOCat的出现为未来更加通用的机器人出现打下基础。人工智能要走向具身智能的交互端，必须要具备强大的感知能力。陆奇在我的大模型世界观的演讲中提到AI发展的新范式将属于行动系统。第一代系统信息对应着感知，第二代系统模型”对应着思考，第三代系统行动”对应着实现，目前GPT的快速发展让人工智能的思考以及交互能力大大提升，而TeslaBot的推出也就预示着行动”系统的量产己有眉目。但感知能力是模型和行动的基础，人形机器人终端的发展离不开感知能力的不断提升。人形机器人更加智能化，所需的感知硬件远多于传统机器人人形机器人可与人体进行类比，总

展开阅读全文