具身智能(Embodied AI)是一种智能系统的全新设计理念,涉及到机器人技术、人工智能、感知技术、决策和控制技术等多个领域,目标是通过将感知、决策和行动融合在一起,使机器能够像人类一样具备身体和运动能力。
人形机器人是具身智能的一种形态,也可能是终极形态。人形机器人能通过先进的传感器技术,如视觉、触觉、听觉等,感知外部环境,与具身智能系统相结合,实现与环境的实时交互。
而具身智能系统可以利用感知到的信息,通过复杂的算法和模型,进行决策和规划,人形机器人的控制系统则根据这些决策,控制机器人的运动和行为。最后人形机器人通过机器学习等技术,能够不断地学习和适应环境,提高自身的智能水平和自主决策能力。
▍具身智能的提出与演化
具身智能概念并非无中生有,其演化历史可以归纳为以下几个关键阶段:
(1)首次提出阶段
在1950年的图灵论文《Computing Machinery and Intelligence》中,图灵对人工智能的探讨为后续具身智能的提出奠定了思想基础,被认为是具身智能最早提出领域。
(2)初步形成阶段
在1986年,布鲁克斯(Rodney Brooks)从控制论的角度出发,提出了智能是具身化(Embodied)和情境化(Contextlized)的。他强调,智能不仅仅基于复杂算法或内部数据模型(即“表征”),而可以直接从自主机器与其环境的简单物理交互中产生。这一观点为具身智能的提出奠定了基础。
(3)理论深化阶段
在1991年,布鲁克斯发表的研究论文《没有表征的智能》中,进一步强调了智能与环境的直接物理交互,并提出了“行为主义智能”(Behavior-based AI)的概念。这一概念强调智能系统应直接主动响应外部环境的刺激,而不是依赖于预先设定的复杂算法。
(4)发展与应用阶段
到了20世纪90年代后期至今,随着人工智能技术的不断发展,具身智能的概念得到了进一步的深化和应用。融合AI的具身智能机器人,作为具身智能的实体形态,开始在真实物理环境下执行各种各样的任务,成为人工智能领域的一个重要研究方向。
(5)现代发展与重塑
2023年,英伟达创始人黄仁勋在2023半导体大会上,黄仁勋表示具身智能(Embodied AI)是能理解、推理、并与物理世界互动的智能系统,是人工智能的下一个浪潮。这一观点进一步强调了具身智能在人工智能领域的重要性和前景。
(6)重要里程碑事件
2024年,OpenAI与人形机器人初创公司Figure合作推出了Figure 01机器人,展示了具身智能的惊人能力,人形机器人与具身智能的结合有了全新的想象空间。
▍具身智能与人形机器人结合
多模态大模型与人形机器人的深度融合是当前科技领域的一个重要研究方向,它旨在将多模态大模型的强大处理能力和人形机器人的高度仿真特性相结合,实现更为复杂、精确的任务执行和人机交互。
目前搭载大模型的企业有1X Technologies NEO机器人、Figure 01,国内有优必选、智元、乐聚、达闼、傅利叶智能等,这些企业的人形机器人不仅具备高度仿真的外观和运动能力,还能够通过多模态大模型实现更高级别的任务执行和人机交互。
人形机器人具备高度仿真性、强大的环境适应能力和拟人化工作能力。人形机器人与大模型等具身智能技术的融合,意味着人形机器人有望可以取代人类从事危险、重复和乏味的工作,成为一种多任务通用型机器人。人形机器人技术的突破将带来大规模应用,而且目前一些人形机器人已实现商业化应用场景落地。
(1)优必选科技
国内首家人形机器人上市公司优必选已确定与百度携手合作,尝试让人形机器人Walker S接入文心大模型,进行具身智能应用升级训练,拓展具身智能技术的应用场景,接入了AI大模型的Walker S在语义理解与交互、智能任务管理等方面都有了进步,人形机器人能调用文心一言进行子任务拆解和推理,配合视觉语言模型保证异常检测精度并实现泛化抓取,确保任务在干扰的情况下顺利执行。
其旗下工业版人形机器人Walker S进入蔚来第二先进制造基地总装车间进行实地“培训”,在蔚来汽车的生产线中,Walker S承担了车门锁质量检查、安全带检测、车灯盖板质量检验等关键工序,并且展示了以流畅且柔和的动作精确贴装车标的技能,融合具身智能后,Walker S的智能化水平有望实现跨越式提升,还将推动人形机器人在不同环境中执行多样化任务的能力。
Walker S进入蔚来工厂“实习”
(2)智元机器人
智元机器人采用的WorkGPT是一个百亿级参数的大模型。与传统AI技术不同,智元的WorkGPT充分应用了语言和图像大模型庞大的先验知识库和强大的通识理解能力,在具身智脑EI-Brain架构中,能够实现了复杂的语义多级推理能力,也就是所谓的“思维链”,把复杂的指令分成一个一个的步骤,把机器人的思维系统分为云端的超脑、端侧的大脑、小脑,以及脑干几层,分别对应机器人任务级、技能级、指令级以及伺服级的能力,同时具备在机器人任务执行过程中不断自我学习强化的能力。
目前,智元机器人远征A1已经能在工厂汽车底盘装配线里拧螺丝,能拿起检测工具,环绕车做外观检测,以及能在实验室做实验。同时智元机器人称已经和多家头部制造业服务企业对接,预计明年会切入商业化落地。
远征A1环车外观检测
(3)乐聚机器人
乐聚机器人在2024年3月,与华为云签署战略合作协议,旨在共同探索“华为盘古大模型+夸父人形机器人”应用场景,此前,乐聚夸父人形机器人就公布了已通过OpenHarmony兼容性测试。搭载了开源鸿蒙系统的人形机器人,可以轻松与鸿蒙生态设备互联互通,具备拓展万物智联场景的能力。
依托盘古大模型的数据处理能力,建立丰富且高质量的人形机器人数据集,并且充分发挥盘古大模型的多模态能力,实现复杂任务场景下综合感知和任务分解,提升各类泛化场景下的具身智能操作水平。
搭载开源鸿蒙系统以及华为盘古大模型后,前不久,乐聚机器人还在全网发布了一段人形机器人KUAVO(夸父)参与家庭劳动的视频。视频中展示了人形机器人走进家庭,通过强化自主学习能力,成功完成了洗衣、浇花、插花以及晾衣服等家务任务。
乐聚KUAVO机器人拾起水壶浇花
(4)达闼机器人
达闼研发了全球首个云端机器人大脑操作系统海睿OS、海睿AGI平台和RobotGPT多模态大模型;构建了云端“大脑”模型,开发了基于多传感融合感知和运动控制的“小脑”模型,搭建了端云协同的机器脑融合智能平台,可支撑百万级机器人接入和运营。
达闼XR-4是达闼首个双足人形机器人产品,该机器人又称七仙女,已经支持实时接入达闼云端大脑,并集成多模态大模型RobotGPT。XR4计划在2024年正式发布,2025年规模量产。
(5)傅利叶智能
傅利叶在3月18日展现与英伟达最新合作,傅利叶GR-1业界猜测已经接入人形机器人通用基础模型——Project GR00T,GR00T使机器人类似ChatGPT的多模态大语言模型(LLM)以及先进的语义知识、自然语言处理和逻辑推理功能,能够将文本、语音、视频甚至现场演示作为输入,内置情感系统和高分辨率曲面显示屏可实现处理这些信息后,以采取特定行动,实现自然的人机交互,完成机器人任务的自动化。
GR-1全身自由度最多达54个,还提供完善且深度的开放接口平台,从上下肢的现成运动库到本体各模块的独立控制与采集API,开发者可以高效地将其与多样化技术结合,对具身智能算法进行快速原型构建与验证。
(6)1X Technologies
国外公司1X Technologies旗下第二代双足机器人NEO采用无齿轮结构,类似肌肉的解剖结构设计,并与OpenAI深度合作,使用了OpenAI Gym来训练其机器人进行自主导航和避障,OpenAI ROS来实现其机器人与ROS(机器人操作系统)之间的通信使用了GPT-3来让其机器人能够理解自然语言和执行命令,可以执行走路、慢跑、抓取东西等复杂动作,还可以与人类进行互动交流。
(7)Figure
国外公司Figure AI旗下Figure 01双足人形机器人也称是完全由AI驱动,在融合AI后,Figure 01就能在无需事先预设程序下完成指定任务,具备一定的泛化学习能力。商业落地方面,Figure 01已与宝马斯巴坦堡的工厂合作,进行首批人形机器人试点,目前Figure 01仍处于测试阶段。
▍结语与未来
通用大模型的加入,为人形机器人的未来商业化落地带来革命性的变化,其适配的场景更加广泛和多样化。人形机器人的实际落地应用,有望解决未来社会劳动力短缺的难题,并对经济和社会发展带来颠覆性的影响。
然而,要实现人形机器人的广泛商业化落地,与具身智能的融合还需要克服一些技术和市场挑战。例如,人形机器人需要在“位控”和“力控”这两类控制模式上发展,如何加入具身智能后,进一步提高人形机器人的自主性、安全性和稳定性,以及如何降低制造成本、提高市场接受度等问题都亟待解决。具身智能虽然能够帮助人形机器人在感知、交互和决策能力方面虽有所进步,但还难以满足实际需求,目前的稳定性问题也仍需进一步优化。
我们期待在未来具身智能与人形机器人进一步融合,看到更多智能、灵活的人形机器人在各个领域发挥重要作用,为人类的生活和工作带来更多的便利和效益。
来源:人形机器人发布