一台人形机器人在旧金山的人行道、混凝土、沥青、广场和沙土路上自如“散步”,这不是科幻电影的场景,而是已经成为真实事件。这一惊人的成就吸引了Sora团队的关注,其中包括OpenAI和英伟达等领先科技公司。
Ilija Radosavovic(伊利亚·拉多萨沃维奇)是该人形机器人项目的负责人之一,他是加州大学伯克利分校博士生,曾在Meta的AI实验室FAIR做研究工程师。该项目的核心理念体现在论文《Humanoid Locomotion as Next Token Prediction》中,该论文探索了将人形机器人的运动控制与OpenAI训练ChatGPT时使用的“预测下一个token”的思路结合的可能性。

这一方法被称为“自回归生成式”路线,最大的特色在于可以通过“Scaling Law”——扩大模型的参数、数据、算力来提升模型的效果,也被称为“暴力美学”。然而,关于“暴力美学”的前景,目前在业内存在一定的争议。
过去十年,深度学习的浪潮下,大型神经网络已在互联网多样化的数据集上取得了许多训练成果。研究团队想知道,是否可以以类似的方式来学习强化大的感官和运动表示模型?
传统机器人的运动控制高度依赖于人工输入准确的预测接触点和执行器方向等信息。然而,这种方法的局限性在于机器人只能在人类规定的路径中较好地运动和控制肢体动作。跳出模拟世界后,机器人在真实世界中则显得手足无措,这个问题通常被归类为“泛化性”较差、不够通用等问题。

为解决这一难题,研究团队将现实世界中的仿人机器人控制视为一个“下一个token预测”问题,类似于语言中预测下一个单词。他们构建了一个通过自回归预测训练的causal transformer(因果转换器)模型。该模型以多模态对齐的方式进行预测,对于每个输token,模型能够预测相同模态的下一个token,这使得模型更加通用,能够利用缺失模态的数据,比如没有动作的视频轨迹。
在论文中展示的视频中,一台仿人形的双足机器人已经实现了“零样本学习”,成功行走在旧金山的各种地面上。即使只在27小时的行走数据上训练,该模型也能够泛化到训练期间未见过的命令,如向后行走,为解决现实世界中的控制任务提供了新的思路和可能性。
这项研究成果也引起了硅谷科技巨头的注意。英伟达于2024年2月24日宣布成立通用智能体研究实验室(GEAR),旨在构建具身智能体基础模型,涉及多模态基础模型、通用机器人、虚拟世界中的基础智能体和模拟仿真数据的研究。
GEAR由英伟达高级科学家Jim Fan博士和Yuke Zhu教授领导,致力于在虚拟和现实世界中构建具身智能体基础模型。Jim Fan在采访中表示,可能在未来,“每一台移动的机器都将是自主的,机器人和模拟智能体将像iPhone一样无处不在。我们正在构建基础智能体:一个具有通用能力的AI,可以在许多虚拟和现实的世界中学习如何熟练地行动。”
在人形机器人领域,不仅有研究团队探索新的控制方法,还有一些公司积极布局和投资。AI机器人公司Figure AI近日宣布完成B轮融资,筹集了6.75亿美元,估值为26亿美元。投资方包括微软、OpenAI Startup Fund、NVIDIA、Jeff Bezos(通过Bezos Expeditions)、Parkway Venture Capital、Intel Capital、Align Ventures和ARK Invest。
Figure AI创始人兼首席执行官布雷特·阿德科克表示:“我们公司的征程将需要几十年的时间,我们面临着很高的风险和极低的成功机会。然而,如果我们成功了,我们有可能对人类产生积极影响,并建立地球上最大的公司。”