丰田研究所(TRI)与波士顿动力合作,软件定义人形机器人?

2024-10-241327人形机器人

近日,丰田研究所(TRI)与波士顿动力宣布达成重要合作,旨在加速人工智能与机器人技术的发展。丰田汽车与波士顿动力之间的合作将侧重于基础研究,着眼于最终的商业应用,但两家公司的管理层拒绝透露该项目具体的时间表或预算。两家韩国机构这一合作的核心是结合大规模行为模型的创新以及波士顿动力旗下的新款Atlas人形机器人,或标志着通用人形机器人研发的新里程碑。

         

波士顿动力首席技术官亚伦·桑德斯(Aaron Saunders)表示,机器人技术已经进入了大科学时代,通用化能力将成为决定人形机器人应用的关键因素。为此,TRI将应用其大型行为模型(LBM)通用能力技术,使Atlas在执行复杂任务时的准确性达到90%以上,未来将打造真正通用的机器人。

            

 

探索应用落地

         

在原先,波士顿动力并不执着于产业落地,波士顿动力旗下拥有 Atlas 机器人,其具备优良的运动能力和双手操作能力,但并未考虑太多在工厂或者家里落地的可能性。在升级到新一代电动 Atlas 机器人后,团队认识到开发更通用的机器人产品需要庞大的团队、大量的预算和庞大的数据集,才能更好地选择合适的机器人路径,训练机器人模型,实现一些能落地到产业的基本能力。

         

在TRI 方面,丰田已经看到了桌面操控机器人的上限,而人形机器人可以实现更广阔的行为范围,能在工厂做更多的工作,由于波士顿动力公司正处于全球领先的位置,Atlas 是一款物理硬件能力非常强的机器人,合作能探索人形机器人的更多行为能力空间。TRI 拥有的平台软件使全身操控的数据收集等工作变得和世界上任何地方一样简单。

         

丰田汽车作为全球汽车制造的领军企业之一,近年来在人工智能领域不断探索,尤其是在机器人技术上的投入逐年增加。汽车制造商一直在推动装配线流程的自动化,以降低劳动力成本并提升工人安全。汽车行业作为全球机器人部署的最大受益者,近年来的数据显示,2023年全球新装机器人中,汽车行业就占据了25%的市场份额。   

         

 

2025年可能是人形机器人量产元年,汽车工厂可能是最先落地的应用场景,一方面系汽车工厂同时具备规模大和标准化程度高的特点,赋予人形机器人实训的条件,车厂实训有望助力人形机器人触类旁通拓展更多应用场景;另一方面汽车产业的自动驾驶、传感器、机器视觉等方面的技术与人形机器人具有共通性,车厂和人形机器人厂商的深度合作可以发挥二者的协同效应。

         

前段时间,现代汽车已经在韩国一家起亚品牌汽车工厂启动了与波士顿动力技术相关的试点项目。作为头部汽车生产厂商,丰田无疑也希望通过与波士顿动力的合作,进一步探索人工智能在人机交互等领域的实际应用,推动人形机器人技术的发展,并期望在汽车市场中进一步巩固其技术和效率的优势。   

         

核心技术合作

         

丰田不仅有着较为不错的汽车实训基地,旗下的TRI 也处于前沿科技探索的前沿,尤其是在人工智能AI大模型方面的研究已经取得一定突破进展。TRI 的探索不仅包含基础模型的构建,还包括生成式AI在提高机器人灵活操作能力方面的实际运用。研究团队在“扩散策略”(diffusion policy)方面取得了显著成绩,这一策略基础上形成大型行为模型(LBM),允许机器人在掌握一种技能后,迅速迁移并适应其他任务,从而提高工作效率。其内蕴的Common Sense以及思维逻辑,能够成为面向机器人的General Planner。

         

LBM解决了两个大的问题。在原先,数据采集问题一直是人形机器人落地的瓶颈之一。数据规模和多样性是人形机器人行为可泛化的关键。目前研究很难通过足够的互联网数据来训练机器人,并将互联网数据集的功能混合转移到机器人技术中,这使其泛化性存疑。LBM对于机器人来说,就像LLM对于GPT一样,能让人形机器人在大规模的多模态数据上进行训练,以便像人类一样对人类进行快速响应,实现了一种通用的任务求解途径。

         

         

数据评估问题也是人形机器人的瓶颈。人形机器人对于大多数数据缺乏一定的评估能力,以及对于数据优劣性的度量衡,这使得人形机器人需要进行大量的模仿学习等工程工作,才能逐渐在部分任务中建立一个相对不那么准确的经验学习体系,实现小部分任务的泛化处理。   

         

TRI的研究围绕该领域的诸多困难展开,LBM不仅有一个庞大的人类行为语料库,能帮助机器人进行训练的过程中,使机器人能够模仿以类似人类的方式移动和行动。基于TRI 扩散策略的开创性工作,还能帮助机器人将可重复的行为步骤进行融合,产生新的多任务处理能力,最终以一种全新的方式去学习陌生行为并在任务之间进行泛化。例如,一个被编程为打鸡蛋的机器人,在大语言模型以及大型行为模型加持下,也能够处理任何数量的其他事情,比如叠衬衫。

         

根据丰田研究所的公告,“生成式人工智能的应用将会大幅提升机器人的学习能力,TRI在LBM上的工作旨在实现灵活的抓取操作的多任务、视觉和语言条件基础通用模型,最终让机器人只需数据和稳定的架构即可实现多个操作任务,为大规模部署人形机器人打下坚实基础,最终目标是将机器人引入工厂装配线和家庭养老护理中。”

         

 

结语与未来    

         

随着人形机器人应用场景多元化拓展,AI入局已经成为人形机器人产业化破局之道。一方面,应用场景的复杂化提高了对人形机器人的软件智能性要求,AI入局有望助推人形机器人软件学习训练提速。另一方面,人形机器人结合计算机视觉和大规模语言模型的训练,已经具备完成各类任务的能力,下一步开发多任务、多条件下的灵巧操作基础模型就显得势在必行。

         

丰田首席科学家吉尔·普拉特(Gill Pratt)表示:“人工智能和机器学习领域的最新进展在提升物理具身智能方面具有巨大的潜力,将TRI最先进的人工智能技术应用于波士顿动力公司的硬件,对我们两家公司来说都是一个改变游戏规则的机会,使我们能够更快提升人类能力,改善人类生活质量。”

         

新型电动Atlas 机器人的物理能力毋庸置疑,其支持远程操作各种全身双手操作行为的能力,这种模仿学习能力将使研究团队能够将机器人快速部署到一系列任务中并收集其性能数据,从而能够预测现实世界中的任务分布和性能极限,掌握现实情况下接触物理摩擦和类似的真实参数,这些真实世界数据也将反过来用于支持高级 LBM 的训练,通过严格的硬件和仿真测试,验证预训练模型能否迅速掌握新的复杂技能,证明大型预训练模型能够快速实现人形机器人鲁棒性更强、更灵巧的技能。

         

最终,通过引入先进的AI行为系统,Atlas机器人有望能够实现更复杂的任务,例如根据人类的手势进行实时反应,或是在多任务环境中灵活应对不同的挑战,这种技术将有助于提升人形机器人在医疗、制造、家庭服务等多个领域的应用潜力。

         

随着人形机器人技术不断发展,其在产业应用方面的前景被广泛看好,全球都在积极推动人形机器人在工业制造、医疗健康、服务业等领域应用,加速产业转型升级。赛迪研究院认为,在我国政府引导和投资驱动下,2024年和2025年人形机器人产业将持续高速增长,预计2026年我国人形机器人产业规模将突破200亿元,有望成为全球人形机器人研究和应用的重要参与者。   

         

延展阅读:

https://medium.com/toyotaresearch/tris-robots-learn-new-skills-in-an-afternoon-here-s-how-2c30b1a8c573