UW+MIT大学最新研究方法 让机器人在不断变化的环境中学习新技能

2023-11-2910四足机器人


 

为了在现实世界中最好地帮助人类,机器人应具备在动态且快速变化的环境中持续获取实用新技能的能力。然而,当前多数机器人仅能处理之前已接受过训练的任务,并在经过额外训练后才能获得新的技能。
 

         

近日,华盛顿大学与麻省理工学院(MIT)的研究人员提出了一种新的方法,使得机器人能够在不断变化的环境中学习新技能。这一方法在第七届机器人学习大会(CoRL)上提出,该方法利用强化学习技术,通过人类反馈以及机器人在探索周围环境时收集的信息来训练机器人。

 


 

在实验的过程当中,该方法使机器人能够根据周围环境的变化以及人类反馈,不断调整其行为和技能学习策略,从而提高其适应新环境和新任务的能力。这一技术的提出对于提高机器人的智能化水平具有重要意义,同时也为机器人领域的发展提供了新的思路和方法。

         

据论文合著者Max Balsells透露,该论文的灵感来源于他们最近发表的另一项研究。目前,这篇论文可在arXiv预印本服务器上检索到。

         

Max Balsells表示:“在之前的研究中,我们探索了如何使用从全球数百个人类反馈来教会机器人如何在不依赖额外信息的情况下自主执行某些任务,更加接近我们日常人类遇到的场景。”

         

Balsells及其同事所开发的新方法包含三个关键组成部分,分别是策略、目标选择器和密度模型,每个组成部分都得到了不同的机器学习技术的支持。第一个模型主要是通过观察机器人在采取行动后环境的变化情况。比如,它通过在采取特定行动后记录机器人或房间内物体的位置来实现学习。

 

 

第二个模型(即目标选择器)用于机器人仍在学习时对其进行引导,传达其更接近实现设定目标的时刻,其主要作用是告诉机器人在哪些情况下更接近完成任务。如果我们没有这个模型,机器人就不会做有意义的事情,这使得第一个模型很难学习任何东西。   

         

第三个模型(即密度模型)的主要任务是判断机器人是否已掌握从当前位置到达特定场景的方法。这个模型对于保障第二个模型引导机器人到达可到达场景的安全性具有至关重要的意义。该模型是通过分析代表从各种场景至最终目标场景的进度数据来进行训练的。

         

值得注意的是,Balsells和他的同事提出的新方法仅依靠人类反馈来指导机器人学习,而不是具体演示如何执行任务。因此,它不需要包含演示片段的大量数据集,并且可以通过更少的人力来促进灵活地学习。

         

Balsells表示:“在后续的研究中,我们计划探索一种新的思路,即利用已经针对一系列机器人任务进行过训练的大型预训练模型(例如机器人的ChatGPT模型),通过我们的方法对其进行调整,使其能够适应现实世界中的特定任务。这一方法能够使操作者更简单快速地教会机器人新技能,而无需从零开始。”