Google DeepMind最近宣布了三个大型语言模型(LLM),以改进机器人执行任务的方式。AutoRT是三者中最有趣的,因为它提供了一个机器人宪法,一套规则,防止机器伤害人类。剩下两个是SARA-RT和RT-Trajectory,用于机器人训练。

我们一直致力于将更多的机器人融入社会,但许多人仍然害怕终结者式的杀手机器的未来。迎接一个新的科技时代需要更多的人接受机器人,因此我们必须向公众保证它们不会伤害人类。幸运的是,一家最大的科技公司挺身而出,提出了三个解决方案。
本文将讨论AutoRT、SARA-RT和RT-Trajectory如何发挥作用并分享一些训练人工智能的方法。
谷歌机器人宪法是如何运行的?AutoRT具有带有机器人构造的安全护栏。这是一组以安全为重点的提示,机器人在选择任务时必须遵循这些提示。此外,DeepMind表示,它的灵感来源于艾萨克·阿西莫夫的机器人三定律:机器人不得伤害人类,也不得坐视人类受到伤害。机器人必须服从人类的命令,除非这些命令与第一定律相抵触。机器人必须保护自己的存在,只要这种保护不与第一定律或第二定律相冲突。
布鲁金斯学会表示,阿西莫夫后来又增加了一条优于其他法则的“第零定律”:“机器人不得伤害人类,或袖手旁观坐视人类受到伤害。”因此,AutoRT具有进一步的安全作用。例如,它可以防止机器人尝试涉及人类、动物、电器或尖锐物体的任务。谷歌还建设了程序化的预防措施以确保安全性。例如,你可以对机器人进行编程,使其在关节受力过大时自动停止,以防止发生可能伤害人类的事故。人类管理员也可以与活动的机器人保持视线,并在灾难性故障的情况下有一个停用开关。
除了机器人宪法,谷歌还创建了SARA-RT和RT-Trajectory。前者帮助机器人继续学习,并在学习更多任务时保持性能。如果没有这两样模型,随着机器人为我们服务的时间越来越长,它们可能会滞后并崩溃,无法处理多年来学到的指令。并且R-rajectory还能使机器人能够通过观察人类向他们学习。例如,机器人可以通过看到你把垃圾放进垃圾桶来学习如何打扫你的房间。
我们是如何使用人工智能的?在介绍生成型人工智能工具之前,让我们先讨论一下生成型人工智能工具的工作原理。ChatGPT和类似的工具依赖于包含大量单词的大型语言模型。它将自己的单词与用户的单词相匹配,并将它们组合成连贯的、相关的答案。例如,如果它收到“跳转”这个词,它可以使短语像“跳两次”或者“向右跳两次”。然而,人工智能程序将不会提供一个结果,如果它得到一个不认识的字,如“转起来。”你将不得不为这个词重新培训整个法学硕士,这是一个艰苦而昂贵的过程。因此,科学家们创造了一种训练人工智能的新方法:组合性的元学习。如前所述,它使人工智能工具对新学的单词应用不同的规则,它还对是否正确遵守规则提供了反馈。

纽约大学科学家Brenden Lake说:“35年来,认知科学、人工智能、语言学和哲学领域的研究人员一直在争论神经网络是否能现类似人类的系统化概括。“我们已经表明,第一次,一个通用的神经网络可以模仿或超过人类的系统概括在头对头的比较。”
总的来说,Google创建了一个大型语言模型,为全球的机器人提供了一个机器人宪法。它是开源的,所以它可以帮助更多的人安全地使用机器人。这家搜索引擎公司还制作了另外两个LLM,方便机器人训练。很快,教你的机器人助手将比训练你的狗更容易!