
从繁华的上海到充满活力的纽约,全球各地的餐馆都在烹饪各式各样的美食:汉堡、dosas、比萨饼和炒菜等,这些美食的制作过程就像机器人在过去半个世纪中所做的其他任务一样,严格按照预设的指示,以相同的方式重复执行相同的步骤。
然而,伊希卡·辛格(Ishika Singh)却有一个雄心勃勃的愿景——她渴望创造一个能够烹制晚餐的机器人。这个机器人不仅能够走进厨房,在冰箱和橱柜中自如地搜寻食材,而且还能挑选出能够融合成一两道美味佳肴的食材,最后还能将餐桌布置得井井有条。这个看似简单的任务,对于机器人来说却是一个巨大的挑战。要完成这样的任务,机器人需要掌握丰富的厨房知识,同时还要具备常识、灵活性和足智多谋的能力,而这正是目前机器人技术所缺乏的。
南加州大学(University of Southern California)的计算机科学博士生辛格(Singh)指出,问题根源在于机器人专家依赖经典的规划管道。“他们为每一个行动及其先决条件设定了严格的规范,并试图预测每一个可能的结果,”辛格解释道,“这样的方法详尽地规定了环境中可能或不可能的一切。然而,即便经过无数次的尝试和编写数千行的代码,当机器人遇到未预料到的情况时,它仍然会束手无策。”
设想一个负责准备晚餐的机器人,它在制定“策略”——即为了完成指令而采取的行动计划时——不仅需要深入理解所烹饪菜肴的文化背景(“辣”在这里意味着什么?),还要熟悉它身处的特定厨房环境(电饭煲是否藏在高架上?),甚至要考虑到用餐者的特殊需求(赫克托因锻炼而特别饿,而芭芭拉阿姨则不能吃含麸质或乳制品的食物)。更重要的是,这个机器人必须具备足够的应变能力,以应对可能出现的意外和突发状况(“我不小心把黄油弄掉了!现在我该用什么来代替?”)。
辛格的博士研究得到了南加州大学计算机科学教授杰西·托马森(Jesse Thomason)的悉心指导。托马森教授认为,这种情境一直是他们大胆创新计划的核心目标。他坚信,将家务劳动交给机器人来完成,不仅会彻底改变相关行业,还会让人们的日常生活变得更加轻松便捷。
尽管YouTube上充斥着令人瞩目的机器人仓库工人、机器狗、机器人护士和机器人汽车的视频,但这些机器仍未能展现出与人类相当的灵活性和应变能力。“经典的机器人技术非常脆弱,因为你需要为机器人绘制一张详尽的世界地图,但现实世界却是瞬息万变的,”Electric Sheep公司的首席执行官Naganand Murty如此解释,他的公司专注于制造园林绿化机器人,这些机器人必须灵活应对多变的天气、地形和业主偏好。目前,大多数工作机器人仍沿袭了上一代的模式:在严格受限的环境中,遵循预设的脚本,重复执行相同的任务。
尽管历代的机器人制造商都渴望为机器人赋予智慧和实用性,但几十年来,这一目标始终未能实现。计算机及其机器人亲属在知识方面始终匮乏。然而,2022年诞生的ChatGPT彻底改变了这一局面。作为一种名为GPT-3的“大型语言模型”(LLM)的用户友好界面,ChatGPT能够根据需求生成文本,模仿人类的言语和写作风格。经过大量关于晚餐、厨房和食谱的信息训练,ChatGPT几乎能够解答机器人在特定厨房中如何使用特定食材制作一顿饭的任何疑问。
大型语言模型(LLM)具备机器人所缺乏的能力:能够获取人类曾经创作过的几乎所有领域的知识,从量子物理学到K-pop音乐,再到解冻鲑鱼片的技巧。相反,机器人则拥有LLM所不具备的特点:一个可以与周围环境互动的物理实体,将文字描述转化为现实行动。将无意识的机器人与没有实体的LLM相结合,似乎是一种合乎逻辑的进步。正如2022年的一篇论文所述,“机器人可以作为语言模型的‘手和眼睛’,而语言模型则提供有关任务的高级语义知识。”
尽管我们普通人通常利用LLM进行休闲浏览或完成作业,但一些机器人专家已经开始将其视为机器人摆脱预编程限制的一种手段。安全技术专家布鲁斯·施奈尔(Bruce Schneier)和数据科学家内森·桑德斯(Nathan Sanders)在去年夏天的一篇专栏文章中写道,这些听起来与人类相似的模型的出现,已经引发了一场“跨行业和学术界的竞赛,旨在探索教授LLM如何操作工具的最佳方法”。
Levatas公司研发的机器人,通过整合LLM的功能,不仅理解了单词的字面意义,还能洞察其背后的意图。例如,它“明白”虽然Jane说的是“备份”,而Joe说的是“回来”,但两者实际上表达的是相同的意思。与传统的方式相比,工人不再需要仔细研究机器上次巡逻时的数据电子表格,而是可以简单地提问:“你上次巡逻时,哪些读数超出了正常范围?”这样的交互方式不仅提升了效率,也使得人机协作变得更加顺畅和自然。
当ChatGPT在2022年底发布时,对于西棕榈滩的Levatas公司而言,这成为了一个“啊哈”的突破时刻。该公司首席执行官克里斯·尼尔森(Chris Neilson)表示,Levatas为巡逻和检查工业现场的机器人提供软件。通过与ChatGPT和波士顿动力公司的合作,他们成功打造了一款原型机器狗。这款机器狗不仅能够说话、回答问题,还能遵循普通英语口语的指示,无需对工人进行专门的机器人操作培训。尼尔森强调:“我们希望为那些没有接受过机器人培训的普通工业员工提供自然语言的能力,让他们能够简单地告诉机器人坐下或返回码头。”
Levatas整合了大型语言模型(LLM)的机器人,不仅理解了单词的字面意义,还能洞察其背后的意图。例如,它能够理解Jane所说的“备份”和Joe所说的“回来”在本质上是相同的指令。这使得工人无需深入研究机器上次巡逻的数据电子表格,而只需简单地提问:“你上次巡逻时,哪些读数超出了正常范围?”这种交互方式不仅提高了工作效率,还使得人机协作变得更加直观和自然。
虽然Levatas公司的软件将各个系统紧密地联系在一起,但许多关键组件——如语音转文本转录、ChatGPT、机器人本身以及文本转语音功能(使机器能够发声)——如今已经实现了商业化。然而,这并不意味着家庭很快就会迎来会说话的机器狗。Levatas的机器之所以运行得如此出色,是因为它们被严格限制在特定的工业环境中。在这些环境中,机器狗不需要处理如“玩取东西”或“如何处理冰箱里的所有茴香”等复杂指令。

机器人通过有限的传感器(如摄像头、雷达等)感知环境,并通过计算机处理数据和指令,将其转换为机器代码以驱动机械部件行动。机器人从传感器获取反馈,并根据需要调整动作。这一过程依赖于金属、塑料和电力。相比之下,机器学习在虚拟空间运行,通过模拟人脑的神经网络进行,涉及大量连接的单元,通过调整权重来逼近正确答案。
在过去的15年里,机器学习展现了出色的专业任务执行能力,如蛋白质折叠分析或求职者面试选择。LLM作为机器学习的一种形式,其独特之处在于其通用性,能够讨论各种话题。尽管LLM的回应仅基于单词组合的预测,没有真正理解含义,但其简单明了的运作方式使得无需特殊培训或工程知识即可与其互动。LLM支持多种语言,包括英语、中文、西班牙语和法语等,尽管某些语言在模型中的代表性可能不足。当给LLM一个提示时,它会将单词转化为数字,即它们之间关系的数学表示,然后使用这些数字进行预测并生成响应。LLM的“大”体现在其可调整的输入权重数量上。例如,OpenAI的首个LLM GPT-1有约1.2亿个参数,而最新的GPT-4则超过了一万亿,五道2.0语言模型更是高达1.75万亿。
LLM因其庞大的参数和丰富的训练数据,能做出精确的预测,补充了机器人的常识和背景知识。无需特定背景信息,LLM就能理解并执行如“煮土豆哈希”这样的任务。研究者在物理机械臂和虚拟机器人上测试了ProgPrompt方法,发现其计划执行成功率远超以往系统。在实际机器人进行简单分拣任务时,成功率也相当高。然而,现实世界存在如光线变化、物体形状不规则等随机性,因此机器人专家通常在虚拟环境中测试软件,以减轻现实的不确定性和混乱。
Stefanie Tellex表示,尽管语言理解能力出色,但机器人表现仍不尽如人意。她强调,机器人需提升表现以匹配语言能力。Thomason和Singh在研究LLM时发现,尽管LLM能给出指令,如“在微波炉上设置五分钟计时器”,但机器人缺乏听觉无法听到计时器声音,且其处理器可计时。因此,研究人员需设计提示,确保LLM的回答仅涉及机器人能理解和执行的任务。Singh提出一种解决方案,即使用示例问题及其解决方案来指导LLM,避免数学和逻辑错误。他们发现,当在提示问题后附上解决类似问题的示例步骤时,效果会显著改善。
Singh认为使用示例问题指导LLM,可确保答案适合实验室机器人执行,如“去冰箱”或“捡鲑鱼”。这些简单动作会结合LLM的数据,与机器人感知的环境互动。辛格让ChatGPT为机器人编写Python代码,而非日常语音。她与托马森在物理机械臂和虚拟机器人上测试了这种名为ProgPrompt的方法,发现其计划执行成功率远超以往系统。在简单分拣任务中,真实机器人也几乎总是成功。
随着LLM的快速发展,目前尚不确定其护栏是否能跟上。研究人员正在探索创建“多模态”模型,能生成语言、图像、声音和行动计划。尽管LLM驱动的机器人在行动上可能看似危险,但实际上它们在执行简单任务时仍面临挑战。豪斯曼指出,打开抽屉和移动物体等简单事情对LLM来说也是难题。目前,LLM面临的最大挑战是复制人类擅长和恶意的很多东西。与LLM制作的网络钓鱼邮件、垃圾邮件或假新闻相比,将LLM放入机器人中可能是相对安全的应用之一。