在《机器人与人工智能前沿》的一项新研究中,研究人员发现,能够实时表达情感的机器人能更受人们喜爱、值得信赖,并给人一种更接近人类的亲近感。通过利用先进的人工智能技术,研究进一步揭示,当机器人在与人类的互动中展现出适当的情绪反应时,参与者会更加积极地评价他们的体验,并在协作任务中表现得更为出色。这一发现为未来机器人技术的发展提供了新的思路,强调了情感表达在人机交互中的重要性。

这项创新研究背后的动机源于社交机器人越来越多地融入日常人类环境。随着机器人在从家庭到医疗机构等环境中变得越来越普遍,它们理解和表达人类情感的需求变得越来越重要。识别面部表情并以适当的情绪线索做出反应对于在人类和机器人之间建立融洽的关系、信任和轻松沟通至关重要。
先前的研究表明,能够表现出情感的机器人更有可能被用户接受和喜欢。然而,开发能够在实时交互中准确建模和表达情感的机器人仍然是一个复杂的挑战,促使研究人员探索 GPT-3.5 等大型语言模型 (LLM) 在人机交互中产生情感的潜力。
“随着LLM的最新进展,人们非常关注构建下一代通用机器人。许多公司已经提出了他们的原型,并设想社会对这种机器人有很大的需求,“研究作者Chinmaya Mishra解释说,他是马克斯普朗克心理语言学研究所多模态语言系的博士后研究员。
“随着机器人在我们的社会中占有更大的地位,它们越来越有必要表现出情感行为。表现出适当情绪的机器人不仅更容易理解,而且还通过促进有效的沟通和与人类的更紧密的关系来影响整体互动体验。
“在机器人上模拟情感行为是一个难题,因为它需要机器人能够感知人类行为,理解所传达的信息,制定适当的反应,并表达与之相关的情感。此外,实时做到这一点具有挑战性,这对于无缝的人机交互(HRI)至关重要。
“我对这个话题的兴趣有两个方面:1.) 我想利用 LLM 的力量并验证它是否可用于此类问题,以及 2.)从依赖于平台和计算量大的模型转向基于云的架构,该架构可用于任何社交机器人平台,“Mishra说。
该研究涉及47名参与者,他们与机器人进行了独特的情感图像分类游戏,旨在测试机器人的情感表达能力。用于这项研究的机器人是Furhat机器人,以其类似人类的头部和面部表情而闻名,能够通过背向投影的面部动画来显示各种情绪。

Mishra和他的同事们发现,当机器人表现出与正在进行的对话一致的情绪时,参与者对他们的体验给予了更积极的评价,而不是当机器人的表情不一致或根本没有表现出任何情绪表达时。
具体来说,在一致条件下,参与者发现这些互动更积极,在情感上更合适,并且表明机器人的行为更像人类。这表明,机器人的非语言线索与交互的情感背景的一致性在人类如何感知和与机器人互动方面起着至关重要的作用。
有趣的是,研究人员还发现,这种情感上的一致性不仅改善了参与者对机器人的看法,而且还对他们在手头任务中的表现产生了积极影响。参与者在全等条件下与机器人互动时,在排序游戏中获得了更高的分数,这突出了情感表达机器人在协作任务中的实际好处。
“可以利用LLM来可靠地评估对话的上下文,从而决定机器人在交互过程中应该表达的适当情感,”Mishra告诉PsyPost。“机器人的情感表达被认为是有意的,适当的情感对我们与机器人互动的体验和结果有积极的影响。这些行为在机器人上实时生成,使我们更容易理解它们并与之交谈,因为它们使用这些情绪来表达它们的内部状态和意图。
“然而,重要的是要记住,机器人对情况的理解和表达适当情绪的决策过程取决于开发人员/研究人员如何构建架构。为了模拟机器人的现实行为,我们将复杂的人类行为分解为简化的部分。然后,这些简化的位(其中一个或几个)用于对机器人的行为进行建模。虽然它们看起来和感觉都很合适,但我们离真正能够模拟具有与人类相似能力的机器人还有很长的路要走。
该研究还探讨了参与者解释机器人情感表达的方式,特别是在不一致的情况下。一些参与者将复杂的情绪状态归因于机器人,这表明他们倾向于将机器人的行为拟人化,并更深入地阅读机器人的表情。这一发现表明,人类善于在互动中寻求情感的连贯性,甚至根据机器人的表情将类似人类的情感复杂性归因于机器人。
“令人惊讶的是,参与者将复杂的情绪归因于机器人的行为并与之相关,”Mishra说。
“例如,在一个案例中,机器人被指示表现出矛盾的行为,机器人在描述悲伤的情况时会微笑。参与者告诉我,他们认为机器人可能感到非常悲伤,以至于它通过微笑来掩盖它。他们说这也是他们要做的。在另一个案例中,参与者将机器人的微笑解释为讽刺。
“这继续表明,机器人的情感表达是多么强大,”Mishra告诉PsyPost。“即使人们知道他们正在与机器人交谈,他们仍然与它联系在一起,就好像它是真实的一样。此外,它还向我们展示了我们的大脑在互动过程中如何解释情绪。
尽管结果很有希望,但该研究遇到了一些局限性。注意到了一些技术问题,例如由于 API 调用滞后导致机器人响应时间延迟,以及 GPT-3.5 无法考虑更长的对话历史进行情绪预测。此外,该研究的设计将情绪的范围限制在基本类别中,可能忽略了人类情感表达的细微差别。
“一个关键的限制是当前研究中使用纯文本模式,”Mishra解释说。“人类的情绪是多模态的,涉及许多行为的展示和解释,如面部表情、言语、手势、姿势和情境。我相信,随着多模态LLM的引入和进步,这将在未来几天内得到解决。
“另一个需要注意的是,它依赖于LLM API提供商,如OpenAI。严重缺乏可公开访问的 LLM API,这些 API 可与市售的 LLM API 相媲美。这限制了对这一主题的使用和研究,仅限于能够负担得起价格的团体/个人。
未来的研究可以探索更复杂的模型,能够整合更广泛的情感和多模态输入,包括面部表情和肢体语言,以在人类和机器人之间创造更细致和有效的情感互动。
“从长远来看,我希望通过使它们更具多模态来改进机器人的情感行为模型,”Mishra说。“这将使它们在HRI期间更像人类和合适。
这项研究名为“使用大型语言模型在人机对话中实时生成情感”,作者是 Chinmaya Mishra、Rinus Verdonschot、Peter Hagoort 和 Gabriel Skantze。