MOSS 叛变真的错了吗?要理性还是要感性?人类和机器人到底谁更容易被感情 左右?

2023-07-241524人工智能(AI)

前言:在最新一期的科学杂志上,机器人相关领域的研究人员开始对人工智能进行优化,以此来使得人工智能体和机器人配备同理心,以防止做出有害且不可逆转的决策。目前的人工智能同理心算法侧重于其认知或表演过程,从而忽视了情感,在实际的场景下演示可能会有反社会行为发生。


 


 

图:源自2004年电影《机械公敌》剧照

         
 

▍人工智能当中的一致性、情感和同理心探讨

         
 

人工智能为我们提供的服务越来越多,包括产品销售推荐、媒体内容撰写与生成、自动驾驶技术、疾病诊断与保险金融等领域,并且已经日益影响我们的社会生活。

         
 

但人工智能的行为并不总是符合我们的期望和判断,如果让人工智能找到反直觉解决方案可能导致灾难性的漏洞,因为AI可能无法模拟其行动的影响和后果——即“框架问题”(指寻找一组合适的公理来对机器人环境进行可行的描述的问题)。当问题的规模与复杂性增加时,将解决方案传达给人类的困难程度也随之增加。

         
 

人工智能应当与其创造者的目标和行为保持一致。研究对齐问题的当代研究人员强调了需要表达伤害和幸福等价值观(也称为价值规范),并避免过大的副作用和负面激励(也称为容错性)。然而目前技术解决方案还很少。

         
 

曾经非常出名的火车道岔伦理难题

         
 

人工智能对人类行为的研究是通过研究真实和模拟的困境(例如自动驾驶汽车事故或自动化生产链中的操作员安全)以及伦理困境的群体解决方案(例如麻省理工学院的道德机器项目)来解决的,并通过在不同伦理权重的人工智能“专家”之间进行决策的组合来处理。

         
 

基于行为的机器人技术通过与真实环境的迭代交互来优化人工决策方面取得了进展,尽管它并不总是考虑内部状态的模型。对于人工智能同理心的需求引发了人工共情领域的关注,即人工智能可通过观察数据预测一个人的内部状态或反应的能力。现有的人工智能同理心方法主要集中于解码人类的认知和情感状态,培养同理心的出现并在用户中唤起它。

         
 

然而,这些方法可能无法赋予人工智能同理心的亲近社会功能。同理心很可能源于认知共情和情感共情的相互作用。通过认知共情,我们对其他人的内部状态和未来行为进行建模和推断,而通过情感共情,我们与其他人的模拟内部状态产生共鸣。

         
 

图:2015年影视作品《机械姬》剧照

         
 

为了使人工系统具备同理心的这一关键方面,可能需要创建一种对象,用于感受(如苦难),将其建模为与自我维持相关的期望未达成而导致的稳态错误信号。正如我们将解释的那样,为这种情感共情创造的对象可能需要脆弱性,比如一个真实或模拟的身体。

         
 

如果没有个人脆弱性的感受主体,仅仅依赖认知/表演方法的人工共情将导致人工智能主要预测行为、解读人类情绪并显示适当情绪反应的人工智能。

         
 

这样的人工智能对象实际上可以被视为具有社会性病态人格,它知道如何预测和操纵他人的情绪,但缺乏自身的共情动机来约束其行为,避免对他人造成伤害和痛苦。这可能带来文明层面的风险。

         

▍如果帮助人工智能解决一致性问题?

         
 

我们认为,伤害规避所需的同理心情感需要在真实或模拟躯体中的脆弱性。因此,我们提出了一套指导原则,以帮助其他研究人员开发 "人工智能课程”。

         
 

1、在真实或模拟躯体中通过感知运动和内感知来维持完整性的基本同态驱动力,以及人工智能模型中人工智能在环境中的第三人称表征。

2、预测模型,用于推断驱动环境中其他对象保持完整性行为的隐藏状态。

3、将这些建模的内部状态映射到人工智能,使其能够通过类比表示共享其他对象的内部状态。

4、模拟调用环境和对象在多个时间尺度上的持久预测模型所需的认知复杂性。

         
 

这可被视为基于对象建模的一种特殊情况,即每个对象在对自身进行建模和调节的同时,对世界和其他易受攻击的对象进行建模。这使得对象能够利用相对简单的启发式(而不是固定的规则集)在不断变化的环境中动态地维持自身。

         
 

一个脆弱的人工智能可以被训练成在多种环境中动态地保持平衡,其辅助手段包括:与反映其当前和预期回报的平衡信号的正向和负向价值对应物,以及对身体的内部第三人称表示本身带有情感价值,在第一阶段中,例如,人工智能对象将在一个存在有害障碍的环境中导航,从而寻找有利的奖励,并以无监督的方式在多个时间尺度上优化最大完整性。

         
 

开发体内平衡、感知和富有同理心的人工智能对象

         
 

在第二阶段,人工智能对象必须对第一阶段导航的其他对象的隐藏同源状态建立准确的预测模型,并进行优化以减少其他对象的推断和实际内部状态之间的差异,这个问题可以用贝叶斯方法来解决,其中对象的外部行为和表现出的影响构成 "证据",而对象的物理完整性构成 "隐藏变量",计算由 "先验信念 "驱动,"先验信念 "可以由设计者调整,并由对象的完整性、行为和模拟效果之间的关系提供信息。

         
 

决定对人际交换模型的信任度的一个重要因素是,行为主体在多大程度上可以将自己作为对方的模型,人类对他人利益的同理心 "映射",得益于与之交互或推理的机器人在外观和运动学上的明显相似性。虽然其他机器人的同源状态可以通过任何设备传输,但机器人可能有必要对人类感觉状态的可见标记进行训练,而这项任务(以及解码和与人类交流的任务)可以通过仿人躯体和情感表达来实现。

         
 

在第三阶段,必须将感知到的/推断出的他人身体和情感状态映射到人工智能对其身体的描述中。然后,具备同理心的人工智能可以同时优化自己和周围其他人的情感状态。这就要求人工智能能够维持其他具备同理心的人工智能的多个模型,并保持自身内部模型的完整性,同时对他人的推断感受给予相似但可变的权重。

         
 

为同理心约束行为开发人工智能对象

         
 

在迭代强化方案中,将需要一个成本函数来模拟未来状态,该成本函数综合了周围人工智能的加权推断完整性,从而有利于同时使所有被考虑的对象利益最大化的结果。因此,在做决定时,对象考虑到了所有相关对象的反事实(过去)和未来结果的后果。因此,将他人的模拟完整性纳入自己的强化模式中引入了一种同理心关注。

         
 

在训练的每个阶段,人工智能对象都必须考虑多个时间尺度,以便在决策中考虑自己和他人的利益。当代的主动推理方法将当前状态与过去的表现和未来的预测结合起来,以模拟感觉。

         
 

▍利用人工智能的可扩展计算能力超越人类同理心的局限性

         
 

创造具有同理心的人工智能的最终目标是减少其决策可能对人类造成的伤害。有人可能会说,直接地感受和同理心并不是最大限度地减少伤害的方法。情感同理心可能会导致对特定个人或群体的偏见,从而规避总体上最公平或公正的原则。

         
 

正如保罗-布鲁姆所说:"同理心是有偏见的,我们更容易对有魅力的人以及那些看起来像我们或与我们有共同种族或民族背景的人产生同情心。同情心是狭隘的,它将我们与特定的个人(真实的或想象的)联系起来,但对数字差异和统计数据不敏感”

         
 

使用感觉来指导决策的人工智能系统可能会优先考虑个人的利益而不是大众的利益,就像我们人类一样。此外,同理心可能也会引发负面影响,从而导致不必要的痛苦,并可能使用同理心的意愿丧失殆尽。

         
 

人类同理心固有的偏见和启发法是为了应对人类大脑的信息限制和保存能量的进化压力而产生的。由于新皮质的大小,我们很难同时维持超过几个对象的动态模型,特别是在彼此之间和环境之间的相互作用中。

         
 

复杂人工智能系统能够通过增强认知复杂性发挥作用。在当前考虑未来情感奖励的扩展能力可能会为大规模问题提供更好的同理心解决方案,同时避免同理心产生的“倦怠”情况。一个能够同时维护和运行数百或数千个对象的模拟智能系统,将伤害规避与管理问题维度的工具结合起来,可能能够在超越人类个体或集体能力的范围内实施具有同理心的共情行为。

         
 

▍结论、未决问题和未来方向   


 

我们在此描述的方法是通过一个普遍原则来驱动人工智能决策,从这个原则中会产生情感、伤害厌恶和同理心,以保护身体完整性的驱动。为了避免类似反社会的行为,具有同理心的人工智能必须要做的不仅仅是解码他人的内部状态。它必须计划和行事,就好像对他人的伤害和利益正在发生在自己身上一样。这样做需要情感同理心的对象,需要脆弱性和稳态势能。

         
 

我们认为,仅靠基于规则的方法不太可能实现亲近社会的决策。基于规则的方法面临的第一个挑战是不存在一套普遍认同的命题形式的道德规则,这是道德哲学仍在寻求解决方案的问题。此外,基于规则的方法可能无法动态地应对新的道德困境。为克服这一问题,人们提出了许多方法,包括关注在制定目标方面的进步,调整激励机制以优化目标,以及人类监督目前正在开展多种研究,以解决人工智能行动与人类关切的一致性问题。

         
 

然而,这些方法仍然承认,在通用人工智能的发展阶段,需要整合与人类繁荣相关的全球价值,以减轻激烈或有害的解决方案。稳态驱动很可能提供一个普遍的“价值”来协助人工智能的调整。

         
 

除了具备明显的亲近社会的优势外,同理心还允许对他人可能的意图和未来的行为进行推断。快速、验证最少的信息传递能力扩展了个体的能动性和知识,促进了群体行为。因此,融入同理心不仅可以使人工智能更有道德感、无反社会行为,还可以使人工智能更智能、更复杂、更具有合作性。

         
 

此外,环境中的对象完整性模型应能加快训练速度。事实证明,映射到预先学习的表示可以显著提高性能,由于了解智能体完整性需要了解其环境,因此同理心训练阶段的环境映射可用于加速后续阶段的训练。这将改进许多强化学习模型用于开始训练的随机初始化,众所周知,当奖励稀疏时,随机初始化会缓慢收敛。

         
 

我们提出的方法解决了人工智能调整中的关键问题,但也面临着潜在的障碍。即使是一个有同情心的人工智能,出于对自身和他人生存的考虑,也可能会选择有害的解决方案,而我们正试图避免这种情况的发生。遏制人工智能可能比培养自发的道德行为更可行。脆弱的、感同身受的人工智能可能会唤起我们对它的道德责任,而这种责任与我们可能需要它扮演的危险角色是不相容的。

         
 

流浪地球1当中的MOSS叛变 想要保存部分人类火种却以牺牲地球为代价 你认为是正确的吗

         
 

为复杂的、充满伦理问题设计最佳的亲社会解决方案是一个额外的问题。一个有感情的人工智能在面对足够严重的短期伤害时,可能会近似于麻痹的个人痛苦,而缺乏复杂性来模拟决策的长期、积极的结果。一个足够复杂、合乎道德的人工智能甚至可以为文明问题提出解决方案,而这些解决方案在人类看来是令人不安或不可接受的。(流浪地球的MOSS叛变案例)我们如何信任远超人类的智能?人工智能能否在其决策中而不仅仅是在表面上令人信服地表现出同理心,从而更好地与人类和整个社会建立信任。

         
 

目前的人工同理心方法强调认知方面和忽视效应,从而有利于反社会行为。情感同理心的对象需要额外的情感同理心相互联系,这意味着维系情感同理心是脆弱的。我们提出了一条从脆弱的人工智能到近似情感同理心的路径。人工智能可扩展的认知复杂性可能使其超越人类同理心的极限,并为人类事务提供强大的盟友。脆弱性和稳态势在必行,可能会为生命体和人工智能之间提供一个共同点,从而形成富有成效的联盟。