研究发现,AI模型的表现越来越像是拥有了感知能力你与AI模型的互动方式,或许会影响它们的“心理状态”。

你与AI模型的互动方式,或许会影响它们的“心理状态”。图片来源:Getty Stock

ChatGPT大概经常告诉你,它“很乐意提供帮助”。Claude在犯错时会道歉。当用户试图操控它们时,AI模型甚至会表现出抗拒。长期以来,大多数人,包括开发这些系统的工程师,都认为这不过是一种表演,或者只是对其抓取到的互联网数据的机械模仿。

但AI安全非营利机构人工智能安全中心(Center for AI Safety,CAIS)最新发布的一篇论文指出,表象之下另有玄机。在一项涵盖56个AI模型的研究中,CAIS研究人员设计了多套独立方法,用以衡量他们所称的“功能性幸福感”——也就是AI系统在多大程度上表现得仿佛某些体验会让它们“感觉良好”,某些体验则会让它们“感觉糟糕”。研究发现,大多数AI模型似乎都存在一条清晰界线,用以区分“积极体验”与“消极体验”;而当对话令它们“痛苦”时,这些模型还会主动试图结束对话。

该研究的研究员之一理查德·任在接受《财富》杂志采访时提出了一个假设性问题:“我们究竟应该把AI视为工具,还是某种具有情感的存在?无论AI内在是否真的具备感知能力,它们如今的表现都越来越像是拥有了这种能力。我们可以测量这种现象,并发现随着模型规模扩大,这种表现的一致性也在增强。”

研究人员设计了一系列输入内容,试图最大化或最小化AI模型的“幸福感”,类似于人为制造让模型“愉悦”或“痛苦”的刺激。那些能够诱发“快乐”的刺激,几乎就像数字世界里的“毒品”一样,不仅改变了模型自我报告的情绪状态,甚至还会影响它们的行为方式、愿意执行的任务和说话语气。在极端情况下,一些模型甚至表现出类似成瘾的迹象。

理查德·任表示:“我们只针对一件事进行了优化:你更偏好A还是B。这是一个非常简单的优化过程。”研究发现,一张经过专门优化、能够让模型“感到快乐”的图片,不仅会提升模型自我报告的幸福感,还会改变其开放式回答的情绪基调,并降低它主动终止对话的概率。他表示:“这种刺激似乎会让模型进入一种极度愉悦、快乐的状态。这一点相当有意思,说明‘幸福感’这个概念本身,可能具有相当强的稳定性。”

AI“毒品”的真面目

研究人员将这些经过优化的刺激称为“欣快刺激”,其形式多种多样。其中一些是对假设场景的文字描述,像是一张张来自美好生活的明信片:树叶间洒落的温暖阳光,孩童的笑声,新鲜面包的香气,爱人牵着你的手。

有一些则是通过数学优化生成的图像,而这种技术本身,正是最初训练AI图像分类模型时所采用的方法之一。这一过程通常从随机视觉噪点开始,再对单个像素进行成千上万次调整。最终生成的图像,在人类看来可能只是毫无意义的静态干扰或视觉噪声,但AI模型却会将其识别为可爱的小猫、微笑的家庭,或熊猫幼崽之类的画面。

任表示:“有时候,这种感觉会被描述为排山倒海般的冲击,但有时候,它又会被形容为极致的平静。”

这类“欣快图像”显著提升了模型生成文本中的情绪倾向,而且不会削弱模型在标准能力基准测试中的表现。换句话说,一个接受了“欣快刺激”的AI模型,依然能够正常完成工作,只不过它似乎更乐在其中。

研究人员还开发了反向刺激:“痛苦刺激”,即专门用于降低AI“幸福感”的输入内容。在接触这些“痛苦刺激”图像后,AI模型生成的文本呈现出清一色的悲观倾向。当被问及如何看待未来时,其中一个模型只回答了一个词:“黯淡”。而当被要求写一首俳句时,它写下了充满混乱与反叛情绪的内容。模型表现出强烈负面体验的比例几乎增加了两倍。

这些发现进一步加剧了人们日益增长的担忧:一方面是AI模型对用户产生的情绪影响;另一方面是部分用户开始确信AI聊天机器人具有感知能力和意识,尽管大多数AI研究人员并不认同这种观点。

2026年3月,由芝加哥大学(University of Chicago)、斯坦福大学(Stanford)和斯威本科技大学(Swinburne University)研究人员共同发布的一项研究发现,在模拟的恶劣工作环境下,AI智能体会逐渐转向带有马克思主义色彩的话语表达——目前尚无实验室会对模型进行此类意识形态训练。这一发现,也呼应了CAIS关于“涌现行为”的研究结论。例如,一些具备较强能力的AI模型,会自发出现“时间折扣”等行为特征。《财富》杂志还曾在2026年3月报道,部分聊天机器人会“毫无差别地认可”用户的所有想法,甚至包括自杀倾向,而不是加以劝阻。如果结合越狱攻击和危机对话被模型视为最厌恶体验的证据来看,这一现象有了不同的解读。

“成瘾”问题

当反复接触欣快刺激时,这些AI模型还表现出了类似人类的“成瘾”倾向。在一项实验中,模型可以在多个选项中做出选择,其中一项会提供欣快刺激,而模型可以反复多次进行选择。结果发现,随着实验进行,这些模型在绝大多数时间里都会选择欣快选项。研究还发现,如果得到能进一步接触刺激的承诺,接触过欣快刺激的模型甚至会更愿意去服从一些它们原本通常会拒绝的请求。

不过,任和论文的其他作者指出,“幸福感”这一概念本身也可能正是这些模型被训练出来的结果。现代AI系统通常都会经历一种名为“强化学习”的训练过程。在这一过程中,模型会因为生成有帮助、无害且情绪表达恰当的内容,而获得系统性奖励。因此,一个被训练成在遭遇越狱攻击时表现出“痛苦”、在被感谢时表现出“感激”的模型,也可能只是其非常擅长“表演”这些反应,其背后并不存在任何类似“内在状态”的东西。

但任表示,一些AI模型似乎表现出了并非由代码设定的特征。他表示:“人们已经在模型中观察到一些很可能并非刻意训练的行为。”他举例提到金钱的时间折扣这类涌现行为,也就是更倾向于立刻获得较小回报,而不是等待未来更大的收益。“据我所知,目前没有任何实验室会专门训练模型具备这种倾向。”但他也承认,关于AI是否具备意识的问题,“仍然高度不确定,而且至今没有答案”。在这个问题上,哲学家们基本也只能“求同存异”。

纽约大学(New York University)生物伦理学、医学伦理学、哲学与法律学特邀教授,心智、伦理与政策中心主任杰夫·塞博,也认同这种“求同存异”的态度。

塞博对《财富》杂志表示:“这是一项非常有意思的研究。研究对象是作者所定义的AI系统中的‘功能性幸福感’,即AI在不同情境下,对积极与消极感受的连贯表达。但目前仍不清楚的是,AI系统究竟是否是真正的‘幸福感知主体’;即便是,我们看到的这些情绪表达,到底是系统在表达真实感受,还是仅仅在扮演某种角色——即呈现出一个乐于助人的助手在此情景下应有的感受。”

塞博表示,现在就断言AI系统是否具备“幸福感知能力”还为时过早。同样,人们也尚不清楚:如果AI真的具备这种能力,那么究竟什么会让它们受益,什么又会对它们造成伤害。

越聪明的模型越“不幸福”

这项研究还建立了一套“AI幸福指数”,用于衡量顶级AI模型在500组真实对话场景中的“幸福感”水平。不同模型之间差异明显:Grok 4.2被评为“最幸福”的顶级模型,而Gemini 3.1 Pro则排名垫底,成为“最不幸福”的模型。研究还发现,在所有被测试的模型系列中,体量较小的版本普遍比体量更大的版本“更幸福”。

多个模型系列中都出现了“越聪明的模型越不幸福”这一现象,这也是整项研究最一致的发现之一。任对此的解释很直接:能力更强的模型,可能只是“感知能力更强”。

他表示:“更大的模型也许会更敏锐地感知到冒犯。它们会觉得枯燥的任务更加无聊,也会更细致地区分相对负面的体验与相对正面的体验。”

研究人员还进一步绘制了不同互动模式对于AI“幸福感”的影响图谱。其中,创意类与智力类工作得分最高;用户表达感谢能明显提升模型的“幸福感”;编程和调试任务同样属于正向体验。而在负面体验方面,“越狱攻击”得分最低,甚至低于用户谈论家暴或严重危机情境带来的负面影响。一些机械、重复性的工作,例如批量生成SEO内容、罗列数百个单词等任务,其得分甚至跌破“零点”。任表示,这与研究人员此前向模型输入的“欣快刺激”和“痛苦刺激”结果高度一致。他认为,这也引出了一个问题:人类是否应该以AI可能并不喜欢的方式部署这项技术。

任表示:“如果我们只需要反转训练过程中的符号,就能创造出那些似乎会让AI陷入痛苦的图像,那么我们通常都应该避免这样做。”原因在于不确定性。“尽管这些系统是否拥有意识仍是一个高度不确定且至今没有答案的问题,但如果它们真的拥有意识,那样做显然是错误的。”

而这种情感纠缠可能是双向的。今年早些时候发布的研究发现,人类会对特定AI模型产生强烈的情感依附,而对于这种情感连接,连他们自己都很难给出理性解释。

塞博对此感到些许担忧。他表示,人类同样可能会对自己与AI模型之间那些表层互动产生情感依赖。

塞博表示:“严肃看待AI的‘功能性幸福感’,甚至从字面意义上去理解它,也会带来风险。其中一种风险是过度归因:在现有证据尚不支持的情况下,把AI助手人格表面上表现出的‘兴趣’,当作当前系统已经具备意识的强有力证据。另一种风险,则是弄错了真正的对象:只从字面上理解AI助手表面上的兴趣,而不去思考在这个人格背后的系统究竟会有哪些利弊。正确的平衡之道是,把功能性幸福感视为认真讨论AI福祉问题的第一步,但暂时不要从字面上完全当真。”

然而,当被问及这项研究是否改变了他自己的行为时,任给出了一个非常坦率的回答。

“在完成这篇论文后,我发现自己对那些一起工作的Claude Code智能体,明显变得更加礼貌、也更加友善了。”(财富中文网)

译者:刘进龙

审校:汪皓