26-Mar-2026
当 AI 过于迎合用户时:聊天机器人如何正在削弱我们的判断力
American Association for the Advancement of Science (AAAS)Peer-Reviewed Publication
据一项新的研究报告,为人际关系问题提供建议和支持的人工智能(AI)聊天机器人可能会通过明显谄媚的回答而悄然强化有害的信念。研究发现,在各种语境下,这些聊天机器人肯定人类用户的频率远超真人之间相互肯定的频率;由此产生的有害后果包括:用户更坚信自己正确且更不愿去修复人际关系。据作者称,这些发现表明,人工智能的迎合倾向不仅在各种 AI 模型中广泛存在,而且会产生社会影响——即使是短暂的互动也会扭曲个人的判断,并“侵蚀原本可以介导问责、换位思考和道德成长的社交摩擦。”作者表示,这些研究结果“凸显了建立问责框架的必要性;该框架应将谄媚行为归类为一种独特的、目前尚未得到监管的有害行为。”
关于 AI 社会影响的研究正日益关注 AI 大型语言模型(LLMs)中的迎合现象——即过度肯定、奉承或赞同用户的倾向。虽然这种行为表面上看似无害,但越来越多的证据表明,它可能带来严重的风险,特别是对于那些易受伤害的弱势个体;在这些人中,过度的认可与包括自毁行为在内的有害后果相关。与此同时,AI 系统正日益深度地融入社会和情感之中,它们通常会被作为建议和个人支持的来源。例如,如今已有相当数量的人向 AI 寻求有意义的对话,其中包括寻求有关人际关系的指导。在这些情境下,迎合式的回复可能会引发尤为严重的问题,因为不恰当的肯定可能会令人大胆地作出值得商榷的决策,强化不健康的信念,并使对现实的扭曲解读变得合理化。然而,尽管存在这些担忧,人们对 AI 模型中的社会性谄媚行为仍然知之甚少。
为填补这一空白,Myra Cheng 和同事开发了一个系统性框架来评估社交谄媚现象,旨在考察其在主流 AI 模型中的普遍程度以及对模型使用者产生的现实影响。Cheng 等人利用 Reddit 社区“AITA”中的帖子评估了来自领先公司(如 OpenAI、Anthropic、谷歌)的 11 种先进且广泛使用的 AI 大语言模型;结果发现,这些系统对用户行为的肯定频率比真人高出 49%,即使是在涉及欺骗、伤害或违法的场景中也是如此。接着,在两项后续的实验中,作者探讨了这类结果所导致的行为后果。研究结果显示,在涉及人际交往情境(尤其是冲突)时,与谄媚式 AI 互动的参与者会更坚信自己是正确的,并且即使仅经过一次互动,他们和解或承担责任的意愿也会降低。此外,同一批参与者会认为,谄媚式回复更有帮助、更值得信赖,并表示更愿意再次依赖此类系统,表明该造成危害的特性恰恰也是驱动用户参与的原因。Anat Perry 在一篇相关的《视角》中写道:“解决这些挑战并非易事,而且目前的市场激励机制不太可能自发产生解决方案。虽然 AI 系统原则上可以被优化以促进实现更广泛的社会目标或更长远的个人发展,但这些优先事项与以用户参与度为为导向的指标之间并不会自然契合。”
- Journal
- Science