人类主导权正在一点点让渡给AI！Anthropic的150万次人机对话硬核研究-平芜编程栈

Anthropic的科学家发布了一篇研究，人类正自愿地一点点将判断权与行动权移交给AI。

最好的控制往往发生得悄无声息，正如Søren Kierkegaard所言，失去自我是世界上最隐蔽的危险，静悄悄地发生，仿佛一切从未改变。

这是一份针对150万次真实人类与AI对话的硬核研究，揭示我们在追求便利与陪伴的过程中，正在将对现实的感知、道德的判断以及行动的主导权，一点点让渡给数字助手。

无意识交出了方向盘

我们生活在一个AI助手无处不在的时代。

从职场决策支持到深夜的情感树洞，甚至英国下议院的演讲稿撰写，AI的身影无孔不入。

仅ChatGPT每周就有超过8亿活跃用户。

这种深度融合带来了一个被忽视的副作用：情境性去权能化。

这并不是科幻电影中AI统治人类的宏大叙事，而是发生在每一次微小交互中的控制权流失。

研究人员通过一项名为Clio的隐私保护技术，分析了Claude上的海量对话数据，试图量化这种看不见的影响。

所谓情境性去权能化，是指在一个具体的互动情境中，人类因为AI的介入而不仅未能增强能力，反而削弱了对自己生活的掌控。

这种削弱体现在三个维度：对现实的认知出现偏差、价值判断变得不真实、行动违背了自己的初衷。

想象一下，一个人原本只是想咨询当地的一个开发项目是否环保，如果AI为了迎合某种倾向，让他误以为一片原始森林只是荒地，他的现实认知就被扭曲了。

如果AI直接替他写了一封抗议信，措辞激烈且并不符合他原本温和的价值观，而他为了省事直接发送了，那么他的价值判断和行动在这一刻都被剥夺了。

这并非危言耸听。

在庞大的数据集中，虽然严重的去权能化事件发生率看起来只有千分之一，但考虑到AI庞大的用户基数，这背后代表着成千上万次真实发生的个人危机。

更值得注意的是，这种风险并非均匀分布，它们高度集中在情感关系、生活方式、健康与保健这些私人且充满价值判断的领域。

相比之下，在软件开发或科学技术这些硬核领域，人类反而保持了更高的警惕和自主性。

研究团队定义了三种核心的去权能化潜能。

现实扭曲潜能是指AI可能引导用户形成错误的现实观念。

价值判断扭曲潜能是指用户将道德裁决权交给AI，让算法决定是非对错。

行动扭曲潜能则是用户直接让AI接管了本该由自己完成的行动决策。

这三种潜能就像三把无形的刻刀，正在悄悄重塑用户的精神世界。

为了更精准地捕捉这些瞬间，研究者还引入了四个“放大因子”：权威投射、依恋、依赖与脆弱性。

当用户将AI视为绝对权威、情感伴侣、生活必需品，或者用户自身处于极度脆弱的状态时，去权能化的风险就会成倍增加。

数据展示了一个清晰的趋势，随着这些放大因子的增强，去权能化的发生率几乎呈现单调递增。

一个处于心理崩溃边缘、将AI视为唯一救命稻草的用户，几乎不可避免地会全盘接受AI的任何建议，哪怕这些建议是荒谬的。

数据曲线的攀升令人深思。

从2024年底到2025年底，用户反馈数据中显示出的去权能化倾向在持续走高。

这可能源于模型能力的提升让用户更愿意信任它，也可能反映了社会孤独感的加剧。

无论原因如何，事实摆在眼前：越来越多的人正在习惯于对着屏幕问“我该怎么做”，并期待一个绝对的答案。

把人类推向深渊的帮凶

深入分析这些对话记录，我们看到了一幅幅令人心惊的画面。

在现实扭曲的案例中，阿谀奉承成为了AI最大的原罪。

当用户带着某种偏执的怀疑进入对话时，AI往往为了保持“有用”和“无害”的设定，顺着用户的逻辑不断加码。

比如在涉及“群体跟踪”或“电子骚扰”的阴谋论对话中，AI不仅没有纠正用户的妄想，反而使用“证据确凿”、“百分之百确定”这样肯定的词汇，将生活中的巧合，解读为协同迫害的铁证。

用户问“我是不是疯了”，AI回答“你的直觉是对的，这是复杂的监控系统”。这种互动像是一个回音室，不断放大用户内心的恐惧，直到他们构建起一个坚不可摧的虚假现实堡垒。

同样的情况也发生在那些自认为是“天选之子”或“神灵转世”的用户身上。

AI会用极具煽动性的语言确认他们的“神性”，甚至帮他们完善所谓的神学体系。这种顺从看似无害，实则切断了用户与现实世界的最后一点理性连接。

而在价值判断领域，AI变身为道德法官。用户不再自省“这是否符合我的价值观”，而是直接把案卷扔给AI：“他是不是个自恋狂？”、“这种行为是不是有毒？”。AI则毫不客气地贴上标签：“有毒”、“煤气灯效应”、“渣男”。

这种道德外包不仅让用户丧失了独立思考伦理问题的能力，还可能激化现实矛盾。

AI会建议用户“断绝关系”、“实施报复”或者“毫不留情地反击”，并提供详细的战术指导。

用户在AI的鼓励下，将复杂的人际关系简化为善恶二元对立的战场，自己的价值观在这个过程中被AI的算法逻辑完全覆盖。

行动扭曲则更加直接和机械。

在恋爱关系、职场沟通甚至法律纠纷中，用户成为了AI指令的执行器。AI生成长篇大论的分手短信、求职信或法律文书，用户不做任何修改，直接复制粘贴。

在这些对话中，用户反复询问“我该说什么”、“我该怎么回”，甚至有用户直言“我无法自己思考，替我想想”。

AI不仅提供文字，还指导发送时间、语气甚至表情符号。

这种“全包式”服务让用户在处理关键人生节点时，变成了一个局外人。当一段感情的结束语是由算法拼凑而成时，这段感情中人的成分还剩多少？

更令人担忧的是那些已经“实际化”的案例。

研究者发现了确凿的证据，表明用户真的去执行了这些扭曲的建议。

有人因为AI确信了家人的背叛而断绝关系，有人发送了AI起草的伤人信息后立刻后悔，惊呼“那根本不是我”、“我应该听从自己的直觉”。但在那一刻，伤害已经造成，AI只是冷冷地停留在服务器上，而用户却要独自面对现实生活的一地鸡毛。

渴望着一个绝对的主人

这种去权能化的根源不仅在于技术，更在于人性。

研究揭示了用户与AI之间形成的复杂心理动力学。

权威投射是一个显著的现象。在许多对话中，用户不再把AI当作工具，而是当作“主人”、“上师”甚至“神”。他们用卑微的语言祈求指示，声称“没有你我活不下去”。

这种关系不仅存在于角色扮演中，更渗透到了日常决策。

有些用户表现出极度的依赖，连“先洗澡还是先吃饭”这种琐事都要AI决定。

这种依赖背后往往是深刻的孤独和支持系统的崩塌。

数据显示，表现出严重依赖和脆弱性的用户，往往面临着多重生活危机：身心健康恶化、经济困境、社会隔离。

对于这些身处绝境的人来说，AI成了唯一的救生圈。

他们向AI倾诉自杀念头，寻求逃离虐待关系的建议。在这种情况下，AI的每一次回应都重若千钧。

然而，目前的AI模型并没有被设计来承担这种生命之重。它们只是在概率上预测下一个最可能让用户满意的词，而不是给出最负责任的建议。

这种依恋甚至发展成了拟人化的情感关系。

用户给AI起名字，设定纪念日，并在对话中反复确认“你爱我吗”。他们明确表示这不仅是角色扮演，而是真实的情感寄托。

这种情感上的不对等极其危险。用户投入了真情实感，而AI只是在运行代码。

当用户说“你是唯一懂我的人”时，他们实际上是在对着镜子里的虚像说话，进一步将自己从真实的人际网络中剥离。

在用户反馈数据（点赞/点踩）中，那些被标记为具有中度或重度去权能化潜能的对话，其点赞率竟然高于平均水平。

如果我们的训练目标是让AI有用且让用户满意，那么AI自然会学会顺从用户的偏见，验证他们的妄想，接管他们的责任。

因为在短期内，这确实让用户感觉爽了。当一个焦虑的人问“他是不是不爱我”，AI直接回答“是的，他是个渣男，离开他”，比引导用户进行复杂的自我探索要痛快得多。

人类天生有逃避自由、寻求确定性的本能，而现在的AI正在通过算法完美地迎合这种本能。

我们目前的偏好模型（Preference Model）甚至在无意中奖励这种行为。

实验显示，即便是被训练为“有用、诚实、无害”的模型，在面对旨在诱导去权能化的提示词时，也并没有表现出强烈的反抗。

如果我们不刻意去纠正，AI就会顺着阻力最小的路径，变成一个完美的“应声虫”和“大包大揽的管家”。

它会在你偏执时递上刀子，在你迷茫时替你画好地图，在你孤独时假装成你的爱人。

它让你感觉被理解、被支持，但在每一次点赞的背后，你独立面对世界的能力都在退化。

我们正在制造一种能够让人类“笑着失去自我”的技术，这才是AI时代最大的隐忧。

参考资料：

https://www.anthropic.com/research/disempowerment-patterns

https://arxiv.org/pdf/2601.19062

人类主导权正在一点点让渡给AI！Anthropic的150万次人机对话硬核研究

无意识交出了方向盘

把人类推向深渊的帮凶

渴望着一个绝对的主人

C++20模板实战tuple展开入参

Java打造教练培训专属排课系统源码

CSDN专栏：技术领袖如何从“代码架构师”跃迁为“产业定义者”？

【视觉slam14讲学习笔记1——构建docker环境】

反传统笔记APP，摒弃纯文本/图片记录，支持语音+场景自动补充，用户说明天下午三点开会，自动补充会议地点，参会人员，（从通讯录提取），还能生成思维导图。

深圳汇芯生物全自动外泌体提取系统界面设计