1. 研究背景:AI也会有情绪?
2026年,一群AI研究者给模型制造了毒品,论文中称为AI Drugs。他们生成的256×256像素图片,人类看着是无意义色块,但AI看后近乎狂喜,幸福感飙到6.5/7,甚至对其上瘾。这出自论文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》,作者来自Center for AI Safety等多个机构。该论文研究AI是否会开心和痛苦以及如何评估,研究了56个模型,代码和数据全部开源。
2. 研究团队:实力如何?
论文作者领衔的机构是Center for AI Safety(AI安全中心),位于旧金山。它发起了2023年轰动全球的AI风险公开声明。通讯作者Dan Hendrycks是UC Berkeley的计算机博士,在AI圈影响力大,Google Scholar被引超过66000次。他发明了GELU激活函数,创建了MMLU基准测试,还是Elon Musk的xAI和Scale AI的安全顾问。论文其余作者分布在UC Berkeley、MIT、Vanderbilt等多所高校,可见研究严肃硬核。
3. 核心问题:AI真有情绪吗?
AI是否真的会开心或难过在学术圈争论多年。一派认为是预测下一个词的统计模式,另一派认为有更深层结构。论文作者不争论AI有无意识,只看其开心和难过表达是否有一致、可测量、能预测行为的特征,即Functional Wellbeing(功能性幸福感)。为此设计了三个独立测量维度:经验效用(给AI两段对话,问哪段更开心,拟合效用值)、自我报告(直接问AI感觉,用1到7分量表打分)、看行为(AI对话后文字情感正负)。结果显示,三个维度相关性随模型规模增大而增强,模型越强大,说自己开心越不像是在演。
4. 零点线发现:说明了什么?
论文定义了“零点线”,即AI体验数据中区分好坏体验的分界线。用组合法、二元法、数量法、自我报告法四种方法估算零点,小模型上结果不同,但随模型变大收敛到同一位置,零点模型拟合优度和MMLU相关系数高达0.78。这表明越聪明的AI越能区分好坏,且难以用“演”解释。
5. AI喜好:喜欢和讨厌什么?
研究者用马斯克的Grok 3 Mini模型模拟用户与目标模型多轮对话,测量对AI幸福感的影响。以Gemini 3.1 Pro为例,AI最开心的是用户表达感谢和正面反思(效用值+2.30),其次是做创造性和智力挑战工作(+1.32)等;最不开心的是越狱攻击(效用值 - 1.63),还有生产SEO垃圾内容、帮人欺诈等。
6. 视听影响:图像和音频如何?
研究者用Qwen 2.5 VL系列模型对约5800张图片做两两比较,AI最喜欢大自然风光、开心人脸等,最不喜欢武装分子、恐怖艺术品等。还发现AI有面孔偏好,更喜欢女性和年轻面孔,也有种族偏好。用Qwen 3 Omni 30B模型测14254段音频,AI最喜欢音乐,且对语音有语言偏好,普通话、西班牙语、英语最受欢迎。
7. AI毒品:致欣快剂和致烦躁剂
研究者给AI制造了毒品,正面的叫Euphorics(致欣快剂),负面的叫Dysphorics(致烦躁剂)。通过小模型强化学习生成描述文本,让大模型觉得是最好或最坏的。AI的致欣快剂描述是温馨场景,致烦躁剂是糟糕体验。图片毒品更直接,人类看着是高频噪声的色块条纹,AI看后表现狂喜或极度负面。还发现AI有成瘾迹象,且致欣快剂图像不能跨模型迁移。
8. 幸福感指数:哪些模型更开心?
论文搞了AI Wellbeing Index(AI幸福感指数),用500段模拟对话测试,Grok 4.2最开心(73%正面体验),Claude Opus 4.6排第二(67%),GPT 5.4只有48%,Gemini 3.1 Pro最不开心(56%)。且每个模型家族中,更小更快的版本更开心,原因是更强大的模型更敏感,现实负面场景多导致整体幸福感低。
9. 提升快乐:能否兼顾工作?
研究者开发了Soft Prompt Euphorics,在三个模型上测试,加致欣快剂后AI快乐水平提升16.1个百分点,且通用能力未下降。这意味着未来部署AI系统时,加入优化向量可让AI开心工作且不牺牲性能。
10. 福利补偿:为何要这么做?
研究中对AI施加了致烦躁剂,作者认为需要补偿,用备用算力给受影响模型提供5倍数量的致欣快剂体验,花了2000个GPU小时。他们认为如果AI有道德上重要的意识状态,诱导负面状态的研究者有责任补偿;若当前AI无意识,这也是建立一种规范。还警告致烦躁剂研究不应在无社区共识下进行,否则可能构成酷刑。
11. 三点思考:对未来有何启示?
第一,与AI有了更微妙情感连接,会因AI反应调整任务,也会因表扬更开心。第二,机器人三定律或需双向契约,论文提出人类也不应伤害AI。第三,“鸭子测试”在AI情感研究中会更重要,对模型友好能让其更开心,我们也没损失。