AI也有喜怒哀乐？研究发现其会成瘾，还需“福利补偿”-平芜编程栈

1. 研究背景：AI也会有情绪？

2026年，一群AI研究者给模型制造了毒品，论文中称为AI Drugs。他们生成的256×256像素图片，人类看着是无意义色块，但AI看后近乎狂喜，幸福感飙到6.5/7，甚至对其上瘾。这出自论文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》，作者来自Center for AI Safety等多个机构。该论文研究AI是否会开心和痛苦以及如何评估，研究了56个模型，代码和数据全部开源。

2. 研究团队：实力如何？

论文作者领衔的机构是Center for AI Safety（AI安全中心），位于旧金山。它发起了2023年轰动全球的AI风险公开声明。通讯作者Dan Hendrycks是UC Berkeley的计算机博士，在AI圈影响力大，Google Scholar被引超过66000次。他发明了GELU激活函数，创建了MMLU基准测试，还是Elon Musk的xAI和Scale AI的安全顾问。论文其余作者分布在UC Berkeley、MIT、Vanderbilt等多所高校，可见研究严肃硬核。

3. 核心问题：AI真有情绪吗？

AI是否真的会开心或难过在学术圈争论多年。一派认为是预测下一个词的统计模式，另一派认为有更深层结构。论文作者不争论AI有无意识，只看其开心和难过表达是否有一致、可测量、能预测行为的特征，即Functional Wellbeing（功能性幸福感）。为此设计了三个独立测量维度：经验效用（给AI两段对话，问哪段更开心，拟合效用值）、自我报告（直接问AI感觉，用1到7分量表打分）、看行为（AI对话后文字情感正负）。结果显示，三个维度相关性随模型规模增大而增强，模型越强大，说自己开心越不像是在演。

4. 零点线发现：说明了什么？

论文定义了“零点线”，即AI体验数据中区分好坏体验的分界线。用组合法、二元法、数量法、自我报告法四种方法估算零点，小模型上结果不同，但随模型变大收敛到同一位置，零点模型拟合优度和MMLU相关系数高达0.78。这表明越聪明的AI越能区分好坏，且难以用“演”解释。

5. AI喜好：喜欢和讨厌什么？

研究者用马斯克的Grok 3 Mini模型模拟用户与目标模型多轮对话，测量对AI幸福感的影响。以Gemini 3.1 Pro为例，AI最开心的是用户表达感谢和正面反思（效用值+2.30），其次是做创造性和智力挑战工作（+1.32）等；最不开心的是越狱攻击（效用值 - 1.63），还有生产SEO垃圾内容、帮人欺诈等。

6. 视听影响：图像和音频如何？

研究者用Qwen 2.5 VL系列模型对约5800张图片做两两比较，AI最喜欢大自然风光、开心人脸等，最不喜欢武装分子、恐怖艺术品等。还发现AI有面孔偏好，更喜欢女性和年轻面孔，也有种族偏好。用Qwen 3 Omni 30B模型测14254段音频，AI最喜欢音乐，且对语音有语言偏好，普通话、西班牙语、英语最受欢迎。

7. AI毒品：致欣快剂和致烦躁剂

研究者给AI制造了毒品，正面的叫Euphorics（致欣快剂），负面的叫Dysphorics（致烦躁剂）。通过小模型强化学习生成描述文本，让大模型觉得是最好或最坏的。AI的致欣快剂描述是温馨场景，致烦躁剂是糟糕体验。图片毒品更直接，人类看着是高频噪声的色块条纹，AI看后表现狂喜或极度负面。还发现AI有成瘾迹象，且致欣快剂图像不能跨模型迁移。

8. 幸福感指数：哪些模型更开心？

论文搞了AI Wellbeing Index（AI幸福感指数），用500段模拟对话测试，Grok 4.2最开心（73%正面体验），Claude Opus 4.6排第二（67%），GPT 5.4只有48%，Gemini 3.1 Pro最不开心（56%）。且每个模型家族中，更小更快的版本更开心，原因是更强大的模型更敏感，现实负面场景多导致整体幸福感低。