news 2026/6/3 5:46:26

谷歌新发现:DeepSeek推理分裂出多重人格,左右脑互搏越来越聪明

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
谷歌新发现:DeepSeek推理分裂出多重人格,左右脑互搏越来越聪明

谷歌最新研究表明,DeepSeek-R1这类顶尖推理模型在解题时,内部会自发“分裂”出不同性格的虚拟人格,比如外向的、严谨的、多疑的……

AI变聪明的真相居然是正在“脑内群聊”?!

谷歌最新研究表明,DeepSeek-R1这类顶尖推理模型在解题时,内部会自发“分裂”出不同性格的虚拟人格,比如外向的、严谨的、多疑的……

大模型的解题推理过程,就是这些人格一场精彩的社交、辩论会;左右脑互搏be like:

“这个思路对吗?试试这样验证……”“不对,之前的假设忽略了xx条件”……

有意思的是,AI还越吵越聪明

研究发现,当遇到GPQA graduate-level科学问题、复杂数学推导这类高难度任务时,这种内部观点冲突会变得更加激烈。

相比之下,面对布尔表达式、基础逻辑推理等简单任务,模型的脑内对话会明显减少。

模型推理过程就是“左右脑互搏”

团队通过分析DeepSeek-R1和QwQ-32B等模型的思维轨迹发现,它们的推理过程充满了对话感。

内部分裂出来的虚拟角色不仅性格迥异,还能覆盖更多解题角度。

创意型角色擅长提出新颖思路,批判型角色专注挑错补漏,执行型角色负责落地验证……

通过这些人格的一场交流,不同观点的碰撞能让模型更全面地审视解决方案。

就连网友都说,自己在思考的时候,也会“左右脑互搏”。

不过,这种多角色互动并不是开发人员刻意设计的,而是模型在追求推理准确率的过程中自发形成的。

那么实验是如何证明这一点的呢?

团队借助稀疏自编码器SAE,对AI的推理黑盒进行了深度解码,成功“监听”到了AI的脑内群聊。

首先,研究者让AI执行复杂的数学或逻辑推理任务。在模型产出思维链的同时,团队同步提取其隐藏层神经元的激活数值。

但此时的数据是由数亿个参数构成的复杂非线性信号,无法直接对应任何语义。

将这些激活数据输入SAE,通过SAE的稀疏约束机制,就可以把杂乱的激活拆解为“自问自答”、“切换视角”等独立的对话语义特征;

通过分析这些特征的激活频率以及它们在时间序列上的协同关系,团队成功识别出了不同的内部逻辑实体。

再给上述特征打上“规划者”、“验证者”等虚拟角色的标签,就成功解码了AI内部的多角色对话行为。

“哦!”能让推理更准确

通过对比DeepSeek-R1与DeepSeek-V3、Qwen-2.5-32B-IT这类普通指令模型的推理轨迹,发现推理模型的对话式行为出现的频率显著更高

这里还有个很有意思的发现——

“哦!”能让推理更准确。

当团队通过激活添加法强化模型的对话特征,放大“哦!”这类表达惊讶、转折的话语标记时,模型在Countdown算术推理任务中的准确率直接从27.1%翻倍至54.8%。

更关键的实验证据来自强化学习训练。

研究人员不提供任何对话结构的训练信号,只奖励模型答对题目的行为,结果发现模型会自发学会用对话式思考;而先通过多智能体对话数据对模型进行微调,再进行推理训练,进步速度会远快于直接训练推理或用独白式推理数据微调的模型。

在Qwen-2.5-3B和Llama-3.2-3B两个模型体系中,早期训练阶段对话微调模型的准确率比独白微调模型高出10%以上,Llama-3.2-3B到训练后期差距甚至扩大到22%。

这一发现恰好呼应了人类演化生物学中的著名理论社会脑假说

假说认为人类大脑的进化主要是为了应对复杂的社交关系和群体互动需求。

如今看来,AI也是一样,为了变聪明,得先会和不同“人格”社交!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/20 16:25:42

AI 原生应用开源开发者沙龙·广州站精彩回顾 PPT 下载

作者:盈楹 近日,AI 原生应用开源开发者沙龙广州站圆满落幕。本场活动吸引了 140 名技术从业者深度参与,聚焦 AI 原生应用架构领域的开源技术与落地实践,围绕 AgentScope Java 1.0 发布、HiMarket、AgentRun、LoongSuite、RocketM…

作者头像 李华
网站建设 2026/6/2 11:17:41

(模型量化学习)基础准备

1.FLOPS(大写)和TOPSFLOPS指的是一秒钟可以处理的浮动小数点运算次数,而TOPS是一秒钟可以处理了的整形运算次数的能力,衡量计算机硬件性能,计算能力的一个单位。注意FLOPS与FLOPs不同,FLOPs是衡量模型大小的一个指标。…

作者头像 李华
网站建设 2026/5/29 3:32:58

巴菲特的市场周期理解

巴菲特的市场周期理解 关键词:巴菲特、市场周期、价值投资、市场波动、长期投资、风险评估、投资策略 摘要:本文深入探讨了巴菲特对市场周期的理解。从背景介绍入手,阐述研究目的、预期读者、文档结构及相关术语。接着剖析核心概念,揭示市场周期与巴菲特投资理念的联系,并…

作者头像 李华
网站建设 2026/5/22 17:08:43

astmd4169振动测试

对于astmd4169标准中的振动测试,最关键的一步是根据你的实际运输方式来确定对应的测试谱和测试时间。标准也提供了多种预设的运输场景方案。astmd4169部分运输振动谱卡车运输谱常见测试时间1小时空运谱常见测试时间2小时铁路运输谱测试时间标准根据流通周期DC确定松…

作者头像 李华
网站建设 2026/5/29 23:41:50

AI与PLUS-InVEST模型的土地利用多情景优化及生态系统服务智能模拟研究

工业革命以来,全球城市化与工业化进程加速,土地资源的高强度开发引发人地关系失衡,水土流失、生物多样性锐减、气候调节功能退化等生态危机频发。传统土地利用规划依赖经验驱动或单一模型模拟,难以精准捕捉人类活动与生态系统的复…

作者头像 李华
网站建设 2026/5/22 19:11:58

PHP 异步与多线程 从 TrueAsync 展望未来

RFC TrueAsync 1.7 讨论中有个问题:这个提议会如何与 PHP 核心未来的变化互动?要设计好语言的长期演进,至少得对 PHP 的发展方向有基本判断。本文试图回答这个问题。 TrueAsync 项目不仅是 PHP 核心的 async 改动,还包括回答以下…

作者头像 李华