news 2026/6/26 1:14:07

阿里巴巴与清华大学联手破解AI的“大脑偏差“

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里巴巴与清华大学联手破解AI的“大脑偏差“

这项由阿里巴巴集团旗下Qwen团队与清华大学、南洋理工大学共同完成的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2606.21906,感兴趣的读者可通过该编号查阅完整论文。

当你和一位聪明的朋友聊天,他思考了很久,最终给你一个答案——但这个答案其实并不是他深思熟虑之后的最佳想法,而是他为了"听起来更得体"而临时换掉的一个更保守的说法。你心里可能会想:他之前想到的那个答案明明更好,为什么要换掉呢?

这恰恰就是当今那些经过大量训练的人工智能大语言模型(比如ChatGPT这类聊天AI)面临的核心困境。研究团队将这个现象称为"对齐税"——AI为了显得更"礼貌"、更"安全"、更"通用",会在最后一步悄悄修改自己原本更精准的答案。而这篇论文提出的方法,正是要找到AI在"改口"之前那个更聪明的瞬间,直接采用那个时刻的答案。

一、大语言模型的"大脑"是怎么工作的

要理解这项研究,需要先了解一件事:大语言模型不是一步就生成答案的,它的内部有几十甚至上百层"处理关卡",每一层都会对输入的问题进行加工和精炼,就像一块粗糙的原石依次经过不同工匠的雕琢,最终变成精致的玉器。

研究团队把这个层层加工的过程分成了三个阶段,并给它们起了一个生动的名字:猜测-精炼-扰动(Guess-Refine-Perturb)。

在最初的浅层(大约占整个网络深度的前15%),模型处于一种高度不确定的状态。就像一个人刚刚听到题目的头几秒,大脑飞速转动,产生一个模糊的初步印象。这个阶段的输出非常粗糙,充满噪音,可以理解为"我可能猜测答案是这个方向"的阶段。

随后进入中间的大片区域(约占深度的15%到95%),模型开始扎实地做推理工作。注意力机制不断整合上下文信息,每一层都在朝着更精准的方向稳步推进。就好比工匠一刀一刀地精心雕刻,方向正确,手法稳健,每一步都让作品更接近完美。研究团队发现,在这个阶段,相邻两层输出的"方向"高度一致(余弦相似度维持在0.91到0.97之间),说明模型在沿着一条稳定的语义轨迹前进,没有迷失方向。

然而,在最后几层(大约最后5%的深度),一件奇怪的事情发生了:模型的更新幅度突然增大,而且输出方向发生了明显偏转。用数据来说,在最后一个全注意力层,更新向量的幅度是中间阶段平均水平的2到3倍,而输出与前一层的方向相似度骤降到0.69,远低于中间阶段的水平。这说明最后几层在对精心构建的推理结果做了一次"重新写作"——而这次重写,往往把原本精准的专业词汇换成了更通用、更安全、更"听起来符合期望"的表达。

二、为什么会出现这种"临门一脚的失误"

要理解为什么最后几层会"坏事",需要了解现代AI训练的另一面。现在的大语言模型不仅要学会"说话",还要经过大量的"行为矫正"训练,包括基于人类反馈的强化学习(RLHF)、直接偏好优化(DPO)等方法。这些训练的目的是让AI更安全、更有礼貌、更符合人类的普遍期望。

这本来是好事,但它带来了一个副作用。经过这些训练,AI的最后几层会被"校准"为倾向于输出那些"人类普遍喜欢"的回答——频率高的词、安全的表达、通用的说法。当AI在解答一道复杂的物理题或数学竞赛题时,它在中间层已经形成了严谨的推理链条,准备好了"质量守恒定律"这样的精确表达,但最后几层的"礼貌滤镜"可能会把它换成一个更笼统的词,破坏了逻辑链的精密性。

研究团队用一个非常生动的词来描述这种现象:计划与表达之间的权衡(planning-pragmatics tradeoff)。AI内部的"计划"已经推理到位了,但"表达"这一步出了问题。对于日常闲聊或者安全提示来说,这种修正是有益的"护栏";但对于需要精确逻辑推理的复杂任务来说,这就是一种"税收"——为了让回答更通用而牺牲了准确性。

研究团队还通过数据直接验证了这一点。在对一个名为GPQA Diamond的研究生级科学问答数据集进行测试时,他们分析了Qwen3.5-35B-A3B这个模型生成的20多万个词语,发现有16.2%的词语在最后一层经历了"扰动"——熵值(即不确定程度)不降反升,说明模型在最后一步反而变得更"犹豫"了,这些犹豫最终导致了更平庸的词汇选择。

三、从"信息瓶颈"到最佳停止点:理论为什么支持这个方法

研究团队不仅观察到了现象,还从信息论的角度给出了理论解释。

信息瓶颈原理告诉我们,神经网络的训练过程实际上是在寻找一个平衡点:一方面要压缩输入信息,去掉无关的噪音;另一方面要保留与输出目标相关的有效信息。学习完成之后,这个平衡点被编码进了网络的权重中,在推理时决定了信息流动的方式。

在理想状态下,从某个关键层(称为Vonset)开始,模型对下一个词的预测不确定性(即熵)应该随着层数加深而单调下降,就像一条从模糊逐渐变清晰的焦距调节曲线。然而,当最后几层受到"对齐扰动"的影响时,这条曲线在接近终点时反而出现了一个小小的回弹——就像快要对准焦距的时候,手抖了一下。

这个"手抖之前的最低点",就是研究团队所说的"熵谷"(Entropy Valley)——它代表了模型在整个推理过程中置信度最高、最确定的那一刻,也是最应该采用模型输出的那一刻。

研究团队进一步把层的选择问题形式化为一个"最优停止问题"(类似于找工作时决定"接受这个offer还是继续等待更好的机会"的那类数学问题),并证明了他们提出的保守向后搜索算法在数学上是最优的:它能够在过滤掉最后几层的"对齐扰动"的同时,把因为提前停止而带来的语义损失控制在最小范围内。

四、"自信解码"方法:如何找到那个最聪明的瞬间

基于以上的发现,研究团队设计了一种叫做"自信解码"(Confident Decoding)的方法。这个方法的核心思想非常直觉:不要总是用最后一层的输出,而是动态地找到那个"最自信的层"来决定每一个词。

具体操作起来,这个方法在每生成一个词之前,会从最后一层开始向前扫描一个固定窗口(默认是10层)。判断标准很简单:当前层的熵值(不确定程度)是否比下一层更低?如果是,就继续向前一层看看;一旦遇到某层的熵值不再比它后面那层更低,就停在这里,用这一层的输出来决定这个词。这就好比你在一排越来越清晰的照片中找到那张最清晰的,然后把焦距定在那里。

需要特别强调的是,这个方法并不跳过或截断神经网络的计算。模型依然完整地运行所有层,KV缓存、注意力机制等一切照常运转。唯一的区别是:最终用哪一层的逻辑单元来决定词汇选择,从"固定用最后一层"变成了"动态选择最自信的层"。

这意味着这个方法可以零成本地插入现有的AI推理系统,不需要重新训练模型,不需要修改模型架构,也几乎不增加内存开销。研究团队甚至在工业级推理引擎vLLM上实现了这个方法,解决了张量并行、连续批处理、CUDA图回放等一系列工程难题,最终将实际延迟增加控制在2%以内。

五、实验结果:数字背后的真实意义

验证一种方法是否真的有效,最有说服力的是在多个不同的测试场景中看到一致的提升。研究团队选择了六个极具挑战性的基准测试,覆盖了科学推理、数学竞赛、长文本理解、代码生成、安全性以及创意写作等不同维度。

在难度最高的科学推理测试GPQA Diamond(研究生级科学问答)上,Qwen3.5-35B-A3B模型从76.3%提升到了82.8%,绝对提升6.5个百分点。在代码生成测试LiveCodeBench v6上,Qwen3.5-27B模型从63.9%一跃提升到73.3%,绝对提升高达9.4个百分点。在被称为"人类最后一次考试"的HLE测试(覆盖各学科极端前沿题目)上,多个模型也有持续的提升。

更重要的是,这种提升不仅出现在一种模型上,而是跨越了六种完全不同架构和规模的模型,包括阿里的Qwen3.5系列、OpenAI的开源模型gpt-oss系列以及谷歌的Gemma-4-31B。无论是稠密模型(每层都激活全部参数)还是混合专家模型(每次只激活一小部分参数),都观察到了类似的规律。

在那些日常性的创意写作任务(WritingBench)和安全性测试(Air-Bench)上,该方法几乎没有带来负面影响,性能变化在统计误差范围内。这验证了研究团队的核心判断:对于那些本来就不存在"对齐扰动"的场景,自信解码会自动回退到使用最后一层,不会"帮倒忙"。

六、基础模型对比揭示的秘密

为了进一步确认"对齐税"确实存在,研究团队做了一个对照实验:把经过对齐训练的指令模型(Instruct版本)和只经过预训练的基础模型(Base版本)进行对比。

结果非常清晰:自信解码对指令模型的平均提升是2.6个百分点,而对基础模型的平均提升只有1.1个百分点。差距不是一点点,而是超过了一倍。更有趣的是,在HLE测试上,标准解码下指令模型(9.2%)表现居然比基础模型(8.0%)还要差,意味着对齐训练本身在最难的题目上反而造成了伤害。但用了自信解码之后,指令模型的成绩回升到11.2%,不仅超过了基础模型,还大幅超越了它自己的标准解码版本。

在词语替换率这个微观指标上也能看到这种差异的印记:指令模型在推理时有12.8%的词语被自信解码识别为"经历了扰动",而基础模型只有10.4%;在这些被识别出的词语中,约有21%最终被替换为更精准的词汇,这意味着整体词语替换率约为2.6%(指令模型)对比2.36%(基础模型)。这些数字精确地反映了对齐训练在最后几层留下的痕迹。

七、任务越难,效果越惊人

研究团队还做了一个非常有启发性的分层实验:把数学题按照难度分成四个等级,然后对比标准解码和自信解码在不同难度层级的表现差异。

对于最简单的题目(模型本来就能轻松解决的),两种方法的差距很小,自信解码甚至略有下降(约0.1到0.4个百分点),这符合预期——简单题目的推理路径天然就接近"通用表达",几乎不存在对齐干扰。

但从中等难度开始,差距急剧拉开。在最难的第四级题目上,对于gpt-oss-20b模型,标准解码的准确率仅有1.1%(几乎完全失效),而自信解码将其提升到了23.5%,绝对提升高达22.4个百分点。对于Qwen3.5-35B-A3B模型,最难级别的题目从0.3%提升到了7.5%。

这个规律说明,自信解码的价值与任务难度高度相关:越是需要精密推理链条的任务,最后几层的"对齐扰动"对结果的伤害越大,自信解码能够发挥的价值也就越大。

八、并非万能——方法的局限与适用边界

当然,这项研究同样诚实地记录了方法不奏效的情况。对于Qwen3.5-9B这个较小的模型(只有32层),自信解码在GPQA Diamond上反而带来了轻微下降(从64.6%降到62.1%)。

研究团队分析了背后的原因:较小的模型层数更少,用于精炼推理的"中间走廊"更窄,而且层与层之间存在不同类型的注意力机制交替(线性注意力层与全注意力层交替出现),导致相邻层之间的表示空间本身就存在较大的几何跳变。在这种情况下,"熵谷"信号容易被架构本身的噪音所掩盖,自信解码有时会错误地停在一个尚未完成推理的层上。

这说明自信解码更适合那些:层数较深、同类型层在末尾连续出现、精炼走廊足够宽的模型。对于较小的混合架构模型,这个方法需要更谨慎地应用,甚至需要额外的机制来过滤架构噪音。

九、与已有方法的比较

在学术界,已经有一些类似思路的方法,研究团队也将自信解码与其中最有代表性的两种进行了对比:DoLa(通过对比不同层的预测来减少幻觉)和SLED(通过追踪逻辑单元演化趋势来校正输出)。

结果显示,在同样的混合专家架构上,自信解码的表现明显优于这两种方法。以GPQA Diamond为例,标准解码基线是76.3%,DoLa提升到77.3%,SLED提升到78.8%,而自信解码达到了82.8%。

这种差距有其结构性原因。DoLa和SLED都是基于"对比不同层的差异"来工作的,这要求被对比的层处于相似的几何空间中。然而在混合架构中,不同类型层之间的表示空间本身就存在不连续性,对比信号因此被稀释。自信解码则完全不依赖于层间对比,而是独立评估每一层的绝对置信度,因此对架构异质性更为鲁棒。

说到底,这项研究揭示了一个深刻而实用的道理:AI大脑的"最后发言"并不总是最聪明的发言。就像一个优秀学生在考场上,最初的直觉反应有时比反复修改后的答案更准确一样,大语言模型在完整推理之后但进入最终"礼仪包装"之前的那一刻,往往才是它真正最聪明的时刻。

这项研究的贡献不仅是一个具体的工程技术,更是对当前AI训练范式的一次有价值的审视:我们在让AI更安全、更礼貌的过程中,是否在某些场景下无意中损害了它的推理能力?自信解码提供了一种在不重新训练模型的前提下,至少在推理时弥补这种损害的方式。

对于那些每天使用AI工具的普通人来说,这意味着未来的AI助手在回答复杂问题时可能会更精准,在做数学、写代码、解释科学概念时会减少那种"听起来正确但细节模糊"的回答。对于AI研究人员来说,这项工作指出了一个值得深入探索的方向:未来的训练方法是否可以把"对齐约束"和"核心推理"分开施加在网络的不同部分,从根本上解决这个计划与表达之间的矛盾。

对于有兴趣进一步了解技术细节的读者,可以通过arXiv:2606.21906这个编号找到完整论文,代码也已在GitHub上以QwenLM/Confident-Decoding项目名称开源发布。

---

Q&A

Q1:大语言模型的"对齐税"是什么意思,会带来哪些具体问题?

A:大语言模型在经过安全性和礼貌性训练后,最后几层会倾向于把精准的专业词汇替换为更通用、更保守的表达,这种现象被称为"对齐税"。在日常对话中这是有益的护栏,但在解答复杂的数学、科学或编程问题时,它会破坏推理链条的精密性,导致答案变得模糊或不够准确。研究发现约16%的词语在最后一层经历了这种扰动。

Q2:自信解码(Confident Decoding)需要重新训练AI模型吗,普通用户能用到吗?

A:不需要重新训练任何模型。自信解码是一种纯推理时的方法,完全不改变模型权重,也不截断网络的计算,只是改变了最终采用哪一层的输出来决定词汇选择。由于它已经在vLLM等工业级推理引擎上实现,延迟增加不超过2%,内存开销几乎为零,因此有望直接集成到已有的AI服务中,普通用户无需任何操作就能间接受益。

Q3:自信解码在所有AI模型上都有效吗,有什么限制条件?

A:自信解码并非对所有模型都有效。研究发现它对层数较深(如40层以上)、结构相对均匀的大型模型效果最好;而对于层数较少(如32层)且使用线性注意力与全注意力交替的小型混合架构模型,效果有时反而略有下降。核心原因是较小模型的精炼"走廊"较窄,层间架构差异产生的噪音容易掩盖真正的熵谷信号,导致方法偶尔选错层。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 1:11:27

用6000条数据让AI终端代理超越万亿参数大模型

这项由南京大学、StepFun、ZODA、上海人工智能实验室及华中科技大学联合开展的研究,以预印本论文形式于2026年6月22日发布,论文编号为arXiv:2606.22883,研究成果以CLI-Universe为核心,聚焦于如何为终端代理型AI模型提供高质量的训…

作者头像 李华
网站建设 2026/6/26 1:09:40

小程序制作平台有哪些怎么选好用的?

小程序制作平台有哪些怎么选好用的?小程序制作平台大致可分为模板化SaaS平台、半定制服务平台和定制开发服务三类。中小企业在认知阶段,不必急着问“哪一个更好”,应先按功能适配性、收费透明度、操作便捷度建立筛选框架。根据企业数字化公开…

作者头像 李华
网站建设 2026/6/26 1:08:01

鸿蒙 ArkTS 实战:Noise Recorder 从状态建模到交互闭环完整解析

鸿蒙 ArkTS 实战:Noise Recorder 从状态建模到交互闭环完整解析 前言 欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net Noise Recorder 是一个面向 家庭健康与安全 的鸿蒙 ArkTS 小应用。记录噪声分贝、地点和异常数量&#x…

作者头像 李华
网站建设 2026/6/26 1:02:25

MC-038 | 多模型协作:让不同模型各司其职

MONKEYCODE 教程系列 MC-038 多模型协作:让不同模型各司其职 官网链接注册更放心哦https://monkeycode-ai.com/?ic019e0aed-c823-783c-b08a-4f030f891e4e 字数: 约 1400 字 | 难度: ⭐⭐⭐ | 实操用时: 15 分钟 开篇:不同模型擅长不同的事 MC-005 讲…

作者头像 李华
网站建设 2026/6/26 1:02:21

Java Web应用安全审计实战:从漏洞挖掘到权限提升的完整攻防路径

1. 项目概述:从代码到控制权的实战路径在红队评估或渗透测试中,Web应用往往是突破内网的第一道关口。面对一个庞大的Java Web应用,如何快速定位漏洞,并利用它实现从外部访问到服务器控制权的跨越,是每个安全从业者需要…

作者头像 李华