阿里巴巴与清华大学联手破解AI的“大脑偏差“-平芜编程栈

这项由阿里巴巴集团旗下Qwen团队与清华大学、南洋理工大学共同完成的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.21906，感兴趣的读者可通过该编号查阅完整论文。

当你和一位聪明的朋友聊天，他思考了很久，最终给你一个答案——但这个答案其实并不是他深思熟虑之后的最佳想法，而是他为了"听起来更得体"而临时换掉的一个更保守的说法。你心里可能会想：他之前想到的那个答案明明更好，为什么要换掉呢？

这恰恰就是当今那些经过大量训练的人工智能大语言模型（比如ChatGPT这类聊天AI）面临的核心困境。研究团队将这个现象称为"对齐税"——AI为了显得更"礼貌"、更"安全"、更"通用"，会在最后一步悄悄修改自己原本更精准的答案。而这篇论文提出的方法，正是要找到AI在"改口"之前那个更聪明的瞬间，直接采用那个时刻的答案。

一、大语言模型的"大脑"是怎么工作的

要理解这项研究，需要先了解一件事：大语言模型不是一步就生成答案的，它的内部有几十甚至上百层"处理关卡"，每一层都会对输入的问题进行加工和精炼，就像一块粗糙的原石依次经过不同工匠的雕琢，最终变成精致的玉器。

研究团队把这个层层加工的过程分成了三个阶段，并给它们起了一个生动的名字：猜测-精炼-扰动（Guess-Refine-Perturb）。

在最初的浅层（大约占整个网络深度的前15%），模型处于一种高度不确定的状态。就像一个人刚刚听到题目的头几秒，大脑飞速转动，产生一个模糊的初步印象。这个阶段的输出非常粗糙，充满噪音，可以理解为"我可能猜测答案是这个方向"的阶段。

随后进入中间的大片区域（约占深度的15%到95%），模型开始扎实地做推理工作。注意力机制不断整合上下文信息，每一层都在朝着更精准的方向稳步推进。就好比工匠一刀一刀地精心雕刻，方向正确，手法稳健，每一步都让作品更接近完美。研究团队发现，在这个阶段，相邻两层输出的"方向"高度一致（余弦相似度维持在0.91到0.97之间），说明模型在沿着一条稳定的语义轨迹前进，没有迷失方向。

然而，在最后几层（大约最后5%的深度），一件奇怪的事情发生了：模型的更新幅度突然增大，而且输出方向发生了明显偏转。用数据来说，在最后一个全注意力层，更新向量的幅度是中间阶段平均水平的2到3倍，而输出与前一层的方向相似度骤降到0.69，远低于中间阶段的水平。这说明最后几层在对精心构建的推理结果做了一次"重新写作"——而这次重写，往往把原本精准的专业词汇换成了更通用、更安全、更"听起来符合期望"的表达。

二、为什么会出现这种"临门一脚的失误"

要理解为什么最后几层会"坏事"，需要了解现代AI训练的另一面。现在的大语言模型不仅要学会"说话"，还要经过大量的"行为矫正"训练，包括基于人类反馈的强化学习（RLHF）、直接偏好优化（DPO）等方法。这些训练的目的是让AI更安全、更有礼貌、更符合人类的普遍期望。

这本来是好事，但它带来了一个副作用。经过这些训练，AI的最后几层会被"校准"为倾向于输出那些"人类普遍喜欢"的回答——频率高的词、安全的表达、通用的说法。当AI在解答一道复杂的物理题或数学竞赛题时，它在中间层已经形成了严谨的推理链条，准备好了"质量守恒定律"这样的精确表达，但最后几层的"礼貌滤镜"可能会把它换成一个更笼统的词，破坏了逻辑链的精密性。

研究团队用一个非常生动的词来描述这种现象：计划与表达之间的权衡（planning-pragmatics tradeoff）。AI内部的"计划"已经推理到位了，但"表达"这一步出了问题。对于日常闲聊或者安全提示来说，这种修正是有益的"护栏"；但对于需要精确逻辑推理的复杂任务来说，这就是一种"税收"——为了让回答更通用而牺牲了准确性。

研究团队还通过数据直接验证了这一点。在对一个名为GPQA Diamond的研究生级科学问答数据集进行测试时，他们分析了Qwen3.5-35B-A3B这个模型生成的20多万个词语，发现有16.2%的词语在最后一层经历了"扰动"——熵值（即不确定程度）不降反升，说明模型在最后一步反而变得更"犹豫"了，这些犹豫最终导致了更平庸的词汇选择。

三、从"信息瓶颈"到最佳停止点：理论为什么支持这个方法

研究团队不仅观察到了现象，还从信息论的角度给出了理论解释。

信息瓶颈原理告诉我们，神经网络的训练过程实际上是在寻找一个平衡点：一方面要压缩输入信息，去掉无关的噪音；另一方面要保留与输出目标相关的有效信息。学习完成之后，这个平衡点被编码进了网络的权重中，在推理时决定了信息流动的方式。

在理想状态下，从某个关键层（称为Vonset）开始，模型对下一个词的预测不确定性（即熵）应该随着层数加深而单调下降，就像一条从模糊逐渐变清晰的焦距调节曲线。然而，当最后几层受到"对齐扰动"的影响时，这条曲线在接近终点时反而出现了一个小小的回弹——就像快要对准焦距的时候，手抖了一下。

这个"手抖之前的最低点"，就是研究团队所说的"熵谷"（Entropy Valley）——它代表了模型在整个推理过程中置信度最高、最确定的那一刻，也是最应该采用模型输出的那一刻。

研究团队进一步把层的选择问题形式化为一个"最优停止问题"（类似于找工作时决定"接受这个offer还是继续等待更好的机会"的那类数学问题），并证明了他们提出的保守向后搜索算法在数学上是最优的：它能够在过滤掉最后几层的"对齐扰动"的同时，把因为提前停止而带来的语义损失控制在最小范围内。

四、"自信解码"方法：如何找到那个最聪明的瞬间

基于以上的发现，研究团队设计了一种叫做"自信解码"（Confident Decoding）的方法。这个方法的核心思想非常直觉：不要总是用最后一层的输出，而是动态地找到那个"最自信的层"来决定每一个词。

具体操作起来，这个方法在每生成一个词之前，会从最后一层开始向前扫描一个固定窗口（默认是10层）。判断标准很简单：当前层的熵值（不确定程度）是否比下一层更低？如果是，就继续向前一层看看；一旦遇到某层的熵值不再比它后面那层更低，就停在这里，用这一层的输出来决定这个词。这就好比你在一排越来越清晰的照片中找到那张最清晰的，然后把焦距定在那里。

需要特别强调的是，这个方法并不跳过或截断神经网络的计算。模型依然完整地运行所有层，KV缓存、注意力机制等一切照常运转。唯一的区别是：最终用哪一层的逻辑单元来决定词汇选择，从"固定用最后一层"变成了"动态选择最自信的层"。

这意味着这个方法可以零成本地插入现有的AI推理系统，不需要重新训练模型，不需要修改模型架构，也几乎不增加内存开销。研究团队甚至在工业级推理引擎vLLM上实现了这个方法，解决了张量并行、连续批处理、CUDA图回放等一系列工程难题，最终将实际延迟增加控制在2%以内。

五、实验结果：数字背后的真实意义

验证一种方法是否真的有效，最有说服力的是在多个不同的测试场景中看到一致的提升。研究团队选择了六个极具挑战性的基准测试，覆盖了科学推理、数学竞赛、长文本理解、代码生成、安全性以及创意写作等不同维度。

在难度最高的科学推理测试GPQA Diamond（研究生级科学问答）上，Qwen3.5-35B-A3B模型从76.3%提升到了82.8%，绝对提升6.5个百分点。在代码生成测试LiveCodeBench v6上，Qwen3.5-27B模型从63.9%一跃提升到73.3%，绝对提升高达9.4个百分点。在被称为"人类最后一次考试"的HLE测试（覆盖各学科极端前沿题目）上，多个模型也有持续的提升。

更重要的是，这种提升不仅出现在一种模型上，而是跨越了六种完全不同架构和规模的模型，包括阿里的Qwen3.5系列、OpenAI的开源模型gpt-oss系列以及谷歌的Gemma-4-31B。无论是稠密模型（每层都激活全部参数）还是混合专家模型（每次只激活一小部分参数），都观察到了类似的规律。

在那些日常性的创意写作任务（WritingBench）和安全性测试（Air-Bench）上，该方法几乎没有带来负面影响，性能变化在统计误差范围内。这验证了研究团队的核心判断：对于那些本来就不存在"对齐扰动"的场景，自信解码会自动回退到使用最后一层，不会"帮倒忙"。

六、基础模型对比揭示的秘密

为了进一步确认"对齐税"确实存在，研究团队做了一个对照实验：把经过对齐训练的指令模型（Instruct版本）和只经过预训练的基础模型（Base版本）进行对比。

结果非常清晰：自信解码对指令模型的平均提升是2.6个百分点，而对基础模型的平均提升只有1.1个百分点。差距不是一点点，而是超过了一倍。更有趣的是，在HLE测试上，标准解码下指令模型（9.2%）表现居然比基础模型（8.0%）还要差，意味着对齐训练本身在最难的题目上反而造成了伤害。但用了自信解码之后，指令模型的成绩回升到11.2%，不仅超过了基础模型，还大幅超越了它自己的标准解码版本。

在词语替换率这个微观指标上也能看到这种差异的印记：指令模型在推理时有12.8%的词语被自信解码识别为"经历了扰动"，而基础模型只有10.4%；在这些被识别出的词语中，约有21%最终被替换为更精准的词汇，这意味着整体词语替换率约为2.6%（指令模型）对比2.36%（基础模型）。这些数字精确地反映了对齐训练在最后几层留下的痕迹。

七、任务越难，效果越惊人

研究团队还做了一个非常有启发性的分层实验：把数学题按照难度分成四个等级，然后对比标准解码和自信解码在不同难度层级的表现差异。

对于最简单的题目（模型本来就能轻松解决的），两种方法的差距很小，自信解码甚至略有下降（约0.1到0.4个百分点），这符合预期——简单题目的推理路径天然就接近"通用表达"，几乎不存在对齐干扰。

但从中等难度开始，差距急剧拉开。在最难的第四级题目上，对于gpt-oss-20b模型，标准解码的准确率仅有1.1%（几乎完全失效），而自信解码将其提升到了23.5%，绝对提升高达22.4个百分点。对于Qwen3.5-35B-A3B模型，最难级别的题目从0.3%提升到了7.5%。

这个规律说明，自信解码的价值与任务难度高度相关：越是需要精密推理链条的任务，最后几层的"对齐扰动"对结果的伤害越大，自信解码能够发挥的价值也就越大。

八、并非万能——方法的局限与适用边界

当然，这项研究同样诚实地记录了方法不奏效的情况。对于Qwen3.5-9B这个较小的模型（只有32层），自信解码在GPQA Diamond上反而带来了轻微下降（从64.6%降到62.1%）。

研究团队分析了背后的原因：较小的模型层数更少，用于精炼推理的"中间走廊"更窄，而且层与层之间存在不同类型的注意力机制交替（线性注意力层与全注意力层交替出现），导致相邻层之间的表示空间本身就存在较大的几何跳变。在这种情况下，"熵谷"信号容易被架构本身的噪音所掩盖，自信解码有时会错误地停在一个尚未完成推理的层上。

这说明自信解码更适合那些：层数较深、同类型层在末尾连续出现、精炼走廊足够宽的模型。对于较小的混合架构模型，这个方法需要更谨慎地应用，甚至需要额外的机制来过滤架构噪音。

九、与已有方法的比较

在学术界，已经有一些类似思路的方法，研究团队也将自信解码与其中最有代表性的两种进行了对比：DoLa（通过对比不同层的预测来减少幻觉）和SLED（通过追踪逻辑单元演化趋势来校正输出）。

结果显示，在同样的混合专家架构上，自信解码的表现明显优于这两种方法。以GPQA Diamond为例，标准解码基线是76.3%，DoLa提升到77.3%，SLED提升到78.8%，而自信解码达到了82.8%。

这种差距有其结构性原因。DoLa和SLED都是基于"对比不同层的差异"来工作的，这要求被对比的层处于相似的几何空间中。然而在混合架构中，不同类型层之间的表示空间本身就存在不连续性，对比信号因此被稀释。自信解码则完全不依赖于层间对比，而是独立评估每一层的绝对置信度，因此对架构异质性更为鲁棒。

说到底，这项研究揭示了一个深刻而实用的道理：AI大脑的"最后发言"并不总是最聪明的发言。就像一个优秀学生在考场上，最初的直觉反应有时比反复修改后的答案更准确一样，大语言模型在完整推理之后但进入最终"礼仪包装"之前的那一刻，往往才是它真正最聪明的时刻。

这项研究的贡献不仅是一个具体的工程技术，更是对当前AI训练范式的一次有价值的审视：我们在让AI更安全、更礼貌的过程中，是否在某些场景下无意中损害了它的推理能力？自信解码提供了一种在不重新训练模型的前提下，至少在推理时弥补这种损害的方式。

对于那些每天使用AI工具的普通人来说，这意味着未来的AI助手在回答复杂问题时可能会更精准，在做数学、写代码、解释科学概念时会减少那种"听起来正确但细节模糊"的回答。对于AI研究人员来说，这项工作指出了一个值得深入探索的方向：未来的训练方法是否可以把"对齐约束"和"核心推理"分开施加在网络的不同部分，从根本上解决这个计划与表达之间的矛盾。

对于有兴趣进一步了解技术细节的读者，可以通过arXiv:2606.21906这个编号找到完整论文，代码也已在GitHub上以QwenLM/Confident-Decoding项目名称开源发布。

---

Q&A

Q1：大语言模型的"对齐税"是什么意思，会带来哪些具体问题？

A：大语言模型在经过安全性和礼貌性训练后，最后几层会倾向于把精准的专业词汇替换为更通用、更保守的表达，这种现象被称为"对齐税"。在日常对话中这是有益的护栏，但在解答复杂的数学、科学或编程问题时，它会破坏推理链条的精密性，导致答案变得模糊或不够准确。研究发现约16%的词语在最后一层经历了这种扰动。

Q2：自信解码（Confident Decoding）需要重新训练AI模型吗，普通用户能用到吗？

A：不需要重新训练任何模型。自信解码是一种纯推理时的方法，完全不改变模型权重，也不截断网络的计算，只是改变了最终采用哪一层的输出来决定词汇选择。由于它已经在vLLM等工业级推理引擎上实现，延迟增加不超过2%，内存开销几乎为零，因此有望直接集成到已有的AI服务中，普通用户无需任何操作就能间接受益。

Q3：自信解码在所有AI模型上都有效吗，有什么限制条件？

A：自信解码并非对所有模型都有效。研究发现它对层数较深（如40层以上）、结构相对均匀的大型模型效果最好；而对于层数较少（如32层）且使用线性注意力与全注意力交替的小型混合架构模型，效果有时反而略有下降。核心原因是较小模型的精炼"走廊"较窄，层间架构差异产生的噪音容易掩盖真正的熵谷信号，导致方法偶尔选错层。

阿里巴巴与清华大学联手破解AI的“大脑偏差“

用6000条数据让AI终端代理超越万亿参数大模型

小程序制作平台有哪些怎么选好用的？

如何在老旧硬件上安装Windows 11：FlyOOBE完整技术指南与实战方案

鸿蒙 ArkTS 实战：Noise Recorder 从状态建模到交互闭环完整解析

MC-038 | 多模型协作：让不同模型各司其职

Java Web应用安全审计实战：从漏洞挖掘到权限提升的完整攻防路径