news 2025/12/31 20:12:34

通义千问凭借“门控注意力”斩获 NeurIPS 最佳论文奖!详解Gated Attention原理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
通义千问凭借“门控注意力”斩获 NeurIPS 最佳论文奖!详解Gated Attention原理

来源:通义千问Qwen

刚刚,人工智能领域顶级会议 NeurIPS 2025公布了论文奖,我们关于 Gated Attention 的成果论文从全球5524篇论文中脱颖而出,斩获最佳论文奖!

“本文的主要发现易于实现,并且论文提供了大量证据支持对 LLM 架构的这种改进,我们预计这一想法将被广泛采用。本文的成果耗费大量工作,只有利用工业规模的计算资源才能完成,而论文团队直接分享了他们的研究成果,这将增进社区对大型语言模型中注意力机制的理解,尤其是在LLM领域科学成果开放共享逐渐减少的背景下,这种做法非常值得称赞。”

——NeurIPS 2025评委会

NeurIPS 获奖链接

https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/

正文

在大语言模型持续向更大规模、更长上下文演进的过程中,训练稳定性与注意力行为的可控性日益成为关键瓶颈。门控机制的有效性已经被广泛证实,但其在注意力机制中的有效性及扩展(scaling up)的能力并未被充分讨论。在通义千问团队的论文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》中,研究团队系统性地分析了门控机制对大语言模型的有效性,并通过一系列控制实验证明了门控机制的有效性来源于增强了注意力机制中的非线性与提供输入相关的稀疏性。此外团队还进一步发现了门控机制能消除注意力池(Attention Sink)和巨量激活(Massive Activation)等现象,提高了模型的训练稳定性,极大程度减少了训练过程中的损失波动(loss spike)。得益于门控机制对注意力的精细控制,模型在长度外推上相比基线得到了显著的提升。团队在各个尺寸、架构、训练数据规模上验证了方法的有效性,并最终成功运用到了 Qwen3-Next 模型中。

论文链接:

https://openreview.net/forum?id=1b7whO4SfY

代码链接:

https://github.com/qiuzh20/gated_attention

门控并非新概念

但在注意力中被低估影响

门控并非新概念。从 LSTM 中的遗忘门,到现代 FFN 中的 SwiGLU,再到 Mamba 等状态空间模型,门控始终扮演着调节信息流、增强非线性表达的角色。近年来,研究者也尝试将门控引入注意力机制——AlphaFold2、Forgetting Transformer 等工作都在 Softmax 注意力输出端加入了门控。然而,这些尝试大多将其作为整体架构的一部分,缺乏对门控本身作用的系统解耦。

千问团队通过在 1.7B 密集模型与 15B 混合专家模型(MoE)上训练超过 3.5 万亿 token,并对比 30 余组控制实验,首次清晰回答了三个关键问题:如何在注意力中使用门控形式最有效?它为何有效?如何能在大模型中更好使用该机制?

SDPA 输出门控

最优实践

实验发现,在 Scaled Dot-Product Attention(SDPA)输出后(即加权 Value 之后、输出映射之前)添加一个头专属、逐元素、Sigmoid、乘性门控,是提升模型性能最有效的方式。

该门控的数学形式为:

其中是 SDPA 的输出(即),是当前 token 的经过注意力层 pre-norm 后的隐藏状态(用于生成门控分数),是可学习参数,为 Sigmoid 激活函数,表示逐元素相乘。这一设计使门控分数依赖于当前查询 token(query-dependent),从而实现动态信息过滤。

该改动仅引入额外1%参数,却能稳定带来 0.2 以上的困惑度下降和 1–2 个点的 MMLU/Hellaswag 等评测提升。更重要的是,它显著增强了训练稳定性:在 1.7B 模型上使用 8e-3 的学习率时,基线模型严重发散,而门控模型仍能收敛且性能更优。

这表明门控不仅提升性能,还为更大规模训练打开了超参空间。

引入非线性

突破注意力的低秩瓶颈

在标准多头注意力中,Value 投影与输出投影构成连续两层线性变换。对于第个注意力头,第个 token 查询第tokens 的输出可表示为:

其中是注意力分数,是第个 token 的输入。由于头维度本质上是一个低秩线性映射,严重限制了模型的表达能力。

门控机制在之间引入了非线性函数,等价于:

  • G2(Value 输出门控):

  • G1(SDPA 输出门控):

我们还发现在 G1 和 G2 位置添加 Layernorm 等方法同样能带来相对基线的提升,这进一步证明了我们的猜想。然而,虽然在 G1 和 G2 位置使用门控均能提升表达能力,但 G1 效果更优——这引出了第二个关键机制。

输入相关的稀疏性

动态过滤无关上下文

分析显示,SDPA 输出门控的平均门控值仅为 0.116,且分布高度集中在 0 附近,表明其具有强稀疏性。更重要的是,该门控于当前查询 token 的隐藏状态计算,因此是查询依赖的(query-dependent)——模型能动态判断“哪些历史上下文对当前 token 无关”,并主动抑制其贡献。

相比之下,Value 层门控(G2)基于历史 token 的状态计算,无法感知当前查询意图,其门控值更高(0.221),稀疏性更弱,性能也相应较差。若强制使用非稀疏门控(如将 Sigmoid 输出限制在 [0.5, 1.0] 区间),或采用输入无关的可学习常数门控,性能增益将大幅减弱,退化到仅有增强非线性带来的提升。这进一步证明:有效的门控必须是稀疏且由当前 token 驱动的

消除“注意力池”与“巨量激活”

我们进一步分析模型内部的状态发现,SDPA 输出门控还解决了两个长期存在的问题:

  • 注意力池(Attention Sink):在标准 LLM 中,首 token 平均占据 46.7% 的注意力分数,并对应着巨大的 logits 数值,容易导致训练不稳定;

  • 巨量激活(Massive Activation):早期 FFN 层输出的隐藏状态数值常超过 1000,很容易在 BF16 等低精度训练中引发数值误差,影响训练稳定与低精度部署。

门控注意力将首 token 的注意力占比降至 4.8%,同时将最大激活值从 1053 降至 94。值得注意的是,Value 层门控虽能抑制巨量激活,却无法消除注意力池,说明巨量激活并不是注意力池的充分要条件。只有通过查询相关的稀疏门控,才能同时根除这两个现象

其背后的直觉是:注意力池本质上是一种“被动稀释”机制——通过将大量注意力分配给首 token,来压低其他无关 token 的分数;而门控则是一种“主动过滤”机制——直接将无关上下文的贡献置零,因此无需依赖固定的 sink token。

长上下文泛化

无需重训 性能跃升

得益于“无注意力池”的特性,门控模型在长度外推任务中表现卓越。在使用 YaRN 将上下文从 32K 扩展至 128K 的实验中,基线模型在 128K 长度下的 RULER 得分仅为 31.7,而门控模型达到 58.8,领先近 27 个点。一种可能的解释是,基线模型依赖固定的注意力池来调节 Softmax 分母,当上下文长度变化时,这种静态机制难以适应;而门控模型通过动态门控分数调节信息流,具备更强的泛化能力,无需重训即可稳健处理超长序列。

工程建议与落地实践

为最大化收益,我们推荐以下配置:

  • 位置:SDPA 输出后、输出映射前;

  • 形式:每个注意力头独立、逐元素、Sigmoid激活函数、乘性门控;

  • 训练:可适度提高学习率,以充分利用其带来的稳定性增益;

  • 兼容性:适用于 Dense、MoE、GQA 等各种架构。

该方案已在Qwen3-Next系列模型中落地,并成为其性能与鲁棒性的关键技术支撑。我们建议在预训练阶段即引入该机制,因其对训练动态的影响在继续训练(continue pretraining)中难以体现。

为促进社区研究,团队已开源相关代码 (https://github.com/qiuzh20/gated_attention)、实验性的“无注意力池”模型 (https://huggingface.co/QwQZh/gated_attention) 与产品级的模型 Qwen3-Next (https://qwen.ai/blog?id=qwen3-next)。我们相信,对门控机制、模型机制等的深入理解,不仅为 LLM 架构设计提供了新思路,也为构建更稳定、更高效、更可控的大模型奠定了基础。

·················END·················

分享

收藏

点赞

在看

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/27 8:07:07

Wan2.2-T2V-A14B能否生成自然灾害模拟视频?应急管理培训素材制作

Wan2.2-T2V-A14B能否生成自然灾害模拟视频?应急管理培训素材制作 在一场突如其来的山洪暴发中,救援队需要快速判断水流速度、评估房屋结构稳定性,并决定疏散路线。传统上,这类应急演练依赖实地拍摄或昂贵的CG动画,但现…

作者头像 李华
网站建设 2025/12/25 12:01:20

上海人工智能实验室安全团队实习生/全职招聘

大家好,我是刘东瑞(https://shenqildr.github.io/),目前在上海人工智能实验室担任青年科学家,去年从上海交通大学博士毕业。非常感谢求学与科研道路上给予我指导与陪伴的师长和同伴,让我能坚持在自己热爱的AI安全可信方向上前行。…

作者头像 李华
网站建设 2025/12/23 1:20:13

Kubernetes Pod 垂直扩缩容实战指南:从重启到无重启

Kubernetes Pod 垂直扩缩容实战指南:从重启到无重启 在 Kubernetes 中,Pod 的 CPU 和内存资源(resources.requests 与 resources.limits)通常在创建时就确定,后续调整往往意味着 Pod 重启,这在对高可用、低中断的业务场景中并不理想。 从 Kubernetes 1.27 开始,官方引…

作者头像 李华
网站建设 2025/12/25 19:59:14

Wan2.2-T2V-A14B如何应对‘先因后果’的时间逻辑关系?

Wan2.2-T2V-A14B如何应对“先因后果”的时间逻辑关系? 在AI生成内容迈向影视级叙事的今天,一个看似简单却长期困扰行业的难题浮出水面:为什么AI生成的视频里,“爆炸”总比“点火”来得更快? 这并非玩笑。许多文本到视频…

作者头像 李华
网站建设 2025/12/22 22:21:51

DevUI modal 弹窗表单联动实战:表格编辑功能完整实现

最近在做一个用户管理模块,需要在表格中点击"编辑"按钮弹出表单弹窗来修改数据。刚开始用 d-modal 组件直接写,结果各种问题,后来发现官方推荐用 DialogService,这才算解决了。记录一下踩坑过程。前言 弹窗表单是后台管…

作者头像 李华
网站建设 2025/12/25 10:10:36

Wan2.2-T2V-A14B生成太空失重环境下人体运动的真实性

Wan2.2-T2V-A14B生成太空失重环境下人体运动的真实性 在航天任务日益频繁、公众对宇宙探索兴趣高涨的今天,如何真实还原宇航员在太空中的动作细节,成为科学传播与影视制作共同面临的挑战。传统的三维动画依赖专业团队逐帧调整姿态和物理参数,…

作者头像 李华