news 2026/7/2 4:53:33

Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

paper: https://arxiv.org/pdf/2510.06477
ICLR 2026

一句话概括

这篇论文想说明:LLM 中的 attention sink 和 compression valley 不是两个孤立现象,而是同一个底层机制的两种表现,这个机制就是 residual stream 中某些 token,尤其 BOS token,出现 massive activations。

更直白地说:模型中间层里,某个特殊 token 的激活值突然变得异常大;这个异常大的向量一方面让很多 attention head 把注意力吸过去,形成attention sink,另一方面又让整层 token 表征在奇异值谱上被一个主方向主导,形成表征压缩。论文认为这两件事本质上是同一枚硬币的两面。

它要解决的问题

之前有两个现象一直比较奇怪。

第一个是attention sink:一些 attention head 会把大量注意力放到 BOS、首 token 或其他语义上不太重要的 token 上。看起来很反直觉,因为模型似乎在“浪费注意力”。

第二个是compression valley:LLM 的中间层表征会突然变得很“低维”,也就是高维 hidden states 的有效秩、熵或信息分布明显下降。看起来像模型在中间层把信息压缩了一次。

以前这两个问题大多是分开研究的。本文的核心问题是:它们有没有共同原因?如果有,这个原因能不能被理论证明、被实验验证?论文明确说,此前 attention sink 已经被和 massive activations 联系起来,但 compression valley 还缺少明确因果机制。

关键概念怎么理解

Massive activations:就是 residual stream 中某些 token 的 hidden state 范数特别大,远大于其他 token。论文里特别关注 BOS token,因为很多模型中 BOS token 在中间层会出现极大的 L2 norm。论文报告,在多个模型中,BOS norm 可在中间层上升到普通规模的 (10^3) 到 (10^4) 量级。

Compression valley:论文用 representation matrix 的奇异值分布来度量压缩。把一层里所有 token 的 hidden states 组成矩阵 (X),如果最大奇异值占据了绝大部分能量,那么矩阵虽然形式上是高维的,但实际信息主要集中在少数方向上,熵就会下降,表现为压缩。论文用 matrix-based entropy、anisotropy 等指标衡量这一点。

Attention sink:论文用 sink score / sink rate 衡量某个 token 被多少 attention head 集中关注,重点看 BOS token。它们设定阈值后统计有多少 head 对 BOS 的注意力达到 sink 标准。

核心理论:为什么 massive activation 会导致压缩

论文的理论核心是 Theorem 1:假设 (x_0) 是 BOS token 的表示,(M=|x_0|^2),其他 token 的总能量是 ®,其他 token 与 BOS 的方向对齐程度是 (\alpha),那么表示矩阵 (X) 的最大奇异值满足:

\sigma_1^2 \ge M + \alpha R

这句话的含义是:只要 BOS token 的范数足够大,它就会强行制造出一个主导奇异值。一旦最大奇异值主导整个矩阵,表示矩阵的能量就集中到一个方向,熵下降,有效维度下降,于是出现 compression valley。论文进一步给出了 dominance、anisotropy 和 entropy 的上界/下界关系,说明 norm ratio 越大,压缩越强。([arXiv][1])

这个理论比较重要,因为它不是只说“我们观察到相关”,而是说明:如果一个 token 的激活范数压倒其他 token,那么谱压缩在数学上几乎不可避免。

实验证据

论文在多个 decoder-only LLM 上做了实验,包括 Pythia 410M/6.9B、LLaMA3 8B、Qwen2 7B、Gemma 7B、Bloom 1.7B 等,并提到实验覆盖 410M 到 120B 参数规模。它们在 GSM8K 的 7.5K 训练样本上统计每一层的 normalized entropy、BOS sink rate 和 BOS token norm。结果是三条曲线高度同步:BOS norm 暴涨时,entropy 掉下去,sink rate 接近 1。([arXiv][1])

论文还看了训练过程,发现这三个现象在 Pythia 的训练早期就一起出现,大约在 step 1k 左右形成,并在之后训练中持续存在。这说明它不是推理时偶然出现的小现象,而像是模型训练过程中很早学出来的一种内部结构。([arXiv][1])

更关键的是消融实验。作者在 massive activations 出现的层,把 MLP 对 BOS token 的贡献置零。结果在 LLaMA3 8B 中,原本 entropy 会掉到 0.02 bits,但消融后保持在 0.4–0.5 bits;sink rate 也保持为 0;BOS norm 不再异常放大。这说明 massive activation 不只是和两个现象相关,而是很可能具有因果作用。([arXiv][1])

论文提出的三阶段理论:Mix–Compress–Refine

论文进一步把这个机制上升为一个 LLM 深度计算理论,叫Mix–Compress–Refine

第一阶段是Mix,早期层,大约 0–20% 深度。这一阶段 attention 比较分散,模型做广泛的信息混合,把不同 token 的上下文初步整合起来。([arXiv][1])

第二阶段是Compress,中间层,大约 20–85% 深度。massive activations 出现,BOS token 变成高范数 token,导致 representation compression,同时 attention sink 出现,模型减少继续混合,避免过度平滑或无效混合。论文认为这一阶段不是“坏事”,而可能是在压缩冗余信息、保留高层语义结构。([arXiv][1])

第三阶段是Refine,后期层,大约 85–100% 深度。BOS token 的相对优势下降,其他 token 的 norm 上升,token norm 逐渐均衡;表示重新展开,attention pattern 从 sink 转向 identity head、previous-token head、局部位置型 attention,用于做 token-specific refinement。

它解释了什么实际现象

这篇论文还解释了一个常见矛盾:为什么有些任务中间层效果最好,而生成任务往往需要最后层。

论文发现,embedding / classification / retrieval 这类任务更适合中间层,因为中间层压缩后,高层语义结构更集中,线性探针、聚类、检索可能更容易。论文在 ARC、SST-2、MTEB 等任务上观察到,embedding-style 任务常在 25–75% 相对深度达到峰值,并且比早期/晚期层高 10–20%。([arXiv][1])

generation / next-token prediction不一样。生成需要最后阶段的 token-specific refinement,所以 perplexity 和多选 QA 的 LogitLens 性能通常要到后半段,尤其 Phase 3,才明显提升。也就是说,中间层可能已经有较好的语义表征,但还不够适合直接生成下一个 token。

论文真正成立的贡献

我认为它比较扎实的贡献有三个。

第一,它把attention sink、compression valley、massive activation三个现象放到了同一个机制框架里,而不是孤立解释。这个统一视角有价值。

第二,它对“massive activation 导致 compression”给出了比较清楚的谱分析证明。这个理论部分比单纯画曲线更强。

第三,它做了有针对性的 ablation,说明移除 BOS 上的 massive activation 后,compression 和 sink 都会消失或显著削弱。这让文章从“相关性观察”推进到了“机制性证据”。

需要谨慎的地方

这篇论文很有启发,但不要把它理解成已经完全解释了 LLM 内部计算。它主要研究 decoder-only Transformer,且重点围绕 BOS/special token、residual stream norm、奇异值熵和 attention pattern。不同架构、不同 tokenizer、不同位置编码、不同训练策略下,这套三阶段划分未必完全一致。论文自己也提到 RoPE 模型和非 RoPE 模型在后期 attention pattern 上会有差异。

另外,Mix–Compress–Refine 更像是一个机制假说或解释框架,而不是一个已经能直接提升模型训练/推理效果的算法。它的应用价值可能在后续工作中体现,比如 layer selection、early exit、embedding extraction、模型压缩、activation intervention、attention head 分析等。论文结论也说,它希望帮助连接 head-level mechanisms 和 representation geometry,从而指导更高效、可控的 LLM 设计。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 4:52:02

射频实验室“三件套“到底怎么分工?别再把VNA当频谱仪用

很多刚入行的射频工程师,第一次进实验室面对矢量网络分析仪、频谱分析仪、信号发生器这三台"长得差不多"的大家伙,常常犯迷糊——都是射频测试,凭啥要三台?能不能省一台?答案是不能。三者的测试边界完全不同…

作者头像 李华
网站建设 2026/7/2 4:51:59

深入学习Redis(1):Redis内存模型

Redis是目前最火爆的内存数据库之一,通过在内存中读写数据,大大提高了读写速度,可以说Redis是实现网站高并发不可或缺的一部分。 我们使用Redis时,会接触Redis的5种对象类型(字符串、哈希、列表、集合、有序集合&…

作者头像 李华
网站建设 2026/7/2 4:51:55

[Power节点]原理解析与实际应用

Power节点是Unity ShaderGraph中的核心数学工具,用于计算输入值A的B次幂(即输出OutA^B)。该节点通过指数运算实现非线性变换,能够以指数方式增强或减弱输入值,适用于需要动态调整强度或创建复杂效果的场景。例如&#…

作者头像 李华
网站建设 2026/7/2 4:51:48

JS-前端埋点神器 navigator.sendBeacon 全指南

前端开发中,埋点系统是必不可少的一环。我们经常需要在用户关闭页面、刷新或跳转路由时,向服务器发送最后一条统计数据(比如用户停留时长、页面跳出率)。 但这看似简单的需求,在实现时却危机四伏:请求发不…

作者头像 李华
网站建设 2026/7/2 4:51:08

京东商品详情全自动采集实战|标准化 JD 商品详情接口 + 多 AI Agent 搭建无人化货源分析系统

做京东货源采购、竞品调研、跨平台铺货、自研进销存系统的开发者和运营,都会频繁需要完整商品结构化数据。京东区分自营、工业、医药、全球购多个业务站点,不同站点页面字段展示逻辑存在差异,如果手动打开页面复制标题、售价、尺码规格、主图…

作者头像 李华
网站建设 2026/7/2 4:50:40

VS2022 远程调试 CentOS 进程全指南:轻松附加到运行中的程序

在跨平台开发中,我们经常会遇到这样的场景:程序在本地 Windows 环境下编译,但实际运行和测试环境却在远程的 Linux 服务器(如 CentOS)上。当程序在服务器上出现异常时,如何高效地进行排查?答案是…

作者头像 李华