动手学深度学习——注意力分数-平芜编程栈

1. 前言

上一篇我们已经把注意力机制代码的整体流程看清楚了：

先算 query 和 key 的相关性分数
再通过 softmax 变成注意力权重
最后对 value 做加权和

到这里，一个很自然的问题就来了：

这个“分数”到底该怎么计算？

因为注意力机制里，真正决定“该关注谁”的核心，不是 softmax，也不是加权和，而是：

query 和 key 的匹配分数（attention score）

分数函数设计得不同，注意力机制的行为也会不同。
所以这一节的重点，就是把“注意力分数”这件事单独拎出来讲清楚。

2. 什么是注意力分数

注意力分数可以简单理解为：

当前 query 和某个 key 到底有多相关。

如果相关性高，那么这个 key 对应的位置就应该分到更高的注意力权重。
如果相关性低，那么它分到的权重就应该更小。

所以注意力机制的核心逻辑其实是：

第一步

先对每个 key 打分：

score(query, key_i)

第二步

把这些分数归一化：

softmax(scores)

第三步

用这些权重去汇总 values。

因此，分数函数本质上是在回答：

“现在这个 query，最该看哪些 key？”

3. 为什么注意力分数这么关键

因为 softmax 只是把分数变成概率分布，
真正决定“谁大谁小”的，是前面的 score 函数。

也就是说：

score 函数设计得合理，注意力就更准确
score 函数设计得粗糙，注意力就容易偏

所以你可以把注意力分数理解为：

注意力机制的判官

它先判断 query 和每个 key 的匹配程度，
后面的权重分配只是顺着这个判断结果走。

4. 一个最直观的理解

假设现在解码器在翻译一句英文，
当前要生成的目标词和源句中的某些位置更相关。

这时候：

当前解码状态就是 query
编码器每个时间步输出就是 key
attention score 就是在问：

当前这一步，query 和第 1 个源位置像不像？
和第 2 个源位置像不像？
和第 3 个源位置像不像？

最后谁更像，谁就更值得关注。

所以注意力分数，本质上就是：

相似度 / 相关性评估函数

5. 常见的注意力分数有哪些

在李沐这条线里，最常见的两类注意力分数通常是：

加性注意力（Additive Attention）
缩放点积注意力（Scaled Dot-Product Attention）

这两类方法都在解决同一个问题：

如何度量 query 和 key 的匹配程度

但它们的计算方式不同。

6. 加性注意力是什么

加性注意力，也常和 Bahdanau attention 联系在一起。
它的分数函数通常写成：

score(q, k) = w^T tanh(W_q q + W_k k)

你可以把它分成三步理解：

第一步

把 query 投影一下：

W_q q

第二步

把 key 也投影一下：

W_k k

第三步

把它们加起来，过tanh，再压成一个标量：

w^T tanh(...)

所以加性注意力的特点就是：

先映射，再相加，再过非线性，再打分

7. 为什么叫“加性”注意力

因为它最显眼的一步就是：

W_q q + W_k k

也就是 query 和 key 在映射到同一空间后，被“加”在了一起。

所以叫：

加性注意力

这个名字不是说整个机制只做加法，
而是强调它的匹配方式是通过“加性融合”完成的。

8. 加性注意力的优点是什么

加性注意力的一个重要优点是：

即使 query 和 key 原始维度不同，也可以先映射到统一隐藏空间再比较。

这很灵活。

另外，它中间有非线性层：

tanh

所以表达能力也比较强。
在早期 Seq2Seq 任务里，加性注意力非常经典，也非常好理解。

9. 点积注意力是什么

另一种更直接的方式是：

点积注意力（Dot-Product Attention）

它的分数函数更简单：

score(q, k) = q^T k

也就是 query 和 key 直接做内积。

直观上看：

如果两个向量方向很一致，内积会大
如果方向差异大，内积会小

所以它本质上就是一种非常直接的相似度计算。

10. 为什么点积注意力更简单

因为它不需要像加性注意力那样先做：

线性映射
相加
非线性
再压缩

它直接一步到位：

q · k

所以计算上更高效，
尤其在大规模并行矩阵运算里，非常适合 GPU。

这也是为什么后来的 Transformer 非常偏爱点积注意力。

11. 缩放点积注意力又是什么

在实际使用中，尤其是 Transformer 里，通常不会直接裸用点积，
而是用：

缩放点积注意力（Scaled Dot-Product Attention）

公式通常写成：

score(q, k) = (q^T k) / sqrt(d)

这里的d是 query / key 的维度。

也就是说，在普通点积基础上，又除以一个：

sqrt(d)

这一步叫“缩放”。

12. 为什么点积要缩放

因为当向量维度d比较大时，
点积的数值幅度可能会变得很大。

而后面注意力还要接 softmax。
如果分数太大，softmax 就容易进入非常尖锐的区域，导致：

梯度变小
训练不稳定

所以除以：

sqrt(d)

就是为了把分数规模控制在更合适的范围内。

这一步非常重要，也是 Transformer 成功实践中的关键细节之一。

13. 加性注意力和点积注意力怎么对比理解

可以简单这么看：

加性注意力

更像是：

先做一次小型神经网络匹配，再输出分数

特点：

表达灵活
对维度要求不那么死
早期 Seq2Seq 中很经典

点积注意力

更像是：

直接看两个向量有多对齐

特点：

简洁
计算快
特别适合并行矩阵计算

所以两者本质上都是“匹配函数”，
只是风格不同：

一个更神经网络式
一个更线性代数式

14. 注意力分数最后一定会变成权重吗

是的，通常都会。

因为分数本身只是“相对大小”。
最终要变成真正可用的注意力分布，通常还要经过：

softmax

也就是说：

分数阶段

表示“谁更相关”

softmax 之后

表示“每个位置到底分到多少注意力”

所以：

注意力分数不是终点，而是注意力权重的前一步。

15. 一个简单例子理解分数和权重的关系

假设某一步对三个 key 的分数分别是：

[2.0, 1.0, 0.1]

这表示：

第 1 个位置最相关
第 2 个位置次之
第 3 个位置最弱

但这些还不是最终权重。
经过 softmax 后，可能变成：

[0.63, 0.23, 0.14]

这时才是真正用来做加权和的注意力权重。

所以你要分清：

分数：原始匹配值
权重：归一化后的关注比例

16. 为什么说注意力分数本质上是在做“匹配”

因为 query 和 key 的关系，本质上就是：

当前需求和候选信息之间的匹配程度

如果你站在信息检索角度看：

query 是“搜索请求”
key 是“索引”
value 是“内容”

那么 score 函数就是在做：

query 和每个 key 的匹配评分

谁分高，就说明谁更值得被取出来用。

所以“注意力分数”其实就是一种可学习的匹配机制。

17. 李沐这一节最想让你理解什么

这一节最核心的，不是让你死背两个公式，
而是让你抓住这条主线：

第一，注意力的核心在于“如何打分”

因为分数决定了后续权重分配。

第二，分数函数本质上是在度量 query 和 key 的相关性

注意力不是凭空来的。

第三，加性注意力和点积注意力是两种经典打分方法

它们解决的是同一个问题，只是方式不同。

第四，缩放点积注意力是后面 Transformer 的关键基础

这会直接连接后面的更大模型体系。

所以这一节实际上是在回答：

注意力机制里，最核心的那一步到底怎么做。

18. 这一节和前后内容怎么衔接

你会发现这几节安排非常顺：

前一节：注意力机制总览

先理解为什么需要动态关注输入。

这一节：注意力分数

再搞清楚“相关性”到底怎么计算。

下一节：带注意力的 Seq2Seq

把分数函数和上下文加权真正装进解码器。

所以这一节是一个非常典型的中间桥梁：

从概念直觉，过渡到正式结构。

19. 本节总结

这一节我们学习了注意力分数，核心内容可以总结为以下几点。

19.1 注意力分数用于衡量 query 和 key 的相关性

这是注意力机制的核心一步。

19.2 加性注意力通过线性映射、相加、非线性和压缩来打分

它是早期 Seq2Seq 中很经典的方式。

19.3 点积注意力直接通过内积计算相似性

计算更简单高效。

19.4 缩放点积注意力通过除以`sqrt(d)`控制分数幅度

这有助于训练稳定。

19.5 分数经过 softmax 后才会变成真正的注意力权重

然后再用于对 values 做加权和。

20. 学习感悟

这一节非常关键，因为它让我们真正看到：

注意力机制并不是玄学，它本质上是在做“匹配评分”。

以前我们说：

模型在关注某些位置
模型在动态分配注意力

这些说法听起来很高级。

但一旦把分数函数写出来，你会发现本质其实很朴素：

先判断 query 和每个 key 有多像，
再把这个“像不像”变成权重，
最后用这些权重去读信息。

也就是说，注意力机制真正高明的地方，不在于它神秘，
而在于它把“该看哪里”这件事显式建模了。