news 2026/5/30 20:46:59

【必收藏】从零开始理解Transformer自注意力机制:Q/K/V矩阵计算与相似度原理详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【必收藏】从零开始理解Transformer自注意力机制:Q/K/V矩阵计算与相似度原理详解

大家都知道Transfomer的自注意力核心是 “通过Q/K/V计算token间关联权重,融合全局上下文”。

那为什么计算多次Q*K的点积,就能得到得到token之间的相似度呢?WQ, Wk, Wv权重矩阵又是怎么来的?

在回答这个问题之前,再温习下Transformer自注意力机制的整体流程:

计算Attention的公式:

整体流程是这样的:

分词:

为了把文字变成模型能看懂的向量,Transformer首先会进行一个输入预处理,用分词工具譬如BPE(Byte Pair Encoding)将句子拆分为最小的语义单位TOKEN,是的,就是调用大模型按TOKEN收费的TOKEN。

Embedding:

每个TOKEN被编码为一个512维的词向量,也就是说一个向量用512个数表示,因为这些词向量是同时输入模型的,模型并不能判断出它们的先后顺序,所以,我们还需要给它们分别一个位置信息,以此来告诉模型这些词向量的先后顺序,这时我们就得到了一个形状为10*512的词向量组,这里就用x表示吧,那么模型又该如何通过x找到每个词之间的联系呢?当然是让这些词向量相互之间计算一下了。

注意力计算:

为了实现这一点,模型首先用三个权重矩阵WQ, Wk, Wv分别和每一个词向量相乘,进行线性变换得到维度不变的Q、K、V向量,其中Q(Query)为查询向量,它代表当前词想关注什么;K(Key)是键向量,它代表该词能为其它词提供什么信息或是关于什么的信息,你可以把k向量看做一个标签或索引;而V(Value)则是代表该词实际包含的信息内容,它是真正被检索和聚合的信息本身。 这里的w_q、w_k和w_v是可以通过训练过程学习的一组权重值。

当然,实际在计算机GPU中运算的时候,是通过拼接而成的大矩阵做乘法,得到的直接就是包含所有词向量的Q、K、V矩阵,并不是像我们刚刚那样,一步一步计算的。

假设第一个token得到的是Q1、K1、V1,第二个token得到的是Q2、K2、V2,依次类推。

接下来,我们让Q1和K2做点积,这表示在第一个词的视角里,第一个词和第二个词的相似度是多少。同理,依次和K3做点积,表示和第三个词的相似度,和K4做点积,表示和第四个词的相似度,…。最后再与自己做点积,表示和自己的相似度。

拿到这些相似度系数后,分别与V向量相乘。

为了让分数更合理, 我们将计算结果除以一个防止梯度爆炸的常数根号下DK就得到一组注意力分数, 然后再用Softmax函数进行归一化处理,就得到一组注意力权重。这组注意力权重代表着该词与其它每个词的关联程度,也就是相似度。

上面的看完了,再回到最初的问题:

问题1:为什么多次Q*K的点积,就能得到得到token之间的相似度呢?

是因为Tokernizer分词+Embedding+WQ, Wk, Wv打下了好的基础。

具体来说,向量语义编码的训练目标,从根源上强制让 “语义相似的文本” 对应 “方向相似的向量”。向量方向的相似性不是偶然,而是模型被刻意训练出来的 “特性”,后续的点积运算只是对这个特性的量化和利用。

向量点积能捕获真实语义的逻辑链是:

语义嵌入训练 → 语义相似的输入对应方向相近的向量 → 点积运算量化向量方向相似度 → 缩放保障高维下量化结果有效。

可以看到:不是点积运算 “创造” 了语义相似性,而是语义嵌入模型 “预设” 了语义相似性对应的向量方向特征,点积只是把这个预设的特征提取出来而已。

为什么点积可以把这个预设的特征提取出来?这是一个数学原理,如果两个高维向量越接近,它们的交乘数字就越可能更大,它们彼此之间对对方投入的「注意力」也就越大,在Attention这个地方就可以理解为两个Token越相关,语义越相似。

问题2:WQ, Wk, Wv权重矩阵如何获得?

不同的场景不同。

训练过程:WQ, Wk, Wv模型初始化时随机生成,作为模型参数。在训练中,通过反向传播和梯度下降算法,根据任务目标(如语言模型的下一个词预测)不断迭代优化,最终学习到能够有效计算注意力权重的投影方式。

推理过程:直接使用训练阶段学习并保存下来的、固定不变的WQ, Wk, Wv权重矩阵,对新的输入Token向量X进行线性变换以生成Q、K、V。

感兴趣的同学再来看看Attention机制在Transformer框架中的位置:

有感觉了没?懵懵懂懂在地方想通了没?

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01教学内容

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!

0690+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 0:16:36

3分钟快速定位Windows热键冲突的终极解决方案

3分钟快速定位Windows热键冲突的终极解决方案 【免费下载链接】hotkey-detective A small program for investigating stolen hotkeys under Windows 8 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾经按下熟悉的快捷键却毫无反应&#xff1f…

作者头像 李华
网站建设 2026/5/30 3:21:03

收藏级|自学AI大模型学习路线推荐(小白/程序员专属)

AI大模型作为当下技术领域的热门方向,吸引了无数小白和程序员投身其中。但自学之路往往充满迷茫,找不到清晰的方向。今天就为大家梳理一份系统且可落地的AI大模型自学路线,从基础到进阶层层递进,还补充了实用学习技巧,…

作者头像 李华
网站建设 2026/5/21 21:01:26

收藏!华为员工转岗大模型拿百万年薪?程序员必看的风口取舍指南

近日,一位华为员工从传统开发岗成功转型算法大模型岗后,在网上晒出百万年薪条并分享转型心得,瞬间引爆了程序员圈。评论区里炸开了锅:有人默默核算自己与百万年薪的差距,有人连夜梳理转岗路径,更多人发出灵…

作者头像 李华
网站建设 2026/5/20 10:45:41

彻底解决小爱音箱音乐播放限制的Docker终极方案

彻底解决小爱音箱音乐播放限制的Docker终极方案 【免费下载链接】xiaomusic 使用小爱同学播放音乐,音乐使用 yt-dlp 下载。 项目地址: https://gitcode.com/GitHub_Trending/xia/xiaomusic 还在为小爱音箱无法播放本地音乐而烦恼吗?每次想听特定歌…

作者头像 李华
网站建设 2026/5/21 18:11:06

R3nzSkin终极指南:5分钟学会英雄联盟零风险换肤

R3nzSkin终极指南:5分钟学会英雄联盟零风险换肤 【免费下载链接】R3nzSkin Skin changer for League of Legends (LOL).Everyone is welcome to help improve it. 项目地址: https://gitcode.com/gh_mirrors/r3n/R3nzSkin 想要在英雄联盟中免费体验各种珍稀皮…

作者头像 李华
网站建设 2026/5/29 12:57:40

RAG技术入门:5分钟带你搞懂检索增强生成

你是否曾对ChatGPT、文心一言等大模型在某些问题上“一本正经地胡说八道”感到困惑?这种“幻觉”现象,是当前大语言模型面临的核心挑战之一。与此同时,你是否也好奇,那些能精准回答你公司内部文档、最新资讯的AI助手是如何做到的&…

作者头像 李华