【学习笔记】Transformer基础概念-平芜编程栈

Transformer每次都听朋友聊到，虽然我目前的研究领域尚未包含这种架构，但是还是学习一下。

Transformer 是一种革命性的神经网络架构。它于2017年由谷歌团队的论文《Attention Is All You Need》提出，最初用于机器翻译，但后来彻底改变了自然语言处理领域，并扩展到图像、音频等多个AI领域。

基础 Transformer：自注意力 + 编码器 - 解码器，并行训练强但 O (n²) 复杂度，代表 GPT-4、LLaMA-2，适配通用 NLP / 多模态。

想象一个老式图书馆（传统的RNN/LSTM模型）：

现在，Transformer 就像一个配备了超级助理团队的现代智能图书馆：

并行处理：拿到整句话后，所有助理同时开始工作。
核心武器：自注意力机制：每个助理负责一个词，但他不只盯着自己这个词，而是会瞬间分析并关注句中所有其他词与“自己”这个词的相关性。例如，在“苹果很好吃”中，负责“苹果”的助理会给予“吃”很高的关注度，从而明白这是可以吃的水果，而不是手机公司。
得出综合理解：每个助理根据全局关注结果，生成一个包含上下文信息的、更丰富的“词义表示”。

Transformer 沿用序列转换任务的编码器 - 解码器框架，核心组件均基于注意力机制与全连接层，无任何循环或卷积操作。

编码器（Encoder）：6 层堆叠结构，每层含 2 个子层 —— 多头自注意力机制（Multi-Head Self-Attention）、逐位置全连接前馈网络（Position-wise Feed-Forward Network）；每层均采用残差连接（Residual Connection）+ 层归一化（Layer Normalization）。
解码器（Decoder）：6 层堆叠结构，在编码器子层基础上新增第 3 个子层 —— 编码器 - 解码器注意力（Encoder-Decoder Attention），同时对解码器的自注意力层进行掩码（Mask）处理，防止未来位置信息泄露，保证自回归生成特性。

基础定义：将查询（Q）、键（K）、值（V）映射为输出，输出是 V 的加权和，权重由 Q 与 K 的兼容性计算得出。
缩放点积注意力（Scaled Dot-Product Attention）：
- 计算逻辑：
- 核心改进：引入dk（dk为 Q/K 维度）缩放因子，解决高维下点积值过大导致 softmax 梯度消失的问题；
- 优势：相比加法注意力，计算更快、空间效率更高（可通过矩阵乘法优化）。
多头注意力（Multi-Head Attention）：
- 操作逻辑：将 Q、K、V 通过学习的线性投影矩阵，分别投影为 h 组低维向量（论文中 h=8，dk=dv=64），每组独立计算缩放点积注意力，最后拼接结果并投影得到最终输出；
- 核心价值：允许模型同时关注不同子空间、不同位置的信息，避免单一注意力头的平均化限制。
三类注意力应用场景：
- 编码器自注意力：Q、K、V 均来自前一层编码器输出，实现编码器内部全局依赖建模；
- 解码器自注意力：Q、K、V 均来自前一层解码器输出，通过掩码限制仅关注当前及之前位置；
- 编码器 - 解码器注意力：Q 来自解码器前一层，K、V 来自编码器输出，实现解码器对输入序列的全局关注（类似传统 Seq2Seq 的注意力机制）。

逐位置前馈网络（FFN）：对每个位置独立执行两次线性变换 + ReLU 激活，公式为，输入输出维度dmodel=512，中间层维度dff=2048；
嵌入层（Embedding）：将输入 / 输出 tokens 映射为dmodel维向量，与预 softmax 线性变换共享权重矩阵，且嵌入向量需乘以根号dmodel 缩放；
位置编码（Positional Encoding）：因模型无时序结构，通过正弦 / 余弦函数注入位置信息。优势：支持外推到训练时未见过的更长序列，性能与可学习位置嵌入接近。

Qwen-Image-2512-ComfyUI文旅宣传应用：景区海报自动生成系统 1. 让景区宣传更高效：AI如何改变文旅内容创作你有没有遇到过这样的情况？旅游旺季临近，宣传物料却还在等设计师加班出图；一个景区有十几个打卡点&#xf…

李华

Z-Image-Turbo支持哪些格式？PNG转换技巧分享 1. Z-Image-Turbo图像生成与输出格式详解阿里通义Z-Image-Turbo WebUI图像快速生成模型，由社区开发者“科哥”基于DiffSynth Studio框架进行二次开发构建，是一款专注于高效、高质量AI图像生成的…

李华

unet image Face Fusion跨域问题解决？CORS配置正确姿势 1. 背景与问题引入在部署基于 unet image Face Fusion 的人脸融合 WebUI 应用时，很多开发者会遇到一个看似简单却极具迷惑性的问题：前端页面能正常加载，但图片上传或融合…

李华

学生党如何跑动GPEN？低配GPU显存优化实战技巧你是不是也遇到过这种情况：看到一个超厉害的人像修复AI模型，兴冲冲下载下来，结果一运行就爆显存，GPU直接卡死？别急，这不怪你电脑不行，…

李华

你想解决的核心问题是：在PyCharm中通过pip安装requests库后，运行代码仍提示ModuleNotFoundError: No module named requests，这是PyCharm新手最常见的环境配置类问题，核心原因是安装的库与运行代码的Python解释器不匹配。文章目录…

李华

Qwen3-1.7B跨境电商应用：多语言商品描述生成 1. Qwen3-1.7B 模型简介 Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型&#…

李华