Transformer 与注意力机制——为什么这个架构改变了一切？

2026年4月28日

阅读需 17 分钟

整理我与 AI 的对话和思考，记录关于大模型、技术变化与智能时代的持续观察与实践。文末用日常语言做整体理解。

这篇文章讲什么

Transformer 是 2017 年 Google 提出的一种神经网络架构（论文标题：「Attention Is All You Need」）。它是当今几乎所有主流大模型的基础——ChatGPT、Claude、Gemini、Llama 都建立在 Transformer 之上。

在 Transformer 出现之前，语言模型主流路线是「一个词一个词顺序处理」（RNN），效率低、记忆短。Transformer 的核心创新叫做 Attention（注意力机制）：让模型在处理任何一个词时，同时参考文本里的所有其他词，从而理解长距离的语义关系。

这个架构上的突破，加上算力和数据的规模化，直接催生了 ChatGPT 这一代 AI 的爆发。理解 Transformer，就理解了为什么现在的 AI 这么强。本篇用类比（维度变化）让这个概念变得直观。

Transformer 之前，语言模型是怎么做的？

主流方案是 RNN（循环神经网络）：像读书一样，一个词一个词顺序处理。

问题：读到后面，早期的信息已经「传递稀释」得差不多了。一篇文章第一段的关键信息，到第十段时模型已经「快忘了」。

更深的问题：顺序处理意味着无法并行——每个词必须等前一个词处理完，GPU 大量算力被白白浪费。

Transformer 核心是什么？为什么突破了？

核心创新：Attention（注意力）机制——让每个词同时看到所有词。

不再一步步传递信息，而是：对当前这个词，直接计算它和序列里所有词的相关性，然后按相关性加权提取信息。

效果：

长距离依赖大幅缓解：文章开头和结尾的词可以直接关联，距离不再是主要障碍
训练时可完全并行：所有词的 Attention 可同时计算，GPU 利用率大幅提升（推理生成时仍需逐 token，靠 KV cache 复用历史计算）
Scale 有效：模型越大越聪明（RNN 时代收益递减得很快，远不如 Transformer 这样持续受益）

这个框架改变是质变，不只是量变——它解放了深度学习本来就有的能力，让「越大越强」成为可能。

RNN 顺序处理 vs Transformer 全连接

Attention 从一维变成多维了吗？

是个很好的类比。

RNN：一维时间轴，信息按顺序流动。 Transformer：每个词和所有词构成关系矩阵（二维），直接查任意位置。

更进一步——多头 Attention（Multi-Head Attention）是多个矩阵并行：

Head 1 偏向语法关系（主谓宾）
Head 2 偏向语义关系（同义、反义）
Head 3 偏向位置关系（远近）
...
多个视角同时计算，最后合并

注：上述分工只是直觉示意。实际研究（如 BERT 可解释性分析）表明，部分 Head 确实偏好特定模式（指代、句法依存等），但多数 Head 功能是混合的，不存在严格「一个 Head 一个职责」的对应。重要的是「多个 Head 并行带来多视角」这个结构本身。

多头 Attention：并行 + 拼接 + 线性融合

从一维线性流动 → 多维关系图。「体」的比喻也成立：信息有长度（序列）、宽度（词的维度）、深度（多个 Head），是三维的。

注意力相关性是怎么计算的？Q、K、V 是什么？

每个词被映射成三个向量：

Q（Query，我在问什么）：「我在找什么信息」
K（Key，我是什么）：「我能提供什么信息」
V（Value，我的内容）：「我实际的信息内容」

计算流程：

相关性分数 = Q · K（点积）/ √维度
→ softmax 归一化成权重（加起来 = 1）
→ 输出 = 所有词的 V × 对应权重 的加权和

点积为什么能表示相关性：两个向量方向越接近，点积越大 → 相关性越高。就像两个人的喜好方向越接近，他们越「对味」。

为什么除以 √维度：防止点积值太大，导致 softmax 输出分布过于极端（所有权重集中在一个词上），影响梯度流动。

Q/K/V 的变换矩阵：都是训练出来的，不是人工设计的。模型学会了「什么样的问题-键匹配能帮助预测准确」。

Q/K/V 计算流程

权重可以理解为「专业性」吗？

方向对，作为直觉类比可以。（严格说专业性是稳定属性，attention 权重是动态的，每次推理重算。）

Attention 权重 = 当前 token 对其他 token 的「注意程度」。

类比：

有人问「如何优化数据库查询」
技术背景的人 attention 权重高集中在「索引、查询计划」
非技术人注意力可能更多在「数据库是什么」

不同的 Attention Head 会学到不同的关注模式（并非严格分工，前文已说明）。

两种权重区分：

训练权重（参数）：Q/K/V 的变换矩阵，训练后固定
Attention 权重（动态）：每次推理时根据输入实时计算，不存储

Attention 和人类记忆遗忘有关系吗？

方向对，但机制不一样。

人类记忆：时间维度遗忘，复习强化，长时间不用会忘。 Attention：空间维度权重，不是时间遗忘。所有 token 同时在 context 里，没有遗忘——只是有的词被赋予高权重（重要），有的低权重（不相关）。

真正像人类遗忘的是：context 长度限制。超出 200K/1M 的内容会被截断，确实「忘了」。这更像人的工作记忆（短期记忆容量有限），而不是 Attention 机制本身。

深度学习「变深」是力大砖飞吗？

**基本是，**深度（层数多）确实能学到更抽象的特征。粗略趋势：

浅层：偏向局部、表层模式（词形、相邻搭配）
中层：偏向组合特征（短语、句法关系）
深层：偏向高层语义（概念、指代、推理关系）

注：这是平均趋势，不是严格对应。可解释性研究表明各层功能有重叠，且不同模型差异较大。

RNN 时代变深有问题：梯度在沿时间步反向传播时容易指数衰减或爆炸（梯度消失/爆炸），深层难以稳定训练，「能力有但施展不开」。

Transformer 解决了这个：残差连接让梯度跨层稳定流动；attention 则让任意两个 token 直接关联，不再依赖逐步传递。有了这个基础，「变深 + 变宽 + 更多数据」才真正有效——能力空间一直在，Transformer 打开了施展的通道。

梯度是什么？

训练神经网络时，每个权重应该「往哪个方向调、调多少」，这个「调整指令」就是梯度。直觉理解：把训练目标想象成一座山的高度（loss 越低越好），梯度告诉你站在当前位置时，往哪边走下山最快、坡有多陡。

预测错了 → 算出 loss
对每个权重问：「这个权重微调一点，loss 会变多少？」
答案 = 梯度
按梯度反方向更新权重 → 一步步下山

梯度消失就是这个指令在反向传播时被一层一层稀释，传到前面的层时已经接近 0——模型「知道错了，但不知道怎么调」，深层就训不动了。梯度爆炸则相反，指令越传越大，权重剧烈震荡，训练直接发散。

沿时间步反向传播是什么？为什么要这样？

一句话：梯度沿序列从最后一步往前一层层传回去。英文叫 BPTT（Backpropagation Through Time）。

为什么必须从后往前传？

Loss 只能在最后一步算出来（预测 vs 实际）。但要调的是中间所有权重——怎么知道哪个权重该担多少责？数学上靠链式法则：从最后一步开始反推，每一层的梯度依赖后一层已经算好的中间结果。

反过来从前往后算行不行？理论上可以，但每个权重都要重跑一遍 forward，计算量平方级膨胀。反向一次遍历，所有权重的梯度同时算完——这就是为什么必须从后往前。

类比：项目失败追责。从结果往回查——「这一步谁拍板？上一步谁提供的输入？」一路追到源头，比「列出所有可能原因再正向验证一遍」高效得多。

RNN 的「时间步」从哪来？

RNN 处理序列时，把每个 token 当作一个时间步（t=1, t=2, ..., t=n），每一步共享同一组权重。展开来看，序列越长，「层」越多。所以梯度要从 t=n 沿时间链一路传回 t=1。这就是「沿时间步反向传播」。

算法亲缘——动态规划，不是回溯

直觉上「从结果回溯到原因」会让人想到回溯算法，但严格来说不是。回溯是「试错 + 撤销」（像解数独：试一条路，错了就退回来换一条），核心是搜索。

反向传播更接近动态规划：把大问题拆成子问题，复用已经算过的中间结果，自顶向下分解、自底向上汇总。类似 Fibonacci 用 memoization 避免重复计算——每个节点的梯度只算一次，存起来给前面的节点用。

算法	核心动作	与反向传播
回溯	试错 + 撤销	❌ 方向像，机制不同
动态规划	子问题复用	✅ 本质就是
关键路径	DAG 正反两次遍历	✅ 结构同构

一句话：反向传播 = 计算图（DAG）上的 DP，与数据结构课的「关键路径」同构。

为什么 BPTT 在 RNN 上特别容易爆雷？

链上每一步都要乘一次权重矩阵，n 步就是 n 次连续矩阵乘法：

权重特征值 < 1 → 连乘指数衰减 → 梯度消失（前面的层收不到有效信号）
权重特征值 > 1 → 连乘指数增长 → 梯度爆炸（更新幅度失控）

序列越长越严重。LSTM/GRU 用门控（gating）部分缓解，但没根治。Transformer 干脆抛弃时间链——任意两个 token 通过 attention 直接相连，梯度路径只过常数层数，问题大幅减轻。这也是「Transformer 解放了变深」的真正原因。

这就像一个人接一个人传话再回话，极易出问题。但两个人之间对话，效果就好很多。

BPTT：n 次连乘导致梯度消失或爆炸

所有大模型都用 Transformer 吗？它们在哪里分叉？

主流是，但开始有替代方案：

Transformer 架构家族：标准 / MoE / 次二次 / 多模态

方向	代表	核心改变
标准（密集）Transformer	Llama 系列、早期 GPT、早期 Claude	经典，成熟
Mixture of Experts	Mixtral、Qwen3 MoE	稀疏激活，省计算
次二次复杂度序列模型	Mamba（SSM）、RWKV（线性注意力 RNN）	替代 Attention，复杂度近 O(n)，超长序列更高效
多模态扩展	GPT-4o、Gemini	Transformer + 图像/音频编码器

注：GPT-4、Claude、Gemini 等闭源模型的具体架构未公开，业内普遍推测部分已采用 MoE，但不确定。

主要分叉点有两个：

序列长度的代价：Attention 复杂度是 O(n²)（序列翻倍，计算量翻 4 倍），超长序列非常贵。Mamba、各种线性注意力是直接奔着这个去的。
模型规模的代价：模型继续变大时如何让计算成本可控。MoE 通过「稀疏激活」（参数很多但单次推理只激活一部分专家）解决这个，并不是冲着 O(n²) 去的。

哲学核心（大规模预训练 + Attention 或其等价物）基本一致，工程细节分叉。

用「把文字变成向量再做计算」还有哪些应用？

「把任意信息压缩到统一的向量空间，用距离衡量关系」是整个 AI 生态的底层思想。

领域	输入	向量用途
跨语言搜索（CLIP）	文字/图片	同一空间匹配，跨模态
人脸识别	人脸图片	向量距离判断是否同一人
推荐系统	用户行为、商品	用户向量 × 商品向量 = 相关性
代码搜索	自然语言	语义搜代码，不靠关键词
音频识别	音频频谱	向量化后解码成文字
药物发现	化学结构	向量相似 = 功能相似

有一种直觉上的理解方式：「转了一下方向，以相同角度去看所有东西，从而找出它们之间的关系」（线性代数）。这个直觉是准确的。严格来说，embedding 是「弯曲+旋转+压缩」的组合变换（涉及非线性），但目标一样：让语义相近的东西在新的坐标系里靠近，不相关的分开。

语音模型参数越多，识别精度越高吗？

**对，**参数多的语音模型能做到的是：

识别更多口音、方言
在噪音环境下仍能准确识别
理解模糊、快速的发音

类比：见过更多种说话方式，猜测（模式匹配）能力更强。

大模型之前的语音方案（HMM+GMM 等传统统计方法，主导期约为 1980s–2010s 早期）：手工提取声学特征，规则拼接，需要大量标注数据，换个语言/口音就得重头来。Whisper（OpenAI，2022，基于 Transformer，支持约 99 种语言转录）一个模型就能处理多语言、噪音、口音、快语速——这背后是「参数多 + 数据大（68 万小时弱监督音频）+ 好架构」共同作用的结果。

注：Whisper 的强能力主要来自大规模弱监督训练，严格来说和「涌现」不完全等价；但「规模化解决了过去靠规则解决不了的问题」这个观察是成立的。

核心要点

RNN 的问题：顺序处理，早期信息被逐步稀释；无法并行，GPU 浪费；梯度消失，变深无效
Transformer 的突破：Attention 让每个词直接看所有词，复杂度 O(n²)，但大幅缓解了长距离依赖问题，并让训练可完全并行
Q / K / V：Query（我在找什么）× Key（你是什么）= 相关性分数；相关性加权 × Value（你的内容）= 输出
点积为什么能表示相关性：两个向量方向越接近，点积越大；除以 √维度防止 softmax 过度极化
多头 Attention：多个 Head 并行，倾向不同关注模式（粗略说语法 / 语义 / 位置，但实际功能多有重叠），最后合并
两种权重区分：训练权重（Q/K/V 变换矩阵，训练后固定）vs Attention 权重（每次推理动态计算，不存储）
Context 截断 ≠ 遗忘：Attention 里所有 token 同时存在，无时间衰减；真正的「遗忘」是超出 context 长度被截断
梯度消失的解决：残差连接让梯度稳定流过深层；Transformer 打通了「变深 + 变宽 + 更多数据」的通道
Scale 有效：RNN 时代变大不一定变强；Transformer 解放了这个空间，「越大越聪明」成为规律

Transformer 的价值不只是解决了一个技术问题，它证明了「让信息流动方式变对，能力就会涌现」。这个思路影响了之后几乎所有 AI 架构的设计方向。

日常总结

注意力是更接近「理解」的方式

人读一句话，从来不是一个字一个字往下顺。读到「他把钥匙落在车里了」时，「他」「钥匙」「车」三者的关系是同时建立的，不需要先记住前半句再去对后半句。注意力机制做的就是这件事——把人本来就在用的理解方式，写进了模型的架构里。

RNN 像是逼着模型「从头读到尾，边读边忘」，Transformer 则是「全文摊开，谁和谁有关系直接连线」。这不是更聪明的算法，而是更贴近理解本身的结构。所以它在长文本、跨段呼应、隐含逻辑这些任务上突然变强，不是巧合——是终于让模型用对了方法。

多个视角同时看，不是看得更细

多头注意力听起来像是「看得更仔细」，其实是「同时用多种眼光看」。一个头盯语法，一个头盯语义，一个头盯位置远近，最后再合起来。

人也这样。读一首诗，音律、意象、典故是同时感受的，不是先读完一遍抓字面，再读一遍找美感。所谓理解力强，往往不是想得更深，而是同一时刻能从更多角度看同一个东西。多头注意力的设计思路，和这种「多角度并行」的直觉是相通的。

并行能跑才接得住，架构决定能跑多远

Transformer 有一件事经常被忽略：它能让所有词同时计算，不像 RNN 必须排队等。GPU 的本事就是「同时干很多件事」。RNN 时代在语言任务上，再多卡也用得不充分——任务本身串行，算力发挥不出来。Transformer 来了之后，GPU 在 NLP 上的潜力才被真正榨干。所以这一波 AI 爆发，不只是「有了更好的模型」，而是「模型终于能配得上手里的算力」。

可以这样想：数据是原料，算力是燃料，架构是发动机。原料再多、燃料再足，发动机结构不对，能跑出来的速度就是有上限的。Transformer 出现之前，「让模型变大」这条路收益递减得很快——变大不一定变强。Transformer 把这条路打通了，「越大越聪明」才从猜想变成规律（也就是后来说的 scaling laws）。

AI 这几年的爆发，不只是「数据多了、算力强了」，而是「正好有一种架构，让前两者的潜力释放出来了」。三件事缺一不可，而架构是最容易被忽略的那一个。

向量化是 AI 的通用语言

把文字、图片、声音、化学结构都压成一串数字，再用距离衡量它们之间的关系——这件事看起来抽象，但是 AI 这一代真正的底层共识。一旦所有东西都进了同一个空间，跨模态搜索、推荐、识别、配对就都变成同一个问题：找距离近的。

这有点像人脑的工作方式。我们记一个人的脸、一段旋律、一种气味，存的也不是原始像素或波形，而是某种「特征」。等下次遇到时，靠相似度去对上号。AI 把这个过程明确化、数字化了。Transformer 强在「在这个空间里建立关系」，而向量化提供了「让所有东西都能进这个空间」的入口。两件事合在一起，才有今天 AI 的通用感。

没有免费午餐

注意力虽好，代价是 O(n²)——序列翻倍，计算翻四倍。所以处理长文档、长视频、整本书时，成本会爆炸式增长。这不是工程问题，是机制本身的边界。

Mamba 想直接换掉 attention，线性 / 滑窗注意力想把 O(n²) 降到接近 O(n)；MoE 则从另一个方向——参数继续变大但单次推理只激活一部分。这些尝试都说明：Transformer 不是终点，只是目前性价比最好的方案。理解一项技术，既要看清它解决了什么，也要知道它没解决什么——下一个突破，往往就藏在它的代价里。

感谢阅读。如果觉得不错，随手点赞、在看、关注三连吧~

这篇文章讲什么​

Transformer 之前，语言模型是怎么做的？​

Transformer 核心是什么？为什么突破了？​

Attention 从一维变成多维了吗？​

注意力相关性是怎么计算的？Q、K、V 是什么？​

权重可以理解为「专业性」吗？​

Attention 和人类记忆遗忘有关系吗？​

深度学习「变深」是力大砖飞吗？​

梯度是什么？​

沿时间步反向传播是什么？为什么要这样？​

为什么必须从后往前传？​

RNN 的「时间步」从哪来？​

算法亲缘——动态规划，不是回溯​

为什么 BPTT 在 RNN 上特别容易爆雷？​

所有大模型都用 Transformer 吗？它们在哪里分叉？​

用「把文字变成向量再做计算」还有哪些应用？​

语音模型参数越多，识别精度越高吗？​

核心要点​

日常总结​

注意力是更接近「理解」的方式​

多个视角同时看，不是看得更细​

并行能跑才接得住，架构决定能跑多远​

向量化是 AI 的通用语言​

没有免费午餐​