导图社区 Transformer架构概览
这是一篇关于Transformer架构概览的思维导图,主要内容包括:RNN、CNN的局限,Transformer核心思想,核心组件详解与类比,Transformer整体架构:编码器-解码器,总结与总比喻。
这是一篇关于AI核心知识体系的思维导图,梳理了AI领域的关键知识层级与内容,主要内容包括:范式层,Agent层,增强技术层,模型层,深度学习层,框架与工具层,基础层,核心工具对比速查表。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
Transformer架构概览
RNN、CNN的局限
长距离依赖问题
信息在长距离传递时会逐渐衰减或爆炸
训练效率问题
按时间步顺序处理序列
模型应用场景
针对特点任务设计特点模型
模型规模
参数通常不会超过亿级别
Transformer核心思想
自注意力机制
并行处理:提效+释放智能潜力
对序列中所有位置进行同时计算(矩阵运算),整个序列的处理可以在一次前向传播中完成。通过规模化的数据和算力,释放出前所未有的智能潜力。
超大规模模型成为可能
含义更准确
基于全量上下文的自我解释,序列中每一个元素都与序列中的所有元素进行加权后的关联计算,使元素在上下文中的含义更加准确
无视距离
序列中的任何一个词元(token)都可以直接与序列中所有其他词元(包括其自身)进行计算和关联,无论它们在序列中的距离有多远
位置编码
给出了预训练大模型+下游任务微调/提示的新范式
提供了统一的架构基础,推动AI走向多模态和通用智能。
疑问
Q1:以往的框架是顺序分步计算,效率低,准确性会随上下文长度下降,但是Transformer每个元素均需要与全量元素进行计算,虽然提升了效率和准确性,但是对算力的消耗也是曾几何增长的,如何看待算力的爆炸试增长问题?
单次向前传播的计算量大,但是整体训练出相同精度消耗的总计算量是下降的?
针对性解决方案
算法优化
稀疏注意力
线性注意力
分块与递归
架构创新
混合架构
条件计算
蒸馏与压缩
硬件与系统协同设计
专用硬件
TPU
NVIDIA
分布式
模型并行
层间/张量并行
流水线并行
数据并行
内存优化
梯度检查点
急活重计算
疑问:Q2:如何做到的无视距离?
全链接图解构
自注意力机制的QKV矩阵运算
序列中每个词元的绝对位置
核心组件详解与类比
输入处理:词嵌入 + 位置编码
词嵌入
将单词转换成高维向量
每个单词制作一张多维度的“属性身份证”。这张身份证上编码了该词的语法角色、情感色彩、所属领域等多个维度的信息。相似的词,其身份证的“长相”也相似。
语义相似的词在向量空间中的位置也相近
告知模型每个词在句子中的位置
一组与词嵌入向量维度相同的向量,根据单词在序列中的位置计算得到。然后与词嵌入向量相加,形成同时包含“内容”和“位置”信息的输入
子主题
自注意力机制 团队的“协作与聚焦会议”
创建角色卡(Q, K, V)
查询卡、钥匙卡、价值卡的生成
匹配查询(计算注意力分数)
比对单词的查询卡和钥匙卡,计算相似度
加权汇总(聚合价值信息)
根据权重对所有单词的价值卡进行加权求和
Q会查询所有的K,根据QK的注意力得分,所有V都会响应,但只有部分V的响应权重显著,对结果有实质性影响。
前馈神经网络 个体的“深思与消化”
每个单词的表示向量独立通过全连接前馈神经网络
残差连接与层归一化 “稳定训练的保护伞和校准器”
残差连接
将输入直接加到输出上,公式:输出 = 层处理(输入) + 输入
层归一化
对输出进行标准化,均值为0,方差为1
Transformer整体架构:编码器-解码器
编码器(理解者)
工作
阅读理解输入序列
结构
N个相同的层堆叠,包含多头自注意力和前馈网络,外围有残差连接和层归一化
解码器(生成者)
基于编码器的理解和已生成的部分输出,逐个生成目标序列
N个相同层堆叠,包含带掩码的多头自注意力、交叉注意力和前馈神经网络
总结与总比喻
现代化的“翻译流水线工厂”
预处理车间
为每个输入单词贴上数字ID并标注位置
理解塔(编码器)
多层处理,形成“意义云图”
生成塔(解码器)
基于理解塔的“意义云图”逐词生成翻译结果
Transformer的革命性
全局、并行的自注意力机制
解决长距离依赖问题
高度并行的架构
利用GPU进行大规模高效训练,催生AI大模型时代