导图社区 大模型知识体系
这是一篇关于大模型知识体系的思维导图,主要内容包括:基础概念,技术架构,应用场景,评估指标,训练方法,前沿研究。
编辑于2025-04-02 14:55:43大模型知识体系
基础概念
定义与特征
参数量级
参数数量与模型性能的关系
千亿、万亿参数模型的意义
参数效率:如何在较少参数下实现更好性能
模型压缩:剪枝、量化、知识蒸馏
参数共享:多任务学习、模型融合
高效架构:稀疏激活、低秩分解
涌现能力
涌现能力的类型:
上下文学习:无需微调即可理解和执行新任务
思维链推理:多步推理、逻辑推理、常识推理
代码生成与理解:编写代码、理解代码逻辑
多语言翻译:跨语言理解与生成
涌现能力的解释:
规模效应:参数规模与数据规模的综合作用
表示学习:模型学习到更抽象、更通用的知识表示
相变现象:模型性能随着规模增长发生突变
规模定律
模型设计:根据计算资源和数据量选择合适的模型规模
模型训练:优化训练策略,提高模型性能
模型评估:预测模型在更大规模下的性能
发展历程
Transformer突破
Transformer 架构:
Attention 机制:自注意力、多头注意力
位置编码:处理序列数据的位置信息
残差连接与层归一化:提高模型训练的稳定性
Transformer 的优势:
并行计算:提高训练效率
长距离依赖:捕捉序列中的长距离关联
通用性:适用于多种任务和数据类型
Transformer 的变体:
BERT:双向 Transformer,用于自然语言理解
GPT:单向 Transformer,用于文本生成
T5:统一文本到文本框架,用于多种自然语言处理任务
里程碑模型
GPT 系列:
GPT-1:初步展示了 Transformer 在语言建模上的潜力
GPT-2:展示了大规模语言模型的上下文学习能力
GPT-3:进一步提升了模型规模,展示了惊人的生成能力
GPT-4:多模态模型,具备更强的推理和理解能力
BERT 系列:
BERT:双向 Transformer,在自然语言理解任务上取得突破
RoBERTa:优化了 BERT 的训练方法和数据规模
ALBERT:减少了 BERT 的参数量,提高了参数效率
其他里程碑模型:
T5:统一文本到文本框架,用于多种自然语言处理任务
LaMDA:对话模型,具备更强的对话能力和常识推理能力
PaLM:大规模语言模型,在多项任务上取得领先水平
技术演进树
模型架构的演进:
RNN、LSTM -> Transformer -> Transformer 变体 -> 多模态模型
训练方法的演进:
有监督学习 -> 无监督学习 -> 自监督学习 -> 强化学习
数据规模的演进:
小规模数据集 -> 大规模数据集 -> 网络数据 -> 多模态数据
计算资源的演进:
CPU -> GPU -> TPU -> 分布式训练 -> 混合精度训练
技术架构
架构类型
纯解码器:
定义: 仅包含解码器层的模型,如 GPT 系列。
特点: 擅长文本生成,自回归模型。
应用: 文本生成、对话系统、代码生成。
编码器-解码器:
定义: 包含编码器和解码器两部分的模型,如 Transformer、T5。
特点: 擅长序列到序列任务,如机器翻译、文本摘要。
应用: 机器翻译、文本摘要、问答系统。
混合架构:
定义: 结合编码器和解码器特点的模型,如 BART。
特点: 兼顾文本理解和生成能力。
应用: 文本生成、文本摘要、对话系统。
核心组件
Transformer 模块:
定义: 基于自注意力机制的神经网络模块。
组成: 多头注意力、前馈神经网络、残差连接、层归一化。
作用: 捕捉序列中的长距离依赖,实现并行计算。
注意力机制:
定义: 模拟人类注意力,让模型关注输入序列中的重要部分。
类型: 自注意力、交叉注意力、多头注意力。
自注意力:
计算序列内部的关联
捕捉序列中的长距离依赖
交叉注意力:
计算两个序列之间的关联
用于编码器-解码器架构
多头注意力:
并行计算多个注意力头
捕捉不同子空间的信息
作用: 提高模型对输入序列的理解能力,捕捉序列中的关键信息。
位置编码:
定义: 将序列中的位置信息嵌入到输入向量中。
方法: 正弦余弦函数、学习的位置编码。
作用: 让模型感知序列中单词的顺序,捕捉序列中的时间或空间关系。
应用场景
NLP领域
文本生成
对话系统
信息抽取
多模态应用
图文生成
视频理解
跨模态检索
评估指标
基础能力
语言理解
知识掌握
安全评估
偏见检测
有害内容
价值观对齐
训练方法
预训练阶段:
训练目标:
掩码语言建模 (MLM): 如 BERT,预测被掩盖的词语。
自回归语言建模 (LM): 如 GPT,预测下一个词语。
降噪自编码器 (DAE): 如 BART,重建被损坏的输入。
对比学习 (Contrastive Learning): 学习相似样本的表示,区分不同样本。
多任务学习 (Multi-task Learning): 同时训练多个相关任务,提高模型泛化能力。
数据构建:
大规模文本语料库: 如 Common Crawl、Wikipedia。
代码数据集: 如 GitHub 代码仓库。
多模态数据集: 如图像-文本对、视频-文本对。
数据清洗与预处理: 去除噪声、格式化数据、分词等。
分布式训练:
数据并行: 将数据分发到多个 GPU 上,每个 GPU 训练模型的一个副本。
模型并行: 将模型分发到多个 GPU 上,每个 GPU 训练模型的一部分。
流水线并行: 将模型分层分发到多个 GPU 上,实现流水线式的训练。
混合并行: 结合数据并行、模型并行和流水线并行。
优化器: Adam、AdamW、Adafactor 等。
学习率调度: 线性衰减、余弦衰减、学习率预热等。
微调阶段:
SFT (Supervised Fine-Tuning, 有监督微调):
定义: 在标注数据集上微调预训练模型。
应用: 文本分类、情感分析、问答系统等。
数据集: 标注的文本数据、问答对、对话数据等。
训练方法: 监督学习、交叉熵损失函数。
RLHF (Reinforcement Learning from Human Feedback, 基于人类反馈的强化学习):
定义: 使用人类反馈作为奖励信号,训练模型生成符合人类偏好的文本。
步骤: 收集人类偏好数据、训练奖励模型、使用强化学习优化模型。
应用: 对话系统、文本生成、代码生成等。
算法: PPO (Proximal Policy Optimization)、RAFT (Reward rAnked FineTuning)。
参数高效微调:
LoRA (Low-Rank Adaptation): 冻结预训练模型的参数,只训练低秩矩阵。
Adapter Tuning: 在预训练模型中插入适配器层,只训练适配器层的参数。
Prompt Tuning: 冻结预训练模型的参数,只训练提示语。
Prefix Tuning: 冻结预训练模型的参数,只训练前缀部分的参数。
QLoRA (Quantized LoRA): 在量化模型上应用 LoRA,进一步提高参数效率。
前沿研究
效率优化:
模型压缩:
量化:
训练后量化:在模型训练完成后进行量化。
量化感知训练:在模型训练过程中进行量化。
剪枝:
权重剪枝:删除模型中不重要的权重。
神经元剪枝:删除模型中不重要的神经元。
知识蒸馏:
使用教师模型的 logits 或特征图训练学生模型。
使用对抗训练或强化学习训练学生模型。
推理加速:
硬件加速
使用 TensorRT、TVM 等工具进行硬件加速。
使用稀疏矩阵运算等技术加速推理。
模型编译优化
使用图优化、算子融合等技术优化模型推理代码。
使用自动混合精度等技术加速推理。
推理框架优化
使用 ONNX Runtime、TFLite 等推理框架。
优化框架的内存管理、并行计算等。
模型结构优化: 设计更高效的模型结构,减少推理时间。
能力扩展:
工具使用:
插件系统: 开发插件系统,让模型能够使用外部工具,如搜索引擎、计算器等。
API 调用: 让模型能够调用外部 API,获取外部信息或执行外部操作。
代码解释器: 让模型能够理解和执行代码,增强模型的能力。
自主智能体:
规划与行动:
使用规划算法,如 Monte Carlo Tree Search、A* 搜索等。
使用强化学习算法,如 PPO、DQN 等。
记忆与反思:
使用记忆模块,如 LSTM、Transformer Memory 等。
使用反思机制,如 Self-Reflection、Thought Decomposition 等。
环境交互:
使用模拟环境,如 Gym、Habitat 等。
使用真实环境,如机器人、自动驾驶汽车等。
多智能体协作:
使用通信协议,如 Message Passing、Graph Neural Networks 等。
使用协作算法,如 Consensus、Coordination 等。
中心主题