导图社区 DeepSeek-V3 Key points
在人工智能领域,大型语言模型的快速发展正引领着技术的前沿。近年来,随着Anthropic的Claude系列、Google的Gemini系列和OpenAI的GPT系列等闭源模型的能力不断提升,开源模型也在快速追赶,不断缩小与闭源模型之间的差距。DeepSeek-V3大模型正是在这一背景下应运而生,凭借其高效的架构设计、创新的训练策略以及卓越的性能表现,成为了当前最强的开源模型之一。本文将对DeepSeek-V3大模型的关键要点进行回顾,以期为读者提供全面的了解和参考。
编辑于2025-02-11 22:54:14DeepSeek-R1
论文简介
由DeepSeek团队完成
DeepSeek-R1 模型性能与 OpenAI 的 o1-1217 模型相当。
DeepSeek-R1 最引人注目的技术亮点,在于其对纯强化学习(Reinforcement Learning, RL)路径的探索。
研究的核心目标是探索大语言模型在没有任何监督数据的情况下,通过纯粹的强化学习过程,专注于自我进化,从而发展推理能力的潜力。
他们通过蒸馏技术,将这种强化的推理能力迁移到更小的模型中,取得了显著的效果。
训练方法
冷启动数据收集与初始微调
DeepSeek-R1通过设计和收集少量高质量的长链式思维(Chain of Thought, CoT)数据进行基模型的初步微调
DeepSeek-R1-Zero直接从基模型进行强化学习RL
强化学习优化
为了减轻语言混合问题,在 RL 阶段引入了语言一致性奖励(根据链式思维中目标语言词汇的比例计算)
尽管这种奖励可能稍微降低推理任务的准确性,但提升了内容的可读性
拒绝采样与监督微调
利用生成的检查点通过拒绝采样收集新的监督微调(SFT)数据
这一阶段推理任务的数据集进一步扩展,同时过滤掉多语言混合、冗长段落和复杂代码块,确保输出的清晰性和准确性
综合场景强化学习
模型结合所有场景的提示(推理与非推理任务),再次进行强化学习训练,平衡其在各种任务中的表现
整体训练流程
DeepSeek-R1-Zero整体训练流程
DeepSeek-R1整体训练流程
LLM 中主流 RLHF 方向
以 [PPO] 为代表的 On Policy 路线
PPO算法
缺点分析
需要训练一个与策略模型大小相当的价值模型,这带来了巨大的内存和计算负担
LLM 通常只有最后一个 token 会被奖励模型打分,训练在每个 token 上都准确价值函数难
每次训练都基于自己的生成模型(Actor),通过教练(Critic)反馈奖励
优势是效率高,没有模型自生成自然效率高,问题是训练后模型能力可能不够
GRPO(Group Relative Policy Optimization )算法
最早 GRPO 工作发表于 DeepseekMath ,是数学逻辑 reasoning 上使用的
避免了像 PPO 那样使用额外的 Value Model 近似,而是使用同一问题下多个采样输出的平均奖励作为基线
结构对比图
优点
无需额外的价值函数
GRPO 使用组内平均奖励作为基线,避免了训练额外的价值函数,从而减少了内存和计算负担
与奖励模型的比较性质对齐
GRPO 使用组内相对奖励计算优势函数,这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符
KL惩罚在损失函数中
GRPO 直接将训练策略 πθ 和参考策略 πref 之间的 KL 散度添加到损失中,而不是像 PPO 那样在奖励中添加 KL 惩罚项,从而避免了复杂化 A^i,t 的计算
以 [DPO] 为代表的 Off Policy 路线
基于现有标注的情况进行分析,存在训练样本可能与模型不匹配的问题
优势是更有可能达到模型能力的上限,问题是效率较低
总结与思考
R1-Zero算法探索期
用什么RL算法
直接使用GRPO算法训练LLM,让R1-Zero获得自进化能力
RL过程如何设计奖励?
抛弃过程奖励模型(PRM),使用准确性奖励引导模型最终结果
Test Time Reasoning如何搜索?
抛弃搜索,MCTS会让搜索空间爆炸,无法调参
真正对RL+LLM的开源探索
R1效果调优
经历了R1-Zero自进化能力,R1通过多阶段训练获得更好效果
R1更多的是工程和数据上的Trick
大模型发展
大模型推理(LLM/MLM)都走向集群,未来推理的云端解决方案会越来越多
LLM领域C++推理框架会让位给vLLM/SGLang等Python实现的推理框架
模型训练的序列会越来越长,而且是分阶段变长进行预训练
预训练模型会结合O系列模型的能力,反哺预训练模型能力提升
产业影响
DeepSeek-R1 671B,模型越大效果越好,LLM模型因为有了Reasoning Data会继续增大
R1-Zero直接使用RL在Post Training过程,抛弃SFT;
R1使用Reasoning CoT数据进行SFT
更多的垂直领域/Alagent出现,离线的推理场景和推理芯片走向何方?
重要概念
冷启动数据收集
冷启动数据收集(Cold-start data collection):指在强化学习初期,通过少量高质量数据(如长链式推理数据)对模型进行微调,以稳定初始行为
数据生成方法
少样本提示法:利用长 CoT 作为示例进行少样本提示生成详细回答
反思与验证生成:直接提示模型生成包含反思和验证的答案
从 DeepSeek-R1-Zero 输出中优化:筛选与整理 DeepSeek-R1-Zero 的输出结果,使其具有可读性
人工精炼:通过人工注释和后处理,提升生成数据的质量和格式一致性
人工注释标准
可读性:避免混杂多种语言,确保结果格式清晰,包括使用 Markdown 高亮答案
标准化输出格式:定义输出格式为 |special_token|<reasoning_process>|special_token|。其中,<reasoning_process> 包含问题的推理过程, 总结推理结果
筛选与过滤:过滤掉不适合阅读的内容,例如语言混合、冗长段落和复杂代码块
语言混合问题
语言混合问题(Language mixing problem):模型在生成推理链时使用多种语言混合,影响可读性
指模型在生成推理过程(Chain of Thought, CoT)时,输出内容可能出现多种语言混合的现象
这种混合会降低输出的可读性和用户体验
解决方法:训练过程中引入了语言一致性奖励机制(language consistency reward),将目标语言单词在推理输出中的比例作为奖励参考
语言一致性奖励
语言一致性奖励(Language consistency reward):在强化学习中,通过奖励机制鼓励模型在推理链中使用目标语言,以增加输出的可读性。该奖励根据推理链中目标语言词汇的占比计算
计算推理链(Chain of Thought, CoT)中以目标语言词汇的比例作为奖励信号,提高模型生成内容的语言一致性
语言一致性奖励可能会导致推理任务性能略有下降,但该机制符合人类偏好
拒绝采样
拒绝采样(Rejection sampling):用于筛选模型输出数据,只保留符合特定标准的高质量样本(如排除语言混合、段落过长或复杂代码块的输出),用于进一步训练
拒绝采样是一种用于构建数据集或优化模型生成结果的技术
模型会首先生成多个候选输出,然后通过设定特定的评价标准或过滤规则,从中筛选出符合条件的输出
对于每个提示(prompt),模型会生成多个响应,然后仅保留正确的响应。
SFT(监督微调)
SFT 是监督微调(Supervised Fine-Tuning)的缩写,是在机器学习模型训练中使用带标注的训练数据对模型进行微调的过程。
通过 SFT,模型可以更好地适应特定任务或领域的需求。
在 DeepSeek-R1 的训练中,通过 SFT 使用约 80 万条数据(其中包括 60 万条与推理相关的数据和 20 万条非推理相关的数据)对模型进行微调,以提升其在推理、写作、角色扮演等任务中的能力
DeepSeek-Math
DeepSeekMath 模型简介
是一个参数量为 7B 的开源模型,在 MATH 基准测试中取得了 51.7% 准确率,无需外部工具包或投票技术,性能接近 Gemini-Ultra 和 GPT-4
利用自一致性方法,准确率进一步提升至 60.9%
模型的强大数学推理能力归因于高质量数据筛选流程和 GRPO 算法的应用
数据集构建与过滤
数据集 DeepSeekMath Corpus 包含 1200 亿个与数学相关的标记,主要从 Common Crawl 数据中筛选,并使用 fastText 分类器过滤
数据构建是一个迭代过程,共收集了 3550 万个网页,其中包含丰富的数学内容。
为避免基准测试污染,数据集中特意剔除了含 GSM8K、MATH、CMATH 和 AGIEval 数据的问题网页
模型训练与优化
DeepSeekMath-Base 7B
基于 DeepSeek-Coder-Base-v1.5 7B 初始化,表现优于 Minerva 540B 等较大模型
DeepSeekMath-Instruct 7B
在数学指令微调后,性能显著提升,成为所有 7B 规模开源模型中的最佳者
DeepSeekMath-RL 7B
通过增强学习进一步提升,在 MATH 数据集上首次突破 50% 准确率,是开源社区的重要里程碑
GRPO算法
是 PPO 的一种改进方法,通过组内基线进行归一化,省略传统的评论家模型,大幅降低训练资源需求
在增强学习阶段,GRPO 为 DeepSeekMath-Instruct 带来了显著性能提升,在 GSM8K 和 MATH 等多个基准测试中均取得优异结果
算法通过直接向损失函数添加 KL 散度正则化,避免复杂计算并提高训练效率
强化学习实验设计与结果
使用 GSM8K 和 MATH 数据集的数学指令微调数据对 DeepSeekMath-Instruct 进行强化学习
实验结果
DeepSeekMath-RL 7B 在 GSM8K 上达到 88.2%,在 MATH 数据集上达到 51.7% 的准确率,超过闭源模型和所有 7B-70B 的开源模型
强化学习不仅显著提升了性能,还使模型的输出分布更加稳定
展望与未来研究方向
改进数据筛选方式,进一步优化预训练语料的质量
探索更鲁棒的强化学习算法,例如应对噪声奖励信号的机制以及逐步对齐策略
优化奖励模型设计,提升其泛化能力,并在建模不确定性方面取得更大的进展。
主要创新点
模型架构与性能
DeepSeekMath 7B在MATH基准测试中取得51.7%的成绩,接近顶级闭源模型的表现
在多个英语和中文数学基准测试中超越同规模开源模型,某些方面甚至优于Minerva 540B
数学预训练不仅提升了数学能力,还增强了模型的一般推理能力
数据集构建创新
构建了包含1200亿标记的DeepSeekMath Corpus,结合自然语言和代码数据
采用迭代式数据构建流程
使用OpenWebMath作为种子数据集
训练fastText模型从Common Crawl中筛选数学相关内容
严格过滤避免基准污染
GRPO算法突破
相比传统PPO算法,显著减少训练资源消耗
在仅使用英语指令数据的情况下实现了显著性能提升
关键结论
代码训练对提升数学推理能力有显著帮助
强化学习通过提高输出分布的稳健性来改善模型性能
arXiv论文数据对提升数学推理能力作用不明显
DeepSeek-Janus
JanusFlow
模型概述
JanusFlow 是一种同时支持多模态理解与生成的统一框架
结合了自回归语言模型与校正流模型
通过解耦图像理解和生成的编码器,并在统一训练中对齐其表征,显著提升模型性能
不仅在标准基准测试中优于现有统一方法,还在特定任务上达到或超越了专用模型的表现
架构与训练策略
创新架构设计
基建主义设计理念
自回归理解模块
使用预训练的图像编码器和 LLM 预测文本标记
校正流生成模块
通过 VAE 从高斯噪声逐步生成目标图像
使用分离的视觉编码器分别处理理解和生成任务,有效避免任务干扰
通过表示对齐技术增强生成过程的语义一致性
训练策略(三阶段训练)
第一阶段:初始化组件,组件适应阶段
第二阶段:统一预训练,结合多模态数据、生成任务数据与纯文本数据
第三阶段:指令微调以提升生成与理解能力
损失函数
自回归目标
校正流目标
对齐正则化
实验与消融结果
实验结果
生成
MJHQ FID-30k:9.51
GenEval:0.63
DPG-Bench:80.09%
理解
MMBench:74.9
SeedBench:70.5
GQA:60.3
消融结果
证明了解耦视觉编码器和表示对齐正则化的有效性
与专注单一任务的模型相比,统一框架未显著削弱理解或生成能力
Janus Pro
改进
架构与策略
沿用 JanusFlow 的结构,但优化了阶段训练,延长了第一阶段训练时间
在统一预训练阶段强化了文本到图像生成任务
增强
数据量扩展
包括更丰富的多模态理解和视觉生成数据
参数规模升级
从 JanusFlow 的 7B 扩展为更大规模模型
主要优势
成功统一图像理解和生成能力,避免性能损失
创新的解耦视觉编码器设计显著提升模型表现
优秀的可扩展性,为后续改进提供良好基础
技术突破
通过表示对齐正则化增强模型性能
解耦视觉编码器设计提升统一框架效果
在保持各项任务性能的同时实现功能整合
效果
卓越性能
在多模态任务如 MMBench、GenEval 上超越现有方法,尤其在指令遵循生成方面表现尤为突出
Janus-Pro-7B在MMBench上达到79.2分,GenEval达到0.80分,进一步提升了模型性能
图像质量
定性分析表明生成图像质量高,指令遵从性强
DeepSeek-V3
背景
关键技术
主题
DeepSeek-V3 Key points
DeepSeek-V3 是一个大型混合专家 (MoE) 模型,总参数量为6710亿,每个token激活370亿参数。
使用 DeepSeekMoE 架构,结合共享专家和路由专家,实现高效且经济的训练。
采用多头潜注意力 (MLA) 架构,减少推理过程中的KV缓存,提高推理效率。
首次采用无辅助损失的负载均衡策略,避免了传统辅助损失对模型性能的负面影响。
采用多token预测 (MTP) 训练目标,增强了模型对未来token的预测能力,并可用于加速推理。
通过FP8混合精度训练框架,结合算法、框架和硬件的协同设计,实现了高效训练,降低了成本。
预训练使用了14.8万亿高质量、多样化的token,且训练过程稳定,没有出现损失峰值或回滚。
通过知识蒸馏将DeepSeek-R1的推理能力迁移到V3, 并在保持输出风格和长度的同时提升了性能.
在知识、代码、数学和推理等多个基准测试中,DeepSeek-V3 表现优于其他开源模型,并与领先的闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)性能相当。
DeepSeek-V3 的完整训练仅需 278.8 万 H800 GPU 小时,成本相对较低。