导图社区 Deepseek发展进程与技术要点总结
本文旨在全面梳理DeepSeek大语言模型及多模态模型的现状,并深入探讨其背后的技术要点,以期为相关领域的研究者和从业者提供有价值的参考。
编辑于2025-02-14 10:29:51deepseek
模型发布历程
大语言模型
23.11.2
开源代码大模型DeepSeek Coder
支持多种编程语言的代码生成、调试和数据分析任务
23.11.29
通用大模型DeepSeek LLM
模型结构
7B-base
67B-chat
模型训练
扩展模型规模,引入多阶段训练
24.6.7
混合专家模型MoE,DeepSeek-V2
模型结构
236B
引入MoE架构,通过MLA和DeepSeekMoE实现高效推理和经济训训练
模型效果
在自然语言处理任务中表现出色,如文本生成、问答系统、机器翻译等,能够生成高质量、逻辑连贯的文本,回答准确且具有针对性,翻译效果自然流畅。详细技术原理和性能评估论文《DeepSeek - V2: A High - Performance Open - Source Model for Natural Language Processing》
性价比之王
推理成本降至每百万token仅1元人民币
24.12.26
混合专家模型MoE,DeepSeek-V3
模型信息
671B,创新MoE架构+FP8混合精度训练
14.8万亿个token数据训练;训练成本55天,557.6w美元
引入多token预测和无辅助损失的负载均衡策略,实现了更高的性能和更低的训练成本
多头潜在注意力变压器,包含 256 个路由专家和 1 个共享专家,每个令牌可激活 370 亿个以上的参数。这种独特的架构设计使得模型在处理复杂任务时能够更加高效地分配计算资源,提升了模型的性能和泛化能力。
图像生成、视频理解等多模态任务中,DeepSeek - V3 也展现出了卓越的性能,能够实现图像与文本的相互转换,理解视频内容并生成准确的描述。相关技术细节和多模态任务的实验结果在论文《DeepSeek - V3: Multimodal Capabilities and Performance Benchmarking》
模型效果
基准测试超越llama3.1,qwen2.5;持平GPT-4o Claude 3.5 Sonnet
性能与成本的完美平衡
25.1.20
开源推理模型DeepSeek-R1
强化学习与知识蒸馏的完美结合
过强化学习和冷启动数据,显著提升了模型的推理能力,并通过蒸馏技术将推理能力扩展到小型模型。
基于DeepSeek-V3-Base训练,通过强化学习和知识蒸馏技术,显著提升了模型的推理能力。DeepSeek-R1的发布,标志着DeepSeek在模型优化和性能提升上又迈出了重要的一步
性能与OpenAI的o1正式版持平
视觉模型
25
全球首个千亿参数级多模态模型DeepSeek-Vision
支持文本、图像、视频的跨模态推理,并在医疗影像分析、工业质检等领域实现商业化落地
视觉语言理解模型
DeepSeek-VL
DeepSeek-VL 只能在两个固定分辨率(384×384 和 1024×1024)下从图像中提取特征
模型结构
混合视觉编码器hybrid Vision Encoder
结合SAM-B-1024和SigLIP-384两个编码器,分别处理高分辨率和低分辨率图像
作用:从图像中提取有意义特征,帮助模型识别出图像中的重要元素、模式以及它们之间的关系。
视觉适配器VL Adaptor
两层混合MLP,连接视觉编码器和LLM
大语言模型DeepSeek LLM
采用Pre-Norm结构和SwiGLU激活函数
训练流程
数据集
视觉语言预训练数据
预训练数据来自多个公共数据源,包括MMC4、Wiki、wikihow、Ebook教科书、Capsfusion、TaiSu和Detailed Caption等。
视觉语言监督微调数据
微调数据则包括ShareGPT4V、LAION-GPTV、LVIS-Instruct4V等开源数据集,以及部分表格和图表数据。
三个训练阶段
视觉语言适配器预热、联合视觉语言预训练和监督微调
stage1,仅训练视觉语言适配器VL adaptor
stage2,联合优化语言模型和视觉适配器VL adaptor+LLM
stage3,使用监督数据进行微调
stage2训练注意点
不同多模态数据融合比例对训练效果影响: 过多的多模态数据比例(多模态:语言=100%:0%)会导致大型语言模型显著遗忘语言能力。合适的比例(多模态:语言=70%:30%)可以有效地减轻语言遗忘的问题,同时增强模型的多模态能力。
模型效果
视觉语言理解:处理逻辑图表、网页、公式识别、科学文献、自然图像以及复杂场景中的具身智能
DeepSeek-VL2,多模态理解
模型结构(Decoder-only的llava风格架构)
基于MoE架构的视觉-语言模型
seq_len
4K
DeepSeek-VL2-Tiny
activated parameters 1B
DeepSeek-VL2-Small
2.8B
DeepSeek-VL2
4.5B
视觉编码器Vision Encoder -- VL是混合版本,VL2只用了1种
SigLIP-SO400M
视觉语言适配器VL Adaptor
连接视觉编码器和语言模型的桥梁。负责将从图像中提取出的视觉特征转换为语言模型能够理解和处理的形式。这种转换对于实现多模态任务(如图像字幕生成、视觉问答等)至关重要。
大语言模型:DeepSeek-MoE
模型训练
数据集构建
比一代 DeepSeek-VL 多一倍优质训练数据;对多种开源数据集进行混合和扩充,构建高质量、数量、多样性的视觉语言数据集
视觉语言对齐数据
视觉语言预训练数据
监督微调数据
训练数据覆盖科研文献、网页代码转换、GUI界面理解等场景,并通过中文文献增强多语言能力。例如,Plot2Code功能即基于对科研图表的结构化理解生成Python代码。
训练流程:继承一代VL,包括三阶段
训练超参数
在训练微调阶段,DeepSeek-VL2 通过监督式微调增强预训练模型的指令遵循和对话能力。使用 DeepSeek 的内部视觉-语言 SFT(Supervised Fine-Tuning) 数据,在只监督答案和特殊 token 的情况下优化所有参数,同时掩蔽系统和用户提示。同时,DeepSeek-VL2 将多模态数据与纯文本对话数据结合起来,加强对话理解,确保了在密集图像描述、视觉转代码等视觉-语言任务中的强大性能。
stage1 对齐阶段:初步建立视觉与语言的联系
使用ShareGPT4V等120万条图文数据
仅训练Vision+VL adaptor视觉编码器和适配器,冻结语言模型参数,
stage2 预训练阶段:增强模型的泛化能力
采用800B+的多模态数据(70%视觉-文本,30%纯文本),涵盖OCR、图表、文档理解等任务
训练全部参数
stage3 监督微调(SFT)
高质量指令数据优化对话能力与复杂任务表现(如视觉定位、代码生成),同时结合纯文本数据强化语言理解。
sft哪部分参数?
技术创新点
模型的性能(效果)和效率提升
动态切片(切图)策略 Dynamic Tiling
目的:用了此方案可支持动态分辨率,最多支持 1152x1152 的分辨率和 1:9 或 9:1 的极端长宽比 原本视觉编码器只能接受固定分辨率的图像输入,对于高分辨率和极端纵横比的图像上需要缩放和padding之后再输入视觉编码器,会影响多模态模型的理解能力视觉部分;
qwenvl、internvl中已经使用,internvl技术报告更详细
做法:将图像切分为多张子图和一张全局缩略图,所有切片通过预训练的SigLIP-SO400M视觉编码器提取特征,再通过视觉-语言适配器将特征映射到语言模型的嵌入空间
动态分割
挖掘图像细节:输入图像动态分割为多个384×384的局部切片(tiles)
全局缩略图
提供整体视角:帮助模型理解整个图像的大致结构和布局。通过结合局部切片和全局缩略图,模型可以在保持对细节敏感的同时,也考虑到图像的整体框架,这对于正确理解和分析图像内容至关重要。
特征提取与映射
384×384大小的切片会通过预训练的SigLIP-SO400M视觉编码器进行特征提取。 编码器利用其预先学习到的知识来解析每个切片的内容,并将其转换为一种可以被语言模型理解和使用的格式。
最后,通过视觉-语言适配器,这些提取出来的特征会被映射到语言模型的嵌入空间。将原本的视觉领域信息转化为语言模型能够处理的形式
优点:突破固定大小编码器的限制,提升了模型处理细节的能力、提升了处理超高分辨率图像的能力,适配更多场景(模型能够更加精细地处理每个小区域内的细节信息,不至于因为处理过大的数据而丢失重要的细节。)
改进的混合专家MoE架构
传统的 MoE 架构需要尽量保证每个专家获得不重叠且集中的知识,即 top-K 问题。DeepSeek涉及以下4个主要策略
1.细粒度专家划分
在专家数量受限的情况下,分配给特定专家的 token 更有可能涵盖多种类型的知识。如果每个 token 可以被分配到更多的专家,那么不同类型的知识就有潜力被分解并在不同的专家中分别学习。在这种情况下,每个专家仍然可以保持高水平的专家专业化,有助于在专家之间实现更集中的知识分布。 DeepSeekMoE 通过将 FFN(前馈网络)中间隐藏维度减少到原来的 1/m 倍,将每个专家 FFN 分割成 m 个更小的专家。由于每个专家变得更小,相应地增加激活专家的数量到 m 倍,以保持相同的计算成本,由此更灵活地组合激活的专家。
2.共享专家隔离
使用传统的路由策略,分配给不同专家的 token 可能需要一些共同的知识或信息。因此,多个专家可能会在各自的参数中汇聚以获取共享知识,从而导致专家参数的冗余。然而,如果有专门的共享专家致力于捕捉和整合不同上下文中的共同知识,其他路由专家之间的参数冗余将会减少。这种冗余的减少将有助于构建一个参数效率更高、专家更专业化的模型。
3.动态损失均衡
在 MoE 的 top-K 路由决策之前,动态损失均衡(Loss-Free Balancing)会首先对原始路由分数设置专家级别的偏置,以产生有偏的路由分数,这些分数决定了每个训练 token 的实际路由目标。这些专家级别的偏置会根据最近训练 token 上观察到的专家负载进行更新,其中负载重的专家的偏置会被降低,而负载轻的专家的偏置会被提升。通过这种动态更新策略,动态损失均衡确保有偏的路由分数能得到平衡的路由结果。与辅助损失控制的负载平衡策略相比,Loss-Free Balancing 不引入会干扰主要语言建模目标的预设梯度,因此其训练过程更加无噪声且友好。
4.多头潜在注意力机制(MLA)
对于语言组件,DeepSeekMoE 模型采用了多头潜在注意力(Multi-head Latent Attention,MLA)机制。MLA 通过将 Key-Value 缓存压缩成潜在向量,显著降低了计算成本,从而实现了更快的推理和更高的吞吐量。
将键值缓存压缩成潜在向量,以实现高效推理和高吞吐量
键值缓存(KV Cache)
通过将键值(KV)缓存压缩为潜在向量,减少了显存占用并提升推理效率,吞吐量较传统模型提高5.76倍
子主题
在Transformer架构中,注意力机制是核心组件之一。这个机制依赖于三个主要元素:查询(Query, Q)、键(Key, K)和值(Value, V)。当处理长序列时,为了减少重复计算,通常会保存键和值的中间结果,这些结果被称为键值缓存(KV Cache)。然而,随着序列长度的增加,KV Cache也会变得非常大,导致显存占用显著增加,并可能限制模型的最大批处理大小和序列长度。
潜在向量(Latent Vector)
潜在向量是指通过某种数学变换或编码过程得到的一种低维表示形式。在这个上下文中,MLA技术通过将原始高维的键和值数据转换为一个或多个低维的潜在向量来表示它们。这样做可以大幅度减少所需存储的数据量,同时尽量保留原始信息的关键特征。
在语言组件中,DeepSeek-VL2利用了DeepSeekMoE模型,并采用了多头潜在注意力(MLA)机制。MLA通过将键值缓存压缩为潜在向量,显著降低了计算成本,提高了推理速度和吞吐量。此外,DeepSeekMoE框架还采用了稀疏计算技术,进一步提升了效率。
MLA技术通过引入潜在向量的概念对KV Cache进行了优化,使得存储需求大大降低,从而减少了显存占用。与此同时,这种优化并没有牺牲模型性能,反而因为更高效的计算方式,使得模型的推理速度得到了显著提升。
目的:通过稀疏激活部分专家子网络(如激活参数仅占4.5B的DeepSeek-VL2),显著降低计算成本,提高了计算效率;增强了模型的可扩展性
传统的密集模型在每次推理时需要激活所有参数;DeepSeek-VL2所采用的MoE架构根据不同的任务需求,选择性地激活不同的神经元子集
显存占用(Memory Footprint)
显存占用指的是模型运行时所需要的图形处理器(GPU)内存大小。由于Transformer模型通常需要大量的内存来存储中间计算结果,尤其是KV Cache,因此降低显存占用对于提高模型的可扩展性和效率至关重要。
视觉-语言适配器(Vision-Language Adapter)优化
像素洗牌操作
一种上采样技术,最初由《Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network》提出,用于图像超分辨率问题。“2×2 shuffle”是指将输入特征图的通道维度重新排列,以增加空间分辨率的方式。这里的关键在于,通过这种方式可以在不增加额外参数的情况下高效地提升图像的空间分辨率,同时减少视觉标记的数量。
作用:压缩视觉标记数量
特殊标记
这个标记的作用在于优化视觉特征与语言模型的融合过程。具体来说,当图像被分割成多个小块(tiles)时,<tile_newline> 标记可以帮助模型识别每个小块的边界,并维持它们之间的相对位置关系。这对于保持图像的二维结构信息非常重要,尤其是在需要理解图像整体布局的任务中(如文档解析或图表分析)。例如,在处理包含大量文本的文档图像时,正确识别每一行文字的位置和顺序是非常重要的。通过插入 <tile_newline> 标记,模型可以更好地理解每行文本之间的分隔,从而提高对文档内容的理解准确性。
作用:优化视觉特征与语言模型的融合,确保多模态信息的深度交互。
目的:模型能够实现更深层次的多模态信息交互,准确高质预测。视觉特征保留更多细节,转换为语言模型可处理的形式
子主题
多头潜在注意力(MLA)
DeepSeek-VL2引入的MLA技术通过将Key-Value缓存巧妙地压缩为潜在向量,极大地优化了推理速度。在实际应用中,这一技术不仅能够显著提高模型的吞吐量,还能有效减少推理过程中的内存使用量。这对于在资源有限的环境下运行模型,或者需要处理大量数据的场景来说,具有至关重要的意义。
同时通过负载均衡适配图像切片数量不定的困难,对图像和文本数据使用不同流水并行策略,对 MoE 语言模型引入专家并行,实现高效训练
模型推理
使用40G GPU对vl2-small模型进行推理时,如果遇到显存不足的问题,可以采用增量预填充(Incremental Prefilling)技术。这项技术通过将输入序列切分成较小的片段(chunks),逐段进行处理,从而减少一次性内存占用
增量预填充+动态激活技术降低内存
增量预填充
为了满足在低内存环境下运行的需求,DeepSeek-VL2支持增量预填充技术。这一技术使得模型能够在内存要求较低的GPU上高效运行,同时保持良好的推理效率。这对于那些无法配备高端硬件设备的用户或场景来说,无疑是一个福音,使得更多的人能够享受到先进人工智能技术带来的便利。
模型效果
在参数量仅有约一半的情况下,超越了现有的视觉语言模型 Qwen2-VL 和 InternVL2
新能力:梗图理解、视觉定位、视觉故事生成等新能力
视觉和文本任务
复杂视觉理解
OCR、VQA、文档表格和图表理解
梗图与文化背景理解
解析动漫、Meme等文化元素,支持细粒度的多轮对话
Visual Grounding视觉定位
能力不仅限于封闭类别的物体识别
Zero-shot grounding
用任意的自然语言进行描述,然后让 DeepSeek-VL2 在图像里找到符合描述的部分 如:在下图里找到 "DeepSeek Whale" (DeepSeek 吉祥物虎鲸)
In-context grounding
给 DeepSeek-VL2 一个示例,让它有样学样:Prompt: <|grounding|>In the first image, an object within the black ellipse is highlighted. Please locate the object of the same category in the second image. (在第一张图中有一个物体被黑色椭圆包裹住。在第二张图中找到同类别的物体。)
Grounded conversation
视觉语义对话:视觉感知+语言推理
问模型 “If you feel hot, what will you do?(如果感觉热,你会怎么做?)”,它会回答:“To cool down, you can use <|ref|>the fan<|/ref|><|det|>[[166, 460, 338, 712]]<|/det|> which is sitting on the desk.(为了降温,你可以使用 [[166, 460, 338, 712]] 位置处的风扇,它放在桌子上)”
参考
多模态生成与交互
画图代码生成Plot2Code
根据图表或设计图自动生成Python代码,适用于快速原型开发
视觉故事叙述Visual Storytelling
输入多张图像,让模型把它们串联起来,形成一个小小的童话故事
支持多语言、低资源
高GPU内存要求:较大的型号变体(VL2-Small & VL2-Base)需要至少40GB的GPU内存,这在一定程度上限制了它在消费级硬件上的部署,使得一些普通用户无法直接使用这些强大的模型。
多图像输入的处理速度慢:当同时处理多个高分辨率图像时,DeepSeek-VL2的推理速度可能会显著下降,这在需要快速处理大量图像的场景中可能会成为一个瓶颈。
多模态统一模型
JanusFlow -> Janus -> Janus-Pro
Janus
解耦视觉编码来同时支持多模态理解和生成之
视觉编码解耦
引入两个独立的视觉编码路径:一个用于多模态理解,另一个用于多模态生成。这两个路径通过相同的变换器架构进行统一处理。解耦不仅缓解了视觉编码器在理解和生成任务中的冲突,还增强了框架的灵活性。
训练过程
阶段I:训练适配器和图像头,创建视觉和语言元素在嵌入空间中的概念连接,使LLM能够理解图像并具有初步的视觉生成能力。
阶段II:统一预训练,使用多模态语料库进行预训练,使Janus能够学习多模态理解和生成。
阶段III:监督微调,使用指令调优数据对预训练模型进行微调,增强其指令跟随和对话能力。
损失函数:Janus是一个自回归模型,训练时采用交叉熵损失函数:
JanusFlow
通过结合整流流和LLM架构来实现多模态理解和生成。JanusFlow的关键在于能够在大语言模型框架内直接训练整流流,消除了复杂的架构修改需求
在单一模型中统一图像理解和生成任务的问题。
参考链接
一文搞懂DeepSeek的技术演进之路:大语言模型、视觉语言理解、多模态统一模型
https://mp.weixin.qq.com/s/xYD4eprGvr2aS7lXzGHIuQ
DeepSeek 怒抢视觉对话王座!DeepSeek-VL2 发布即开源,技术全公开
https://mp.weixin.qq.com/s/NVUbPkLmxiASN47Qf4f6dw
最近火爆全网的deepseek,是如何发展起来的?
https://www.toutiao.com/article/7467946423666115109/?wid=1739244182755
子主题
机制详解:继续聊DeepSeek:视觉语言模型DeepSeek-VL2值得了解一下
https://mp.weixin.qq.com/s/dOqlZxRq-q_dQ_DTWUCsUQ
竞争力
混合专家架构(MoE)、多头潜在注意力(MLA)、无辅助损失负载均衡、多Token预测(MTP)以及FP8混合精度训练。这些技术使DeepSeek在性能和效率上取得了显著突破,其模型在多项基准测试中超越了其他主流模型,甚至在某些领域接近或超过GPT-4和Claude-3.5。
子主题
MoE(Mixture of Experts)架构突破
采用动态专家路由机制,实现万亿参数规模下的高效训练(如DeepSeek-MoE-16b模型在相同计算资源下达到Llama 2-7B 2.89倍的训练效率) • 长上下文处理技术
支持128k tokens的上下文窗口(DeepSeek-R1系列),通过改进的位置编码和注意力机制减少长程依赖的信息衰减 • 强化学习框架优化
提出基于人类反馈的多阶段对齐策略(PPO-RD算法),在数学推理任务中准确率提升17.3%
多模态融合方案
视觉-语言联合预训练框架VLPM • 跨模态注意力蒸馏技术(Cross-modal KD) • 支持图像描述生成、视觉问答等场景
子主题
2.1 MoE架构创新 技术维度 传统Transformer DeepSeek-MoE 参数利用率 100%全激活 动态激活Top-4专家 训练效率 O(n²)计算复杂度 降低35%显存占用 专家路由策略 固定分片 基于任务自适应的Gating Network 2.2 多模态融合方案
论文与创新点总结:https://blog.csdn.net/qq_48131648/article/details/145506976
与清华大学、上海人工智能实验室等机构建立了联合实验室,推动学术与产业协同创新
主题
子主题
子主题
主题
模型结构/规模 模型训练流程--数据集 模型应用/效果