导图社区 DeepSeek及Qwen模型部署指南
关于DeepSeek及Qwen模型部署指南,Main content: Qwen 模型部署硬件需求, DeepSeek R1模型部署硬件需求、 常见部署方法、 推荐部署框架、 输入输出需求,总结与建议等
编辑于2025-02-06 14:13:56社区模板帮助中心,点此进入>>
DeepSeek及Qwen模型部署指南
1. DeepSeek 模型部署硬件需求
1.1 模型类型与精度
满血版 DeepSeek-R1:671B(混合专家模型,MoE)
参数规模:6710亿
模型文件大小:720GB
精度:BF16
显存需求:至少 350GB 显存/内存
适用场景:专业服务器部署,适合高性能计算场景。
推荐配置,见表:
配置项 配置要求 GPU H100 * 16 CPU 128核 内存 512GB 磁盘 1TB
量化版 DeepSeek-R1:671B
动态量化(如 UD-IQ1_M)
对关键层(如注意力机制)采用 4-6bit 高精度量化
对 MoE 层采用 1-2bit 低精度量化,文件体积可压缩至 131-212****GB
生成速度:7-8 token/秒
硬件需求:200GB 显存/内存
标准量化(如 Q4_K_M)
整体精度更高,但生成速度较慢(2-4 token/秒,基本不可用)
* 671B 量化版的性能均显著优于 8B/32B/70B 等蒸馏模型
蒸馏版 DeepSeek-R1
参数规模:1.5B 到 70B
精度:量化版本(INT4/INT8)
显存需求:
8G 显存可部署 8B 模型
24G 显存可部署 32B 模型。
1.2 硬件配置建议
轻量级推理(1.5B-7B 模型)
GPU:1 张显存 ≥24GB 的显卡(如 NVIDIA RTX 4090、Tesla T4)
CPU:4 核以上(如 Intel i7 或 AMD Ryzen 7)
内存:32GB DDR4
存储:NVMe SSD ≥512GB。
中等规模推理(13B-70B 模型)
GPU:2-4 张显存 ≥40GB 的显卡(如 NVIDIA A100 40GB/80GB)
CPU:8 核以上(如 Intel Xeon 或 AMD EPYC)
内存:64-128GB DDR4
存储:NVMe SSD ≥1TB。
大规模训练或高并发服务(671B 模型)
GPU:8+ 张 A100/H100 组成的集群,显存 ≥80GB/卡
CPU:16 核以上(多路 CPU 如 AMD EPYC 9xxx 系列)
内存:256GB+ DDR5 ECC
存储:RAID 0/10 NVMe SSD 阵列(≥4TB)。
1.3 并发使用人数
轻量级推理:支持 10-50 并发用户,具体取决于模型大小和硬件配置。
中等规模推理:支持 50-200 并发用户,需优化 GPU 资源分配。
大规模训练:适合高并发场景(千级并发),需分布式部署。
2. Qwen 模型部署硬件需求
2.1 模型类型与精度
Qwen-7B-Chat
参数规模:70亿
精度:INT4 量化版本
显存需求:约 10GB 显存。
Qwen-14B-Chat
参数规模:140亿
精度:INT4 量化版本
显存需求:约 18GB 显存。
Qwen2.5-32B-Instruct
参数规模:320亿
精度:BF16
显存需求:约 22GB/卡(需多卡部署)。
2.2 硬件配置建议
轻量级推理(Qwen-7B-Chat)
GPU:1 张显存 ≥24GB 的显卡(如 NVIDIA RTX 4090)
CPU:4 核以上
内存:32GB DDR4
存储:NVMe SSD ≥512GB。
中等规模推理(Qwen-14B-Chat)
GPU:2 张显存 ≥24GB 的显卡(如 NVIDIA A100 40GB)
CPU:8 核以上
内存:64GB DDR4
存储:NVMe SSD ≥1TB。
大规模推理(Qwen2.5-32B-Instruct)
GPU:3 张显存 ≥24GB 的显卡(如 NVIDIA RTX 4090)
CPU:16 核以上
内存:128GB DDR4
存储:NVMe SSD ≥2TB。
2.3 并发使用人数
轻量级推理:支持 10-50 并发用户。
中等规模推理:支持
并发用户。
大规模推理:支持 200-500 并发用户,需优化 GPU 资源分配。
3. 输入输出需求
输入:文本输入长度通常为 1024-2048 tokens,具体取决于模型配置。
输出:生成文本长度通常为 512-2048 tokens,支持多轮对话。
4. 推荐部署框架
DeepSeek:推荐使用 SGLANG 或 VLLM 框架,支持高效推理和分布式部署。
Qwen:推荐使用 VLLM 或 TensorRT-LLM 框架,支持高吞吐量和低延迟推理。
5. 常见部署方法
VLLM框架部署
conda create -n vllm_test python=3.10 # 然后配置该conda环境: conda activate vllm_test pip install vllm
vllm serve path_to/DeepSeek-R1-Distill-Llama-8B --tensor-parallel-size 1 --max-model-len 32768 --enforce-eager --gpu_memory_utilization=0.98 --enable-chunked-prefill --port 6060
通过 ollama 离线部署
安装ollama
# 1.5B Qwen DeepSeek R1 ollama run deepseek-r1:1.5b # 7B Qwen DeepSeek R1 ollama run deepseek-r1:7b # 8B Llama DeepSeek R1 ollama run deepseek-r1:8b # 14B Qwen DeepSeek R1 ollama run deepseek-r1:14b # 32B Qwen DeepSeek R1 ollama run deepseek-r1:32b # 70B Llama DeepSeek R1 ollama run deepseek-r1:70b
6. 总结与建议
DeepSeek 适合需要高性能计算和大规模模型训练的场景,建议使用多卡 A100/H100 集群。
Qwen 适合轻量级到中等规模的推理场景,建议使用 RTX 4090 或 A100 显卡