导图社区 DeepSeekMath 推动开放语言模型数学推理极限

DeepSeekMath 推动开放语言模型数学推理极限

DeepSeekMath：突破数学推理极限的开源语言模型！它不仅在竞赛级MATH基准上超越了所有开源模型，更接近封闭模型的性能。通过创新的数学预训练、SFT监督微调和RL强化学习，DeepSeekMath展现了卓越的定量推理能力。特别是GRPO算法的引入，为强化学习提供了统一范式。尽管在几何和定理证明方面仍有提升空间，但其在高质量数学数据上的表现极具潜力。期待DeepSeekMath未来在数学领域的更多突破！

编辑于2025-03-23 19:04:56

强化学习
数学推理
开源模型

韩非

他的近期作品查看更多>>

DeepSeekMath 推动开放语言模型数学推理极限

社区模板帮助中心，点此进入>>

韩非

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 39.7k
- 977
- 2.5k
- 401
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 18.6k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 4.3k
- 171
- 11
- 4
- 0
jackrao
python思维导图
- 9.6k
- 557
- 242
- 7
- 0
(*^▽^*)
css
- 3.8k
- 1
- 43
- 3
- 0
A张舫
CSS
- 6.3k
- 271
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 8.0k
- 354
- 209
- 16
- 0
journey
计算机组成原理
- 4.0k
- 98
- 71
- 8
- 0
journey
IMX6UL(A7)
- 2.6k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 3.6k
- 51
- 10
- 1
- 0
蒋龙

DeepSeekMath: 推动开放语言模型数学推理极限

摘要

数学推理对语言模型有挑战性

DeepSeekMath 7B

使用Common Crawl数据库120B数学相关数据

使用DeepSeek-Coder-Base-v1.5 7B作为基础模型

MATH库测试成绩较好

原因

筛选大量web数据

使用了GRPO算法改进PPO算法

1、简介

研究现状

Moreover, these models have proven instrumental in assisting humans in solving complex mathematical problems (Tao, 2023).（这些模型已被证明有助于帮助人类解决复杂的数学问题）

介绍DeepSeekMath

一种特定领域的语言模型，数学能力明显优于其他开源模型，接近GPT-4

具体工作内容

创建了含120B math tokens的语料库

数据来源于Common Crawl

部分在web中获取，部分通过人工进行增强

使用DeepSeek-Coder-Base-v1.5 7B作为基础模型

indicating it does not only enhance the model’s mathematical abilities but also amplifies general reasoning capabilities.（数学训练不仅能提高模型的数学能力，还放大了一般的推理能力）

预训练后生成的模型 DeepSeekMath-Instruct 7B 击败了所有 7B 对应模型，可与 70B 开源指令调整模型相媲美。

介绍GRPO，提出强化学习的数学范式

1.1、贡献

数学预训练

公开的数据集，通过筛选设计的120B语料库，是Minerva的7倍，OpenWebMath的9倍

模型性能比肩Minerva 540B，证明高质量数据在预训练中的重要性

Code training prior to math training improves models’ ability to solve mathematical problems both with and without tool use.（证明在数学训练之前进行代码训练可以提高模型解决数学问题的能力）

强化学习探索

提出了GPRO算法，显著减少了计算资源

GRPO方法能提升指令微调模型的效果，GRPO不仅提升了特定任务的性能，还增强了泛化能力。

提供一个统一的强化学习数学范式（并非首次提出）

对范式进行了进一步的讨论

1.2、指标评估

中英文推理

Formal Mathematics（形式化数学）

自然语言理解、推理和代码

2、数学预训练

2.1、数据收集与清洗

选择 OpenWebMath作为初始种子语料库，这是一个高质量的数学网络文本集合

训练了一个 fastText 模型来召回更多类似 OpenWebMath 的数学网页

选择其他数学网络资源来丰富种子语料库，进一步优化 fastText 模型

经过四次迭代的数据收集，我们最终得到了 3550 万个数学网页，总计 1200 亿个 token

对数据进行清洗以避免基准污染

过滤掉包含英语数学基准（例如 GSM8K（Cobbe 等人，2021）和 MATH（Hendrycks 等人，2021））和中文基准（例如 CMATH（Wei 等人，2023）和 AGIEval（Zhong 等人，2023））中的问题或答案的网页

2.2、验证 DeepSeekMath 语料库的质量

对比库

MathPile

OpenWebMath

Proof-Pile-2

2.2.1、训练设置

介绍训练框架和参数

效果

2.2.2、评价结果

高质量

多语言

大规模

2.3、DeepSeekMath-Base 7B训练和评估

使用分步推理解决数学问题

使用工具解决数学问题

形式化数学

自然语言理解、推理和编码能力

3、SFT监督微调

3.1、SFT 数据管理

英文数学数据集

中文数学数据集

3.2、DeepSeekMath-Instruct 7B训练和评估

虽然 DeepSeekMath-Instruct 在 MATH 上可与中国专有模型 GLM-4 和Baichuan-3 相媲美，但它的表现仍然不及 GPT-4 和 Gemini Ultra。

4、RL强化学习

4.1、Group Relative Policy Optimization（群体相关策略优化 GRPO算法）

4.1.1、PPO（近端策略优化）到GRPO

4.1.2、使用 GRPO 的结果监督 RL

对输出评分

4.1.3、使用 GRPO 的过程监督 RL

对结果评分

4.1.4、使用 GRPO 迭代强化学习

4.2、DeepSeekMath-RL训练和评估

DeepSeekMath-RL 7B 利用思路链推理在 GSM8K 和 MATH 上分别达到了 88.2% 和 51.7% 的准确率。这个性能超过了 7B 到 70B 范围内的所有开源模型，也超过了大多数闭源模型。

从 DeepSeekMath-Instruct 7B 开始，DeepSeekMath-RL 7B 只在 GSM8K 和 MATH 的思路链格式的指令调优数据上进行训练。尽管其训练数据范围受限，但它在所有评估指标上都优于 DeepSeekMath-Instruct 7B，展示了强化学习的有效性。

5、讨论

5.1、预训练经验

5.1.1、代码训练有利于数学推理

5.1.2、ArXiv 论文似乎对提高数学推理能力无效

5.2、强化学习经验

5.2.1、统一的强化学习数学范式

统一SFT、RFT、DPO、PPO、GRPO等强化学习方法数学表达

5.2.2、强化学习为什么有效？

强化学习通过使输出分布更加稳健来提高模型的整体性能

5.2.3、如何实现更有效的强化学习？

数据源

算法

奖励函数

6、总结与展望

DeepSeekMath在竞赛级 MATH 基准上超越了所有开源模型，并接近封闭模型的性能

消融研究表明，网页为高质量数学数据提供了巨大的潜力

GRPO算法

提供一个统一的强化学习数学范式（并非首次提出）

尽管 DeepSeekMath 在定量推理基准测试中取得了令人印象深刻的成绩，但它在几何和定理证明方面的能力与封闭模型相比相对较弱。