导图社区 DeepSeekMath 推动开放语言模型数学推理极限
DeepSeekMath:突破数学推理极限的开源语言模型!它不仅在竞赛级MATH基准上超越了所有开源模型,更接近封闭模型的性能。通过创新的数学预训练、SFT监督微调和RL强化学习,DeepSeekMath展现了卓越的定量推理能力。特别是GRPO算法的引入,为强化学习提供了统一范式。尽管在几何和定理证明方面仍有提升空间,但其在高质量数学数据上的表现极具潜力。期待DeepSeekMath未来在数学领域的更多突破!
编辑于2025-03-23 19:04:56