当前位置：首页 » AI最新动态

DeepSeek刚刚上新：DeepSeek-Math-V2，直接开源 IMO 金牌数学模型

7月前 AI最新动态 1120 0

谷歌发布了 Gemini 3 和大香蕉 Nano Banana Pro。

OpenAI 掏出 GPT-5.1 应对。

Anthropic 这边也迭代出了 Claude Opus 4.5。

马斯克的 xAI 更是疯狂，Grok 4.1 Fast 直接免费开放，短短几天就以 1.16T tokens 的用量登顶了 OpenRouter 排行榜。

北美时间 11 月 27 日，也就是感恩节当天，DeepSeek 悄悄在 Hugging Face 上传了一个新模型：DeepSeekMath-V2。

不是因为“又一个高分”，而是它把一个在业内常被忽略的问题摆到了桌面：如何让数学推理过程可检验，并把这样的能力以开源形式提供给专业用户。

这是一个在国际数学奥林匹克竞赛（IMO）上达到金牌水平的「数学推理模型」。

免费开源；Apache 2.0 协议；权重全部公开。

Hugging Face 的 CEO Clement Delangue 直接发帖盛赞：

“想象一下，免费拥有世界上最顶尖数学家之一的大脑。据我所知，目前没有任何聊天机器人或 API 能让你免费访问 IMO 2025 金牌水平的模型。这是 AI 和知识民主化的最佳体现。

AI 的前沿，是开源的。”

开放方式：Apache 2.0 许可、权重公开，支持下载、研究、微调和商用。
能力边界：针对数学竞赛与证明类任务，重点在“严谨推理”的过程，而不仅是最终答案。
适配人群：数学教师/竞赛教练、研究人员、算法/量化岗位，以及需要可检查推理链的专业用户。

金牌水平的“数学推理模型”

IMO 2025：6 题解出 5 题，35 分，达到金牌水平（当年金牌仅约 12%，630 人中 72 人）。
CMO 2024：中国数学奥林匹克，金牌水平。
Putnam 2024：北美大学生数学竞赛，满分 120。人类最高分 90，中位数 2；DeepSeekMath-V2 得分 118（解出 11/12，1 题小错误）。

对比背景（便于选型）：今年 7 月，OpenAI 与谷歌也在 IMO 2025 上拿到金牌，但仍以闭源或付费形式提供，且存在降级版本与访问限制。

DeepSeekMath-V2 的差异在于：权重完全公开、无降级限制、可自由使用。

技术特点

DeepSeek 在技术文档里明确了一个关键点：答案正确不等于推理正确。为此，它采用了“Self-Verifiable（自验证）”训练思路：

生成器（Generator）：负责产出逐步证明与最终答案。
验证器（Verifier）：逐步检查逻辑链条，评估每一步的严谨性。打分信号作为训练奖励。
自纠机制：鼓励生成器在提交前主动发现并修复错误，避免“蒙对”或绕过验证规则。
动态难度：生成器增强的同时提升验证难度，降低“对验证器过拟合”的风险。

根据 DeepSeek 文档披露的测试结果（CNML 级别），在代数、几何、数论、组合、不等式五个分支上整体领先。

几何分支的差距更明显：DeepSeekMath-V2 0.52，GPT-5 0.15。

开源与闭源的差异化

维度	DeepSeekMath-V2	谷歌（Gemini 2.5 Deep Think）	OpenAI（金牌水平模型）
获取方式 / 许可	开源，Apache 2.0，权重可下载	付费订阅（Ultra），提供降级版；金牌版仅限少量学术用户	实验性，未公开广泛发布
功能定位	数学推理与形式化证明，强调过程可验证	深度推理能力，开放版本为降级	金牌水平推理，但渠道受限
成本与门槛	部署成本由用户承担，需算力与工程能力	订阅成本较高	不可直接选用，需等待或特批
推理延迟	较长（复杂题目更明显），强调完整过程	公开信息显示金牌版本单题可耗时数小时	未公开稳定通道，无法比较
适合人群	教师/教练、研究人员、算法/量化、需要可检验证明的团队	愿为闭源服务付费且接受降级的用户	研究合作与高权限用户

选型建议

教学与竞赛训练：需要完整推导与可检验过程，DeepSeekMath-V2 更贴合；注意准备算力与评审流程。
研究与论文草拟：适合用来生成初步的证明草稿或反例搜索，再配合人工验证与正式排版。
算法/量化场景：用于推导公式、检查推导路径、构建内部验证器；避免直接用于生产决策链。
通用问答/多领域任务：不建议作为主力；对于非数学知识、跨领域常识类任务，通用模型更高效。

总结

从产品视角看，DeepSeekMath-V2 把“可检验的数学推理”以开源的方式落在了专业用户手里。这并不意味着它要替代通用模型，也不是要竞速谁的分数更高。更现实的理解是：如果你的工作依赖严格的逻辑链和可复核的过程，这个模型提供了一个可控的起点；如果你的需求是高并发的通用问答或内容创作，它不是最佳适配。

持续提醒团队的两句话：分数不是能力的全部，过程才是可用性的核心；开源不是没有门槛，而是把可控权交给你。基于这两点来做选型和落地，才是这类模型真正的价值。

参考链接：
DeepSeekMath-V2 模型（Hugging Face）
GitHub 仓库

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：DeepSeek刚刚上新：DeepSeek-Math-V2，直接开源 IMO 金牌数学模型

请登录后发表评论

DeepSeek刚刚上新：DeepSeek-Math-V2，直接开源 IMO 金牌数学模型

金牌水平的“数学推理模型”

技术特点

开源与闭源的差异化

选型建议

总结

文章目录

关注「苏米客」公众号