10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

DeepSeek刚刚上新:DeepSeek-Math-V2,直接开源 IMO 金牌数学模型

1小时前 AI最新动态 7 0

谷歌发布了 Gemini 3 和大香蕉 Nano Banana Pro。

OpenAI 掏出 GPT-5.1 应对。

Anthropic 这边也迭代出了 Claude Opus 4.5。

马斯克的 xAI 更是疯狂,Grok 4.1 Fast 直接免费开放,短短几天就以 1.16T tokens 的用量登顶了 OpenRouter 排行榜。

北美时间 11 月 27 日,也就是感恩节当天,DeepSeek 悄悄在 Hugging Face 上传了一个新模型:DeepSeekMath-V2。

不是因为“又一个高分”,而是它把一个在业内常被忽略的问题摆到了桌面:如何让数学推理过程可检验,并把这样的能力以开源形式提供给专业用户。

这是一个在国际数学奥林匹克竞赛(IMO)上达到金牌水平的「数学推理模型」。

免费开源;Apache 2.0 协议;权重全部公开。

Hugging Face 的 CEO Clement Delangue 直接发帖盛赞:

“想象一下,免费拥有世界上最顶尖数学家之一的大脑。据我所知,目前没有任何聊天机器人或 API 能让你免费访问 IMO 2025 金牌水平的模型。这是 AI 和知识民主化的最佳体现。

AI 的前沿,是开源的。”

  • 开放方式:Apache 2.0 许可、权重公开,支持下载、研究、微调和商用。
  • 能力边界:针对数学竞赛与证明类任务,重点在“严谨推理”的过程,而不仅是最终答案。
  • 适配人群:数学教师/竞赛教练、研究人员、算法/量化岗位,以及需要可检查推理链的专业用户。

金牌水平的“数学推理模型”

  • IMO 2025:6 题解出 5 题,35 分,达到金牌水平(当年金牌仅约 12%,630 人中 72 人)。
  • CMO 2024:中国数学奥林匹克,金牌水平。
  • Putnam 2024:北美大学生数学竞赛,满分 120。人类最高分 90,中位数 2;DeepSeekMath-V2 得分 118(解出 11/12,1 题小错误)。

对比背景(便于选型):今年 7 月,OpenAI 与谷歌也在 IMO 2025 上拿到金牌,但仍以闭源或付费形式提供,且存在降级版本与访问限制。

DeepSeekMath-V2 的差异在于:权重完全公开、无降级限制、可自由使用。

技术特点

DeepSeek 在技术文档里明确了一个关键点:答案正确不等于推理正确。为此,它采用了“Self-Verifiable(自验证)”训练思路:

  • 生成器(Generator):负责产出逐步证明与最终答案。
  • 验证器(Verifier):逐步检查逻辑链条,评估每一步的严谨性。打分信号作为训练奖励。
  • 自纠机制:鼓励生成器在提交前主动发现并修复错误,避免“蒙对”或绕过验证规则。
  • 动态难度:生成器增强的同时提升验证难度,降低“对验证器过拟合”的风险。

根据 DeepSeek 文档披露的测试结果(CNML 级别),在代数、几何、数论、组合、不等式五个分支上整体领先。

几何分支的差距更明显:DeepSeekMath-V2 0.52,GPT-5 0.15。

 

开源与闭源的差异化

维度 DeepSeekMath-V2 谷歌(Gemini 2.5 Deep Think) OpenAI(金牌水平模型)
获取方式 / 许可 开源,Apache 2.0,权重可下载 付费订阅(Ultra),提供降级版;金牌版仅限少量学术用户 实验性,未公开广泛发布
功能定位 数学推理与形式化证明,强调过程可验证 深度推理能力,开放版本为降级 金牌水平推理,但渠道受限
成本与门槛 部署成本由用户承担,需算力与工程能力 订阅成本较高 不可直接选用,需等待或特批
推理延迟 较长(复杂题目更明显),强调完整过程 公开信息显示金牌版本单题可耗时数小时 未公开稳定通道,无法比较
适合人群 教师/教练、研究人员、算法/量化、需要可检验证明的团队 愿为闭源服务付费且接受降级的用户 研究合作与高权限用户

选型建议

  • 教学与竞赛训练:需要完整推导与可检验过程,DeepSeekMath-V2 更贴合;注意准备算力与评审流程。
  • 研究与论文草拟:适合用来生成初步的证明草稿或反例搜索,再配合人工验证与正式排版。
  • 算法/量化场景:用于推导公式、检查推导路径、构建内部验证器;避免直接用于生产决策链。
  • 通用问答/多领域任务:不建议作为主力;对于非数学知识、跨领域常识类任务,通用模型更高效。

总结

从产品视角看,DeepSeekMath-V2 把“可检验的数学推理”以开源的方式落在了专业用户手里。这并不意味着它要替代通用模型,也不是要竞速谁的分数更高。更现实的理解是:如果你的工作依赖严格的逻辑链和可复核的过程,这个模型提供了一个可控的起点;如果你的需求是高并发的通用问答或内容创作,它不是最佳适配。

持续提醒团队的两句话:分数不是能力的全部,过程才是可用性的核心;开源不是没有门槛,而是把可控权交给你。基于这两点来做选型和落地,才是这类模型真正的价值。

参考链接:
DeepSeekMath-V2 模型(Hugging Face)
GitHub 仓库

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:DeepSeek刚刚上新:DeepSeek-Math-V2,直接开源 IMO 金牌数学模型
#DeepSeekMath #DeepSeek #开源模型 
收藏 1
美团 LongCat 全新上线 AI 生图系列模型「LongCat-Image」!精准高效,AI 创作不设限
Athas:用Tauri重新定义轻量级代码编辑器
推荐阅读
  • Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
  • 腾讯开源混元图像模型 3.0(HunyuanImage 3.0),免费开放使用!
  • CodeBuddy订阅套餐上线:体验之后,我觉得还挺值!
  • 麦肯锡《The State of AI》2025 年度报告:AI 的使用已成普遍,但真正把 AI“用好”的企业依然是少数
  • 美团推出更强的免费AI IDE编程工具CatPaw,美团自研开启公测
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
21218 4月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
19368 6月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14530 9月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
13370 11月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12785 7月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
11610 7月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
11435 7月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10297 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9230 11月前
Trae Pro 来了,终于可以告别排队了!这价格真香
7063 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 DeepSeek刚刚上新:DeepSeek-Math-V2,直接开源 IMO 金牌数学模型
2 美团 LongCat 全新上线 AI 生图系列模型「LongCat-Image」!精准高效,AI 创作不设限
3 阿里巴巴通义实验发布全新图像模型:Z-Image(造相),1/3的参数达到商业模型的视觉质量
4 FLUX.2 发布:多参考一致性和文本渲染的明显提升,把图像生成放进生产流程,附官方提示词指南
5 TRAE SOLO 中国版,正式发布!完全免费!
6 最强模型易主!刚刚Claude Opus 4.5发布,发布即降价
7 麦肯锡《The State of AI》2025 年度报告:AI 的使用已成普遍,但真正把 AI“用好”的企业依然是少数
8 Meta宣布彻底解决RAG最大痛点:速度提升30倍,上下文窗口暴增16倍,成本直接腰斩!
9 如何快速体验Gemini 3 Pro?全网 Gemini 3 Pro 的完整体验路径大全
10 Gemini 3.0:Google的生成式UI炸了,告别千篇一律的生成式UI,一句话生成高质量精美UI
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联