10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型

10月前 AI最新动态 2236 0

Anthropic 公司发布了他们最新的 AI 模型。这个新模型叫做 Claude Opus 4.1。

虽然我还没来得及深度测试(毕竟提升幅度看起来不大,短期测试很难感受到具体差异),但从官方数据和社区初步反馈来看,有些东西值得聊聊。

一、性能表现

官方放出的这个表格很有意思,我们来仔细看看:

编程能力全面领先

  • SWE-bench Verified: 74.5%,比Opus 4提升2个点,领先o3整整5.4个百分点

  • Terminal-Bench: 43.3%,这个提升就大了,从39.2%到43.3%,说明在终端操作这种更贴近实际开发的场景下进步明显

这两个指标我特别看重,因为它们测的都是真实场景,不是刷分用的toy problem。

特别是SWE-bench,用的是真实的GitHub issue,这74.5%意味着4个bug它能自己解决3个。

但也不是全面碾压

有意思的是,在一些传统的推理任务上,o3和Gemini 2.5 Pro反而更强:

  • GPQA Diamond(研究生级别推理): o3以83.3%领先,Gemini也有86.4%

  • AIME 2025(高中数学竞赛): o3和Gemini都是88%+,Claude只有78%

这说明什么?Claude在押宝实用性,而不是刷榜。 你想想,日常写代码时,你是更需要解高中奥数题的能力,还是更需要准确重构代码、修bug的能力?

TAU-bench的数据很亮眼

在Agentic tool use(智能体工具使用)这个维度:

  • Retail场景:82.4%,只比Opus 4高1个点

  • Airline场景:56.0%,反而比Opus 4低了3.6个点?

官方解释说他们调整了测试方法,增加了thinking步骤,把最大步数从30提到了100。这其实更贴近真实使用场景——让AI多思考几步,把事情做对,比快速给个错误答案强多了。

更有意思的是社区反馈:

  • GitHub团队说多文件重构准确度提升明显

  • Rakuten说它能精确定位大型代码库的bug,不会乱改不相关的代码

  • Windsurf报告说相当于从Sonnet 3.7到Sonnet 4的提升幅度

OpenAI又难产了!

最近有个数据挺有意思:Anthropic的API收入达到31亿美元,首次超过OpenAI。其中14亿来自Cursor和GitHub Copilot这两个AI编程工具。

这说明什么?在AI编程这个赛道,Claude已经是事实上的王者了。

你看现在国内发布新模型,都是说“接近Claude 4的水平”,没人说接近GPT-4o或o3。

Kimi k2发布时说的是用1/10的成本达到Claude 90%的效果,Qwen3 Coder、GLM-4.5也都是拿Claude当benchmark。

OpenAI最近是有点尴尬的。o3虽然在某些推理任务上很强,但价格贵得离谱,而且在实际编程场景下并没有碾压Claude。Sam Altman天天在X上吊胃口,神神秘秘的,但拿得出手的东西越来越少了。

二、快速使用Opus 4.1

API 调用方式

由于价格一致,Anthropic推荐所有用户从 Opus 4 升级到 4.1,调用模型 ID 为:claude-opus-4-1-20250805

Claude Code

  • Claude Code CLI 内直接支持 Opus 4.1(也是需要订阅的用户)

  • 无需更改参数,可继续使用原来的对话与 agent 工作流

  • 表现升级明显,交互反馈速度及准确性都有显著提升

Cursor使用

Cursor作为Anthropic的大客户,也在第一时间接入了Opus 4.1模型,可以直接使用了。

Claude官网

如果你订阅了Claude,在Claude官网同样可以直接使用Opus 4.1模型了。

最后想说

Claude Opus 4.1 模型本身显然只是个小版本的更新,但Anthropic也借这个模型证明了他们有持续迭代提升模型Coding水平的能力。目前这个水平依旧是领先整个行业的,AI编程的首选。

而且因为Coding和Agent是2025年至今都清晰得不能再清晰的趋势了,他们是真的能为用户为企业解决实实在在的问题,他们也是tokens消耗的大户,所以,不管是OpenAI还是国内的开源大模型们,大家都在这块持续内卷,试图做出更适应Agentic和Coding需求,并且更快速、更便宜的模型。

就目前而言,在不考虑成本的情况下哎,Claude Opus 4.1 是最值得升级使用的编程模型。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型
#Claude Opus 4.1 #Claude #Anthropic 
收藏 1
GPT-5 难产,但开源了 gpt-oss-120b 与 gpt-oss-20b 模型
Conductor:一款Claude Code可视化多开神器
推荐阅读
  • SuperCLUE团队:中文大模型基准测评2024年度报告(报告下载)
  • Warp 2.0:这个媲美Claude code的AI终端工具,刚更新就放出免费领一个月Pro会员!
  • Monica内测发布内置满血版DeepSeek,集聊天、翻译、写作、思维导图、流程图、数据分析等一站式AI助手
  • Hermes 接入 Kimi K2.6 实测:SOTA 代码能力深度评测,不限流但推理速度慢
  • 商汤日日新开放免费Token:DeepSeek V4 Flash 等三大模型免费调用
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
31348 11月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
28569 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
20463 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
20169 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
16371 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
16315 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
15921 11月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
15128 1年前
国产大模型横向对比:Kimi K2.6、GLM-5.1、Qwen3、MiniMax M2 四大模型选型指南
14956 2月前
腾讯ima知识库skills上线:教你如何把腾讯 IMA 知识库接入 OpenClaw 一步打通
14832 3月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Doubao-Seed-2.1 vs DeepSeek-V4 vs GPT-5.5 实测对比:谁最适合 Agent 开发任务?
2 GPT-5.6 预览版发布:三大模型 Sol/Terra/Luna,全球用户暂无法使用
3 TRAE CN 国内版悄然上线对话限额:免费及 Pro 套餐均受影响
4 OpenAI 内部数据:ChatGPT 只剩 0.2%,Agent 已成 AI 默认工具
5 OpenAI 首款自研芯片 Jalapeño:9 个月从设计到流片,专为推理优化
6 QQ 邮箱 Agently Mail:给 AI Agent 一个独立的工位邮箱
7 Anthropic 内部管理分享:高 Agency 与高 Accountability 如何共存
8 谷歌 Gemma 4 12B 实测:原生音频理解+256K 上下文,普通笔记本可运行
9 AI 价格战升级:500 家企业从 Claude 转向 DeepSeek,token 成本成企业首要问题
10 字节 Seedance 2.5 内测完成:支持 30 秒原生视频直出,50 个参考素材
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联