10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型

7月前 AI最新动态 1717 0

Anthropic 公司发布了他们最新的 AI 模型。这个新模型叫做 Claude Opus 4.1。

虽然我还没来得及深度测试(毕竟提升幅度看起来不大,短期测试很难感受到具体差异),但从官方数据和社区初步反馈来看,有些东西值得聊聊。

一、性能表现

官方放出的这个表格很有意思,我们来仔细看看:

编程能力全面领先

  • SWE-bench Verified: 74.5%,比Opus 4提升2个点,领先o3整整5.4个百分点

  • Terminal-Bench: 43.3%,这个提升就大了,从39.2%到43.3%,说明在终端操作这种更贴近实际开发的场景下进步明显

这两个指标我特别看重,因为它们测的都是真实场景,不是刷分用的toy problem。

特别是SWE-bench,用的是真实的GitHub issue,这74.5%意味着4个bug它能自己解决3个。

但也不是全面碾压

有意思的是,在一些传统的推理任务上,o3和Gemini 2.5 Pro反而更强:

  • GPQA Diamond(研究生级别推理): o3以83.3%领先,Gemini也有86.4%

  • AIME 2025(高中数学竞赛): o3和Gemini都是88%+,Claude只有78%

这说明什么?Claude在押宝实用性,而不是刷榜。 你想想,日常写代码时,你是更需要解高中奥数题的能力,还是更需要准确重构代码、修bug的能力?

TAU-bench的数据很亮眼

在Agentic tool use(智能体工具使用)这个维度:

  • Retail场景:82.4%,只比Opus 4高1个点

  • Airline场景:56.0%,反而比Opus 4低了3.6个点?

官方解释说他们调整了测试方法,增加了thinking步骤,把最大步数从30提到了100。这其实更贴近真实使用场景——让AI多思考几步,把事情做对,比快速给个错误答案强多了。

更有意思的是社区反馈:

  • GitHub团队说多文件重构准确度提升明显

  • Rakuten说它能精确定位大型代码库的bug,不会乱改不相关的代码

  • Windsurf报告说相当于从Sonnet 3.7到Sonnet 4的提升幅度

OpenAI又难产了!

最近有个数据挺有意思:Anthropic的API收入达到31亿美元,首次超过OpenAI。其中14亿来自Cursor和GitHub Copilot这两个AI编程工具。

这说明什么?在AI编程这个赛道,Claude已经是事实上的王者了。

你看现在国内发布新模型,都是说“接近Claude 4的水平”,没人说接近GPT-4o或o3。

Kimi k2发布时说的是用1/10的成本达到Claude 90%的效果,Qwen3 Coder、GLM-4.5也都是拿Claude当benchmark。

OpenAI最近是有点尴尬的。o3虽然在某些推理任务上很强,但价格贵得离谱,而且在实际编程场景下并没有碾压Claude。Sam Altman天天在X上吊胃口,神神秘秘的,但拿得出手的东西越来越少了。

二、快速使用Opus 4.1

API 调用方式

由于价格一致,Anthropic推荐所有用户从 Opus 4 升级到 4.1,调用模型 ID 为:claude-opus-4-1-20250805

Claude Code

  • Claude Code CLI 内直接支持 Opus 4.1(也是需要订阅的用户)

  • 无需更改参数,可继续使用原来的对话与 agent 工作流

  • 表现升级明显,交互反馈速度及准确性都有显著提升

Cursor使用

Cursor作为Anthropic的大客户,也在第一时间接入了Opus 4.1模型,可以直接使用了。

Claude官网

如果你订阅了Claude,在Claude官网同样可以直接使用Opus 4.1模型了。

最后想说

Claude Opus 4.1 模型本身显然只是个小版本的更新,但Anthropic也借这个模型证明了他们有持续迭代提升模型Coding水平的能力。目前这个水平依旧是领先整个行业的,AI编程的首选。

而且因为Coding和Agent是2025年至今都清晰得不能再清晰的趋势了,他们是真的能为用户为企业解决实实在在的问题,他们也是tokens消耗的大户,所以,不管是OpenAI还是国内的开源大模型们,大家都在这块持续内卷,试图做出更适应Agentic和Coding需求,并且更快速、更便宜的模型。

就目前而言,在不考虑成本的情况下哎,Claude Opus 4.1 是最值得升级使用的编程模型。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型
#Claude Opus 4.1 #Claude #Anthropic 
收藏 1
GPT-5 难产,但开源了 gpt-oss-120b 与 gpt-oss-20b 模型
KittenTTS:25MB轻量级开源TTS模型,CPU即可运行的离线语音合成方案
推荐阅读
  • DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
  • Cursor 1.3 更新,试完之后我立马撤回了 1.2.4 !
  • 美团 LongCat 全新上线 AI 生图系列模型「LongCat-Image」!精准高效,AI 创作不设限
  • 本地部署开源大模型最新王者 Qwen3.5 原生视觉语言模型,24G显存的本地模型优选
  • Skill(技能)正在成为标配,用Coze在3分钟内创建可商业化的AI Skill
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
26575 8月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
24939 10月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
16989 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
16335 11月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15052 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13548 11月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13490 11月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
12796 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
11069 8月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
10993 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 MiniMax Token Plan 大升级:全球首个支持全模态模型的订阅计划,吊打一众Coding Plan
2 重磅更新:Claude 现可接管整台电脑,鼠标、键盘与屏幕一体化操控
3 一站式搞定多家模型订阅:火山方舟 Coding Plan 畅用 OpenClaw 与 Claude Code
4 cc-weixin:微信 ClawBot 刚开放,在微信里跑 Claude Code ,让 AI 编程实时对话
5 龙虾变身导演?LibTV 重塑视频创作新范式,OpenClaw 实现自动化制片
6 MiniMax M2.7: 开启模型的自我进化,MiniMax-M2.7 深度测评报告
7 宝塔面板一键部署OpenClaw 上新,宿主机安装、面板内管理、打开即可使用
8 腾讯QClaw发布重大更新:微信入口升级为小程序,内测扩容“码管够”
9 30+ Claw项目爆发,Claw生态重绘AI Agent版图
10 MiroFish:用AI智能体群体模拟社会演化,预测未来可能性的开源项目
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联