10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型

5天前 AI最新动态 363 0

Anthropic 公司发布了他们最新的 AI 模型。这个新模型叫做 Claude Opus 4.1。

虽然我还没来得及深度测试(毕竟提升幅度看起来不大,短期测试很难感受到具体差异),但从官方数据和社区初步反馈来看,有些东西值得聊聊。

一、性能表现

官方放出的这个表格很有意思,我们来仔细看看:

编程能力全面领先

  • SWE-bench Verified: 74.5%,比Opus 4提升2个点,领先o3整整5.4个百分点

  • Terminal-Bench: 43.3%,这个提升就大了,从39.2%到43.3%,说明在终端操作这种更贴近实际开发的场景下进步明显

这两个指标我特别看重,因为它们测的都是真实场景,不是刷分用的toy problem。

特别是SWE-bench,用的是真实的GitHub issue,这74.5%意味着4个bug它能自己解决3个。

但也不是全面碾压

有意思的是,在一些传统的推理任务上,o3和Gemini 2.5 Pro反而更强:

  • GPQA Diamond(研究生级别推理): o3以83.3%领先,Gemini也有86.4%

  • AIME 2025(高中数学竞赛): o3和Gemini都是88%+,Claude只有78%

这说明什么?Claude在押宝实用性,而不是刷榜。 你想想,日常写代码时,你是更需要解高中奥数题的能力,还是更需要准确重构代码、修bug的能力?

TAU-bench的数据很亮眼

在Agentic tool use(智能体工具使用)这个维度:

  • Retail场景:82.4%,只比Opus 4高1个点

  • Airline场景:56.0%,反而比Opus 4低了3.6个点?

官方解释说他们调整了测试方法,增加了thinking步骤,把最大步数从30提到了100。这其实更贴近真实使用场景——让AI多思考几步,把事情做对,比快速给个错误答案强多了。

更有意思的是社区反馈:

  • GitHub团队说多文件重构准确度提升明显

  • Rakuten说它能精确定位大型代码库的bug,不会乱改不相关的代码

  • Windsurf报告说相当于从Sonnet 3.7到Sonnet 4的提升幅度

OpenAI又难产了!

最近有个数据挺有意思:Anthropic的API收入达到31亿美元,首次超过OpenAI。其中14亿来自Cursor和GitHub Copilot这两个AI编程工具。

这说明什么?在AI编程这个赛道,Claude已经是事实上的王者了。

你看现在国内发布新模型,都是说“接近Claude 4的水平”,没人说接近GPT-4o或o3。

Kimi k2发布时说的是用1/10的成本达到Claude 90%的效果,Qwen3 Coder、GLM-4.5也都是拿Claude当benchmark。

OpenAI最近是有点尴尬的。o3虽然在某些推理任务上很强,但价格贵得离谱,而且在实际编程场景下并没有碾压Claude。Sam Altman天天在X上吊胃口,神神秘秘的,但拿得出手的东西越来越少了。

二、快速使用Opus 4.1

API 调用方式

由于价格一致,Anthropic推荐所有用户从 Opus 4 升级到 4.1,调用模型 ID 为:claude-opus-4-1-20250805

Claude Code

  • Claude Code CLI 内直接支持 Opus 4.1(也是需要订阅的用户)

  • 无需更改参数,可继续使用原来的对话与 agent 工作流

  • 表现升级明显,交互反馈速度及准确性都有显著提升

Cursor使用

Cursor作为Anthropic的大客户,也在第一时间接入了Opus 4.1模型,可以直接使用了。

Claude官网

如果你订阅了Claude,在Claude官网同样可以直接使用Opus 4.1模型了。

最后想说

Claude Opus 4.1 模型本身显然只是个小版本的更新,但Anthropic也借这个模型证明了他们有持续迭代提升模型Coding水平的能力。目前这个水平依旧是领先整个行业的,AI编程的首选。

而且因为Coding和Agent是2025年至今都清晰得不能再清晰的趋势了,他们是真的能为用户为企业解决实实在在的问题,他们也是tokens消耗的大户,所以,不管是OpenAI还是国内的开源大模型们,大家都在这块持续内卷,试图做出更适应Agentic和Coding需求,并且更快速、更便宜的模型。

就目前而言,在不考虑成本的情况下哎,Claude Opus 4.1 是最值得升级使用的编程模型。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型
#Claude Opus 4.1 #Claude #Anthropic 
收藏 1
GPT-5 难产,但开源了 gpt-oss-120b 与 gpt-oss-20b 模型
MCP 初学者教程:微软官方推出的 MCP入门指南
推荐阅读
  • 2025最值的联合会员,Lenny's Newsletter到底值不值得冲?独立开发者的春天?
  • Windsurf新LOGO和新免费计划:全面升级的AI编程体验
  • Anthropic对Claude用户实施限流,Claude Code使用或受影响!
  • 又是“最强模型”的一天!Google Gemini 2.5 Pro更新,性能再次跃升
  • 谷歌这波太狠了!谷歌I/O 2025 AI全面爆发,Gemini 2.5 Pro、AI Agents、XR眼镜…开启AI新纪元
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
13858 3周前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
13841 5月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
12680 3月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
10753 3月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
10387 8月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
9180 3月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
8073 5月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
7540 7月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
6195 3月前
字节全新AI编程 IDE:Trae!性能对标Cursor,标配Claude 3.5和GPT-4o,免费无限量
5461 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 各大平台免费 AI 大模型 + API汇总
2 Cursor一发三连:免费 GPT-5、Cursor CLI、Cursor 1.4王炸发布!
3 GPT-5终于发布,到底有多强?速览关键升级点
4 Anthropic 和吴恩达公司联合推出了 一个 Claude Code 免费课程:高度自主的编程助手
5 Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型
6 GPT-5 难产,但开源了 gpt-oss-120b 与 gpt-oss-20b 模型
7 Cursor 1.3 更新,试完之后我立马撤回了 1.2.4 !
8 Edge Copilot模式体验:微软的AI浏览器来了
9 GPT‑5来了?Cursor、Copilot、macOS等悄悄内测,全网疯传GPT-5泄露!
10 OpenAI新上线的「学习模式」,ChatGPT秒变AI老师了
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
程序库 免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 申请友联