10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型

4月前 AI最新动态 1270 0

Anthropic 公司发布了他们最新的 AI 模型。这个新模型叫做 Claude Opus 4.1。

虽然我还没来得及深度测试(毕竟提升幅度看起来不大,短期测试很难感受到具体差异),但从官方数据和社区初步反馈来看,有些东西值得聊聊。

一、性能表现

官方放出的这个表格很有意思,我们来仔细看看:

编程能力全面领先

  • SWE-bench Verified: 74.5%,比Opus 4提升2个点,领先o3整整5.4个百分点

  • Terminal-Bench: 43.3%,这个提升就大了,从39.2%到43.3%,说明在终端操作这种更贴近实际开发的场景下进步明显

这两个指标我特别看重,因为它们测的都是真实场景,不是刷分用的toy problem。

特别是SWE-bench,用的是真实的GitHub issue,这74.5%意味着4个bug它能自己解决3个。

但也不是全面碾压

有意思的是,在一些传统的推理任务上,o3和Gemini 2.5 Pro反而更强:

  • GPQA Diamond(研究生级别推理): o3以83.3%领先,Gemini也有86.4%

  • AIME 2025(高中数学竞赛): o3和Gemini都是88%+,Claude只有78%

这说明什么?Claude在押宝实用性,而不是刷榜。 你想想,日常写代码时,你是更需要解高中奥数题的能力,还是更需要准确重构代码、修bug的能力?

TAU-bench的数据很亮眼

在Agentic tool use(智能体工具使用)这个维度:

  • Retail场景:82.4%,只比Opus 4高1个点

  • Airline场景:56.0%,反而比Opus 4低了3.6个点?

官方解释说他们调整了测试方法,增加了thinking步骤,把最大步数从30提到了100。这其实更贴近真实使用场景——让AI多思考几步,把事情做对,比快速给个错误答案强多了。

更有意思的是社区反馈:

  • GitHub团队说多文件重构准确度提升明显

  • Rakuten说它能精确定位大型代码库的bug,不会乱改不相关的代码

  • Windsurf报告说相当于从Sonnet 3.7到Sonnet 4的提升幅度

OpenAI又难产了!

最近有个数据挺有意思:Anthropic的API收入达到31亿美元,首次超过OpenAI。其中14亿来自Cursor和GitHub Copilot这两个AI编程工具。

这说明什么?在AI编程这个赛道,Claude已经是事实上的王者了。

你看现在国内发布新模型,都是说“接近Claude 4的水平”,没人说接近GPT-4o或o3。

Kimi k2发布时说的是用1/10的成本达到Claude 90%的效果,Qwen3 Coder、GLM-4.5也都是拿Claude当benchmark。

OpenAI最近是有点尴尬的。o3虽然在某些推理任务上很强,但价格贵得离谱,而且在实际编程场景下并没有碾压Claude。Sam Altman天天在X上吊胃口,神神秘秘的,但拿得出手的东西越来越少了。

二、快速使用Opus 4.1

API 调用方式

由于价格一致,Anthropic推荐所有用户从 Opus 4 升级到 4.1,调用模型 ID 为:claude-opus-4-1-20250805

Claude Code

  • Claude Code CLI 内直接支持 Opus 4.1(也是需要订阅的用户)

  • 无需更改参数,可继续使用原来的对话与 agent 工作流

  • 表现升级明显,交互反馈速度及准确性都有显著提升

Cursor使用

Cursor作为Anthropic的大客户,也在第一时间接入了Opus 4.1模型,可以直接使用了。

Claude官网

如果你订阅了Claude,在Claude官网同样可以直接使用Opus 4.1模型了。

最后想说

Claude Opus 4.1 模型本身显然只是个小版本的更新,但Anthropic也借这个模型证明了他们有持续迭代提升模型Coding水平的能力。目前这个水平依旧是领先整个行业的,AI编程的首选。

而且因为Coding和Agent是2025年至今都清晰得不能再清晰的趋势了,他们是真的能为用户为企业解决实实在在的问题,他们也是tokens消耗的大户,所以,不管是OpenAI还是国内的开源大模型们,大家都在这块持续内卷,试图做出更适应Agentic和Coding需求,并且更快速、更便宜的模型。

就目前而言,在不考虑成本的情况下哎,Claude Opus 4.1 是最值得升级使用的编程模型。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型
#Claude Opus 4.1 #Claude #Anthropic 
收藏 1
GPT-5 难产,但开源了 gpt-oss-120b 与 gpt-oss-20b 模型
ConvertX:自托管文件转换神器,支持1000+格式,一键转换图片视频文档,隐私完全掌控
推荐阅读
  • 刚刚!阿里 Qwen3-TTS 发布,语音合成能力大幅提升!
  • Gemini CLI 扩展正式上线,让命令行真正变成你的智能助手
  • 各大平台免费 AI 大模型 + API汇总
  • 快手发布 AI 编程矩阵:AI编程工具 CodeFlicker、自研的大模型 KAT-Coder
  • DeepSeek刚刚上新:DeepSeek-Math-V2,直接开源 IMO 金牌数学模型
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
22478 5月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
21123 7月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14651 10月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
14438 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12945 8月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
12706 8月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
12098 8月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10824 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9555 1年前
Trae Pro 来了,终于可以告别排队了!这价格真香
7654 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 智谱 GLM-4.7 旗舰模型发布:总参数355B,代码能力超越 GPT-5,价格仅 1/7!
2 7 个最新 AI 模型,一周模型上新速览清单
3 微软王炸开源 TRELLIS.2!如何改变 3D 生成的交付方式?
4 限时免费:GLM‑4.6在 Cline 免费开放,VS Code + Cline上手体验
5 扣子Coze重磅上线「扣子编程」,智能体、工作流、网页应用,移动应用通通都是一句话搞定!
6 Gemini 3 Flash 正式发布,比国产 AI 更便宜,免费、极速、吊打前代
7 小米发布MiMo V2 Flash模型,而且支持免费接入 Claude Code
8 Wan 2.6:角色与音色可参考,多镜头更稳定,短视频制作更可控
9 智谱一周连续开源8个项目,GLM-4.6V 视觉模型才最大功臣
10 n8n 2.0 来了,到底改了什么?升级迁移项目该怎么做?
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联