今天凌晨,Anthropic 发布了 Claude Opus 4.5。这个模型在编码、智能体、计算机使用等领域刷新了行业记录。

这一次,Anthropic 没让人失望。

在软件工程基准测试中,Opus 4.5 拿下了 80.9% 的准确率。这个成绩超过了所有竞争对手。包括 GPT-5-Codex-Max、Gemini 3 Pro,还有上一代的 Opus 4.1。

更让人惊喜的是,价格直接降到了原来的五分之一。还有一个重大的突破在于它「理解」了什么叫做复杂任务。
不再需要保姆式指导
过去我们用 AI 编程时,经常遇到这样的情况。
你给它一个任务。它会问你要更多细节。你补充细节后,它又会问其他问题。来回几轮,你才能得到想要的结果。
Opus 4.5 改变了这个流程。
Anthropic 的工程师说,Opus 4.5 能够自己处理模糊性。它会权衡不同方案。它不需要你手把手地教。
举个例子。你让它修复一个涉及多个系统的 bug。传统 AI 可能会让你先定位问题出在哪里。但 Opus 4.5 会自己分析代码,找出问题所在,然后给出修复方案。
Anthropic 用一句话总结了这个特点:"Opus 4.5 just 'gets it.'"
它懂了。

我们来看看具体的测试结果
在 SWE-bench Verified 测试中,Opus 4.5 达到了 80.9%。这是目前最高的成绩。
Sonnet 4.5 是 77.2%。Opus 4.1 是 74.5%。GPT-5-Codex-Max 是 77.9%。Gemini 3 Pro 是 76.2%。
在终端编码任务中,Opus 4.5 的表现更加突出。它的准确率是 59.3%。比 Sonnet 4.5 高出 15 个百分点。
工具使用能力也很强。在 IF bench 测试中,Opus 4.5 得分 88.9%。在 TAU bench 中,得分更是达到了 98.2%。

这些数字说明 Opus 4.5 不仅能写代码,还能理解复杂的工作流程。它能够在多个步骤中保持推理能力,自主完成长期任务。
价格降了,能力反而更强了
以前 Opus 系列一直有个问题:太贵了。很多人只能在关键任务时才舍得用一次。
现在 Opus 4.5 的价格是:输入 5 美元 / 百万 tokens,输出 25 美元 / 百万 tokens。这个价格比之前的 Opus 便宜了很多。你可以把它当成日常工作的主力模型来用。
更神奇的是,Opus 4.5 用更少的 tokens 就能完成任务。在某些场景下,它比 Sonnet 4.5 少用 76% 的输出 tokens,但是效果还更好。
用户都在说什么?
Anthropic 在发布前让很多合作伙伴提前测试了这个模型。他们的反馈很有意思。
Cursor 的 CEO Michael Truell 说:Opus 4.5 在困难的编码任务上表现更好,价格还降了。
Devin 的 CEO Scott Wu 说:Opus 4.5 在最难的评估中表现出色,能在 30 分钟的自主编码会话中保持稳定性能。
Lovable 的 CTO Fabian Hedin 说:Opus 4.5 的推理深度改变了项目规划方式,好的规划让代码生成变得更好。
这些评价有个共同点:大家都觉得 Opus 4.5 "懂了"。它能理解模糊的需求,能权衡不同方案的利弊,不需要你手把手教。
技术上有什么新东西?
1. Effort 参数
这次 API 新增了一个 effort 参数。你可以控制模型的思考深度。
如果你想快速得到答案,可以设置较低的 effort。如果你需要模型深入思考,可以设置较高的 effort。
在中等 effort 下,Opus 4.5 就能达到 Sonnet 4.5 的最佳成绩,但是少用 76% 的输出 tokens。在最高 effort 下,它的成绩比 Sonnet 4.5 高出 4.3 个百分点,同时少用 48% 的 tokens。

2. 上下文管理
长对话不再有限制了。Claude 会自动总结早期的上下文。你可以一直聊下去,不用担心撞到上限。
在复杂研究任务中,结合上下文管理、记忆能力和高级工具使用,Opus 4.5 的表现提升了近 15 个百分点。
3. 多智能体协作
Opus 4.5 很擅长管理多个子智能体。你可以让不同的智能体负责不同的任务,Opus 4.5 来协调它们。
安全性也提升了
Anthropic 说 Opus 4.5 是他们发布过的最安全的模型。
在对抗提示注入攻击方面,Opus 4.5 比其他前沿模型都更难被欺骗。黑客或网络罪犯想要通过恶意指令误导模型,会变得更困难。

产品生态更新
1. Claude Code 升级
Claude Code 现在有了计划模式。它会先问清楚需求,然后生成一个可编辑的 plan.md 文件,最后再执行。
桌面版 Claude Code 也发布了。你可以同时运行多个本地或远程会话。一个智能体修 bug,另一个智能体查 GitHub,第三个智能体更新文档。
2. Chrome 和 Excel 集成
Claude for Chrome 现在向所有 Max 用户开放。它可以在浏览器标签页中帮你处理任务。
Claude for Excel 扩大了测试范围。现在所有 Max、Team 和 Enterprise 用户都可以用了。
3. 使用限制调整
对于可以使用 Opus 4.5 的用户,Anthropic 取消了 Opus 专属的限额。
Max 和 Team Premium 用户的整体使用限额提高了。你现在可以获得和之前 Sonnet 差不多的 Opus tokens 数量。
一个有趣的细节
Anthropic 有个出了名难的性能工程师招聘测试。他们也拿这个测试来评估模型。
在规定的 2 小时时间内,Claude Opus 4.5 的得分超过了历史上所有人类候选人。
这个测试主要考察技术能力和时间压力下的判断力。它不测试协作、沟通这些能力。但是这个结果说明,AI 在某些技术技能上已经达到了很高的水平。
怎么开始使用?
Opus 4.5 现在就可以用了。
如果你用 Claude 应用,直接选择 Opus 4.5 模型就行。
如果你是 Cursor 用户,可以直接在 Cursor 中使用 Opus 4.5 模型。

Elon Musk 回应了
Claude 官方推特发布了 Opus 4.5 的消息。Elon Musk 看到后回复说:"Grok might do better with v4.20. We shall see."
他说 Grok v4.20 可能表现更好。
这个回应很有意思,说明 AI 大模型的竞争正在加速,各家都在推出更强的模型。
但从目前的基准测试来看,Opus 4.5 的表现确实领先。