苏米注:Anthropic 刚刚发布迄今为止最强大的 Opus 模型 4.7 版本。相比前代 4.6 版本,它在处理长任务时更加严谨,能更精确地遵循指令,并在反馈前验证自己的输出。这意味着用户可以更放心地将复杂工作交给它处理,减少监督需求。

一、核心能力提升
1. 长任务严谨性
Opus 4.7 对复杂、长时间运行的任务保持严谨和一致性。早期测试者反馈,它能处理那些以前需要密切监督的最困难编码工作。模型会在计划阶段捕获自己的逻辑错误,并加快执行速度。
2. 视觉能力突破
支持更高分辨率图像,长边最高 2576 像素(约 375 万像素),是之前 Claude 模型的 3 倍多。这为计算机使用代理读取密集截图、从复杂图表中提取数据等应用打开了新可能。
苏米注:这个视觉能力升级对于需要处理复杂图表、密集 UI 截图的场景非常实用。
3. 指令遵循精度
Opus 4.7 严格遵循指令细节,这意味着为早期模型编写的提示词可能需要重新调整。在实际使用中,它会对技术讨论推回,帮助用户做出更好的决策。
4. 记忆能力提升
Opus 4.7 更好地使用文件系统基于的记忆,能在长时间、多会话工作中记住重要备忘录,并在转向新任务时减少前期上下文需求。
二、企业级应用表现

根据 28 家企业的测试反馈,Opus 4.7 在多个领域表现突出:
| 公司 | 提升表现 |
|---|---|
| Hex | 低努力级别的 Opus 4.7 大致相当于中等努力级别的 Opus 4.6 |
| Cursor | 在 CursorBench 上达到 70% 通过率,相比 Opus 4.6 的 58% 有显著提升 |
| CodeRabbit | 代码审查召回率提升超过 10%,能发现最复杂 PR 中最难检测的 bug |
| XBOW | 视觉识别准确率从 54.5% 跃升至 98.5%,解锁了之前无法使用的应用场景 |
三、新增功能
xhigh 努力级别
在 high 和 max 之间新增额外高努力级别,为困难问题提供更精细的推理 - 延迟权衡控制。
/ultrareview 命令
专门代码审查会话,标记审阅者会注意的问题。Pro 和 Max 用户可获得 3 次免费试用。
自动模式扩展
为 Max 用户扩展自动模式,减少长任务中断。
四、安全特性
作为 Project Glasswing 计划的一部分,Opus 4.7 的网络安全能力被有意限制,并配备了自动检测和阻止高风险网络安全请求的防护措施。
苏米注:安全专业人员可通过新的网络安全验证计划申请合法使用。
五、技术迁移注意事项

分词器更新
Opus 4.7 使用更新的分词器,相同输入可能映射到更多 token(约 1.0-1.35 倍,取决于内容类型)。
测试数据显示:
- Claude Opus 4.7 处理相同内容使用了 5657 个 token
- 比 4.6 版本的 4262 个 token 高出 33%
- 与 Gemini Pro 的 2742 个 token 相比,更是多出 106%
踩坑记录:从这个角度看,4.7 相较于 4.6 更贵。
思考深度增加
在更高努力级别(特别是代理设置的后期回合)思考更多,提高可靠性但产生更多输出 token。

六、实际应用案例
Rust 语音引擎
Opus 4.7 自主构建了完整的 Rust 文本转语音引擎——包括神经网络模型、SIMD 内核和浏览器演示,然后通过语音识别器验证输出与 Python 参考匹配。
企业文档分析
在 Databricks 的 OfficeQA Pro 评估中,使用源信息时的错误比 Opus 4.6 减少 21%。
终端操作
通过 Terminal Bench 任务,包括 Opus 4.6 无法解决的并发 bug。
七、定价和可用性

Opus 4.7 现已通过以下渠道提供:
- Claude 官网(http://claude.ai)
- Claude 平台
- 所有主要云平台
定价(与 Opus 4.6 相同):
- 输入 token:每百万 5 美元
- 输出 token:每百万 25 美元
开发者可通过 Claude API 使用 claude-opus-4-7 模型。
八、总结
Claude Opus 4.7 在长任务处理、视觉能力、指令遵循和记忆管理方面都有显著提升。对于需要处理复杂编码任务、分析高分辨率图像、进行深度代码审查的企业用户来说,这是一个值得升级的版本。
最佳实践:由于分词器更新导致 token 使用量增加,建议在迁移到 4.7 时重新评估成本预算,并调整提示词以充分利用其更严格的指令遵循能力。