当前位置：首页 » AI最新动态

Claude Opus 4.7 发布：长任务处理能力与自我验证升级，企业测试数据详解

2小时前 AI最新动态 12 0

苏米注：Anthropic 刚刚发布迄今为止最强大的 Opus 模型 4.7 版本。相比前代 4.6 版本，它在处理长任务时更加严谨，能更精确地遵循指令，并在反馈前验证自己的输出。这意味着用户可以更放心地将复杂工作交给它处理，减少监督需求。

一、核心能力提升

1. 长任务严谨性

Opus 4.7 对复杂、长时间运行的任务保持严谨和一致性。早期测试者反馈，它能处理那些以前需要密切监督的最困难编码工作。模型会在计划阶段捕获自己的逻辑错误，并加快执行速度。

2. 视觉能力突破

支持更高分辨率图像，长边最高 2576 像素（约 375 万像素），是之前 Claude 模型的 3 倍多。这为计算机使用代理读取密集截图、从复杂图表中提取数据等应用打开了新可能。

苏米注：这个视觉能力升级对于需要处理复杂图表、密集 UI 截图的场景非常实用。

3. 指令遵循精度

Opus 4.7 严格遵循指令细节，这意味着为早期模型编写的提示词可能需要重新调整。在实际使用中，它会对技术讨论推回，帮助用户做出更好的决策。

4. 记忆能力提升

Opus 4.7 更好地使用文件系统基于的记忆，能在长时间、多会话工作中记住重要备忘录，并在转向新任务时减少前期上下文需求。

二、企业级应用表现

根据 28 家企业的测试反馈，Opus 4.7 在多个领域表现突出：

公司	提升表现
Hex	低努力级别的 Opus 4.7 大致相当于中等努力级别的 Opus 4.6
Cursor	在 CursorBench 上达到 70% 通过率，相比 Opus 4.6 的 58% 有显著提升
CodeRabbit	代码审查召回率提升超过 10%，能发现最复杂 PR 中最难检测的 bug
XBOW	视觉识别准确率从 54.5% 跃升至 98.5%，解锁了之前无法使用的应用场景

三、新增功能

xhigh 努力级别

在 high 和 max 之间新增额外高努力级别，为困难问题提供更精细的推理 - 延迟权衡控制。

/ultrareview 命令

专门代码审查会话，标记审阅者会注意的问题。Pro 和 Max 用户可获得 3 次免费试用。

自动模式扩展

为 Max 用户扩展自动模式，减少长任务中断。

四、安全特性

作为 Project Glasswing 计划的一部分，Opus 4.7 的网络安全能力被有意限制，并配备了自动检测和阻止高风险网络安全请求的防护措施。

苏米注：安全专业人员可通过新的网络安全验证计划申请合法使用。

五、技术迁移注意事项

分词器更新

Opus 4.7 使用更新的分词器，相同输入可能映射到更多 token（约 1.0-1.35 倍，取决于内容类型）。

测试数据显示：

Claude Opus 4.7 处理相同内容使用了 5657 个 token
比 4.6 版本的 4262 个 token 高出 33%
与 Gemini Pro 的 2742 个 token 相比，更是多出 106%

踩坑记录：从这个角度看，4.7 相较于 4.6 更贵。

思考深度增加

在更高努力级别（特别是代理设置的后期回合）思考更多，提高可靠性但产生更多输出 token。

六、实际应用案例

Rust 语音引擎

Opus 4.7 自主构建了完整的 Rust 文本转语音引擎——包括神经网络模型、SIMD 内核和浏览器演示，然后通过语音识别器验证输出与 Python 参考匹配。

企业文档分析

在 Databricks 的 OfficeQA Pro 评估中，使用源信息时的错误比 Opus 4.6 减少 21%。

终端操作

通过 Terminal Bench 任务，包括 Opus 4.6 无法解决的并发 bug。

七、定价和可用性

Opus 4.7 现已通过以下渠道提供：

Claude 官网（http://claude.ai）
Claude 平台
所有主要云平台

定价（与 Opus 4.6 相同）：

输入 token：每百万 5 美元
输出 token：每百万 25 美元

开发者可通过 Claude API 使用 claude-opus-4-7 模型。

八、总结

Claude Opus 4.7 在长任务处理、视觉能力、指令遵循和记忆管理方面都有显著提升。对于需要处理复杂编码任务、分析高分辨率图像、进行深度代码审查的企业用户来说，这是一个值得升级的版本。

最佳实践：由于分词器更新导致 token 使用量增加，建议在迁移到 4.7 时重新评估成本预算，并调整提示词以充分利用其更严格的指令遵循能力。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Claude Opus 4.7 发布：长任务处理能力与自我验证升级，企业测试数据详解

请登录后发表评论