当前位置：首页 » AI最新动态

OpenAI与Anthropic同时炸场，GPT-5.3-Codex 做手，Claude Opus 4.6 做脑

2小时前 AI最新动态 28 0

过去48小时，AI领域迎来罕见的双巨头同步发布：OpenAI 推出 GPT-5.3-Codex，Anthropic 紧随其后上线 Claude Opus 4.6。

作为长期跟踪大模型演进的产品经理，我第一时间对比了双方的技术文档和基准测试数据。

一个清晰的结论浮现出来：两家公司正在沿着完全不同的路径优化模型——一个强化“执行能力”，一个深耕“认知能力”。

跑分背后的战略差异

先看关键基准测试结果：

测试基准	GPT-5.3-Codex	Claude Opus 4.6	差异解读
Terminal-Bench 2.0（终端操作）	77.3%	65.4%	OpenAI 在系统级操作上优势明显
GDPval（知识工作深度）	—	领先约144 Elo分	Anthropic 在复杂推理任务中表现更优

这两组数据并非偶然。它们反映了两种产品哲学：

OpenAI 的策略：让模型成为“能动手的智能体”——可操作系统、编写代码、执行多步骤任务；

Anthropic 的策略：让模型成为“具备长时记忆的思考者”——能处理超长上下文、保持信息一致性、进行深度逻辑推演。

Claude Opus 4.6：解决“长上下文失忆症”

Opus 4.6 最核心的突破是 100万 token 上下文窗口，并实质性解决了长期困扰行业的“上下文衰减”问题。

过去的问题很现实：模型在对话后期会遗忘早期信息，甚至虚构细节。

例如 Sonnet 4.5 在长文本一致性测试中准确率仅 18.5%。而 Opus 4.6 将这一指标提升至 76%。

这意味着什么？
你可以将数百份合同、整套技术规范或多年项目文档一次性输入，模型不仅能通读，还能在第90万个token处准确指出与第100个token存在的逻辑矛盾。

这种能力对法律、合规、架构评审等场景具有直接价值。

为实现这一点，Anthropic 引入了 自适应思考机制（Adaptive Thinking）：

模型根据问题复杂度自主选择“快思考”或“慢思考”；
当上下文接近容量上限时，自动压缩低优先级记忆，为新任务腾出空间。

这不再是简单的“记住更多”，而是模拟人类的认知资源管理。

GPT-5.3-Codex：从写代码到“用电脑干活”

相比之下，GPT-5.3-Codex 的进化方向更偏向“行动力”。

最值得关注的不是它写了多少代码，而是它 参与了自己的研发过程：OpenAI 团队使用早期版本的 Codex 来调试训练流程、管理部署、分析评估结果。

这标志着 AI 自举（self-bootstrapping）进入实践阶段。

在具体能力上：

OSWorld 桌面操作测试得分从 38.2% 跃升至 64.7%，表明其已能可靠地操作图形界面；
可完成端到端任务链：打开浏览器查资料 → 用 Excel 分析数据 → 撰写 PRD → 邮件发送给团队；
成为 OpenAI 首个被认定具备“高网络安全能力”的模型，在渗透测试、漏洞分析等场景表现突出。

简言之，Codex 正从“编程助手”转变为“数字员工”。

协作模式升级：Agent Teams vs. 自主执行

除了模型本身，协作机制也在分化。

Claude Opus 4.6 新增 Agent Teams 功能（实验性），允许用户启动多个独立智能体协同工作。其架构包含：

Team Lead：主会话，负责任务分配与结果整合；
Teammates：独立 Claude Code 实例，拥有各自上下文；
Task List：共享任务池，支持依赖关系与认领机制；
Mailbox：支持 teammate 间直接通信，甚至互相质疑。

与 Subagents 不同，Agent Teams 中的成员可直接对话、交叉验证，适合前后端分离开发、跨模块联调等场景。

而 GPT-5.3-Codex 更强调单智能体的全流程自主执行，通过工具调用链完成复杂任务，无需显式拆分角色。

总结：2026，Agent 落地元年？

六个月前，我们还在争论 AI 能否正确实现一个函数；如今，讨论焦点已转向 AI 能否管理整个软件生命周期。

如果你需要一个能深入理解复杂文档、保持逻辑一致、进行战略级推理的伙伴，Claude Opus 4.6 提供了目前最可靠的长上下文体验；
如果你希望 AI 直接操作系统、执行多工具任务链、充当自动化执行单元，GPT-5.3-Codex 展现出更强的行动能力。

正如 Sam Altman 所言：“方向变了——不是让模型写更多代码，而是让模型用代码去搞定一切。”
2026 年，或许不会是“通用人工智能”的元年，但很可能是 专业级智能体（Specialized Agents）真正落地的一年。

作为产品经理，我们需要思考的不再是“AI 能做什么”，而是“如何设计人机协作的工作流”。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：OpenAI与Anthropic同时炸场，GPT-5.3-Codex 做手，Claude Opus 4.6 做脑

#GPT-5.3-Codex #Claude Opus 4.6

请登录后发表评论