10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

GPT-5.5正式发布:全面超越 Claude Opus 4.7,重新夺回 SOTA 宝座

10小时前 AI最新动态 117 0

摘要:OpenAI 正式发布 GPT-5.5,官方定义为"面向真实工作的全新智能类别"。在编程、知识工作、科学推理等多个维度全面超越 Claude Opus 4.7,重新夺回 SOTA 宝座。

本文整合多方信源,详解 GPT-5.5 的核心能力、跑分数据、实际案例与定价策略。

2026 年 4 月 24 日,OpenAI 正式推出 GPT-5.5,官方定位非常直接:"A new class of intelligence for real work"(一种面向真实工作的全新智能)。

这标志着 AI 从辅助工具向自主工作伙伴的根本性转变。

GPT-5.5 综合智能指数对比图

核心跑分数据:全方位领跑

根据第三方评测平台 Artificial Analysis 的综合智能指数,GPT-5.5 在知识、推理、代码、工具使用、长上下文、真实任务等多个维度综合评分达到目前最高分,比 Claude Opus 4.7 和 Gemini 3.1 Pro Preview 高出 3 分。

Terminal-Bench 2.0 跑分对比

关键基准测试成绩

基准测试 GPT-5.5 GPT-5.4 Claude Opus 4.7
Terminal-Bench 2.0 82.7% 75.1% 69.4%
OSWorld(计算机操作) 78.7% - -
GDPval(专家产出质量) 84.9% - -
Expert-SWE(长周期编码) 73.1% - -
SWE-Bench Pro 58.6% - 64.3%
FrontierMath Tier 4 35.4% 27.1% -

苏米注:值得注意的是,GPT-5.5 在 SWE-Bench Pro(真实 GitHub issue 修复)上是唯一低于 Claude Opus 4.7 的项目,这说明在特定场景下 Claude 仍有优势。但综合来看,GPT-5.5 的整体表现更加均衡。

智能体编程:从执行到理解系统架构

GPT-5.5 展现出对复杂系统的深层理解能力。Every 创始人 Dan Shipper 分享了一个典型案例:在应用发布后出现问题时,他花费数天调试无果,最终请来顶尖工程师重写部分系统。为测试 GPT-5.5,他"倒回时钟"让模型查看损坏状态,结果 GPT-5.5 成功生成了与工程师最终决定相同的重写方案,而 GPT-5.4 无法完成这一任务。

智能体编程案例演示

"这是我使用过的第一个具有真正概念清晰度的编码模型,"Shipper 评价道。

MagicPath CEO Pietro Schirano 也见证了类似突破:GPT-5.5 将包含数百个前端和重构更改的分支合并到同样发生重大变化的主分支中,仅用约 20 分钟就一次性解决了所有工作。

官方案例展示:从 Demo 到生产级应用

OpenAI 官方展示了多个编程案例,展示了 GPT-5.5 的实际能力:

太空轨迹可视化

结合真实 NASA/JPL 数据,将飞行轨迹、星体位置和交互展示做出来,观感接近专业的科普应用。

太空轨迹可视化案例

地震追踪器

这更像一个真实的信息看板,数据、标题、指标和页面排版都比较完整,不是粗糙的 Demo。

地震追踪器信息看板

地下城游戏

有了基本的游戏完成度,包括场景、角色、战斗、敌人、HUD 反馈等,说明它能处理更复杂的前端交互和游戏逻辑。

地下城游戏界面

3D 游戏开发

在 Three.js 游戏开发上的能力,从低多边形画面、坦克控制、UFO 飞行到射击反馈,都表现出色。

知识工作:从信息处理到自主决策

GPT-5.5 在文档生成、电子表格和幻灯片制作方面表现优于前代。当结合 Codex 的计算机使用技能时,模型能够真正"与您一起使用计算机":查看屏幕内容、点击、输入、导航界面,并在工具间精确移动。

知识工作自动化应用

OpenAI 内部已将这些优势应用于实际工作流。超过 85% 的员工每周使用 Codex,涵盖软件工程、财务、通信、市场营销等多个职能部门:

  • 通信团队:分析六个月演讲请求数据,建立评分和风险框架,验证自动化 Slack 代理
  • 财务团队:审查 24,771 份 K-1 税表(总计 71,637 页),比前一年提前两周完成任务
  • 市场团队:员工自动化生成周度业务报告,每周节省 5-10 小时

科学研究:从回答问题到推动发现

GPT-5.5 在科学和技术研究工作流上显示出显著进步。在 GeneBench(遗传学和定量生物学中的多阶段科学数据分析评估)上,相比 GPT-5.4 有显著提升。

更令人印象深刻的是,GPT-5.5 帮助发现了关于 Ramsey 数的新证明,这是组合数学中的核心对象。该证明后来在 Lean 中得到验证,展示了 GPT-5.5 不仅提供代码或解释,还能在核心研究领域贡献令人惊讶且有用的数学论证。

科学研究应用案例

波兰亚当·密茨凯维奇大学数学助理教授 Bartosz Naskręcki 使用 GPT-5.5 在 11 分钟内从单一提示构建了代数几何应用,可视化二次曲面交点并将结果曲线转换为 Weierstrass 模型。

Codex 浏览器交互:从阅读到操作

随着 GPT-5.5 的推出,Codex 现在能够更有效地在浏览器、文件、文档和计算机应用中完成工作。OpenAI 显著扩展了浏览器的使用能力,使 Codex 可以与 Web 应用交互、测试流程、点击页面、捕获截图,并根据所见内容迭代直到完成任务。

技术社区对此反应热烈。aipulsedaily 指出:"'根据所见内容迭代'是关键短语。截图结果、视觉识别错误、修复、重复。这正是开发者实际需要的前端测试循环。"

性能与效率的双重突破

GPT-5.5 在保持与 GPT-5.4 相同每 token 延迟的同时,在几乎所有评测中都表现更好。更重要的是,它在完成相同 Codex 任务时使用的 token 数量显著减少,使其既更高效又更强大。

Codex 分析了几周的生产流量模式,并编写了自定义的调度算法来最优地分区和平衡工作。该努力产生了超出预期的影响,将 token 生成速度提高了 20% 以上。

API 定价策略

GPT-5.5 今天向 ChatGPT 和 Codex 的 Plus、Pro、Business 和 Enterprise 用户推出。

模型 输入 Token(每百万) 输出 Token(每百万) 说明
gpt-5.5 $5 $30 标准版本
gpt-5.5-pro $30 $180 专业版本
Fast 模式 生成速度提高 1.5 倍,成本为 2.5 倍 高速模式

虽然 GPT-5.5 的定价高于 GPT-5.4,但它既更聪明又更加 token 高效。在 Codex 中,OpenAI 已经细心调整体验,以便 GPT-5.5 为大多数用户使用更少的 token 获得更好的结果。

技术社区反响

Cursor 联合创始人兼 CEO Michael Truell:"GPT-5.5 明显比 GPT-5.4 更聪明、更持久,具有更强的编码性能和更可靠的工具使用。它在没有提前停止的情况下保持任务的时间显著更长,这对我们用户委托给 Cursor 的复杂、长期运行的工作最为重要。"

NVIDIA 企业 AI 副总裁 Justin Boitano:"GPT-5.5 提供了执行密集型工作所需的持续性能。构建和服务于 NVIDIA GB200 NVL72 系统上,该模型使我们的团队能够从自然语言提示中发布端到端功能,将调试时间从几天缩短到几小时,并将数周的实验转化为复杂代码库中的隔夜进展。"

从能力分数到完成率的转变

随着 GPT-5.5 的推出,单次提示的时代似乎正在过去。智能体工作流将成为新的标准,而完成率而非能力分数,将成为衡量 AI 实际价值的关键指标。

正如一位开发者评论:"每个初创公司高管读到这个都会批准一个项目,现在每个任务可以调用 10 倍以上的 API,因为基本上免费了。"

模型质量在狭窄范围内趋于平稳,但完成率在整个工作流中复合增长。GPT-5.5 的发布标志着 AI 正从"有多聪明"向"有多少任务可以在无需人工干预的情况下端到端完成"的根本性转变。

参考资料:

  • Artificial Analysis - GPT-5.5 评测
  • OpenAI 官方博客 - Introducing GPT-5.5
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:GPT-5.5正式发布:全面超越 Claude Opus 4.7,重新夺回 SOTA 宝座
#GPT-5.5 #OpenAI #Claude Opus 4.7 #AI 模型 #智能体编程 
收藏 1
Hermes Agent 安装完整教程:一键部署 + 四种安装方式 + 问题急救指南
YC 总裁 Garry Tan 开源 GBrain:给 AI Agent 装上长期记忆,12 天打造自进化记忆系统
推荐阅读
  • Windsurf Wave 8 重新定义AI编辑器,自定义工作流与多线程模式的革新
  • 从视频到网页与代码:Kimi K2.5的多模态复现能力与Kimi Code实测
  • LM Studio发布LM Link:把家里的4090算力装进你的笔记本
  • DeepSeek-V3 模型更新版本号 DeepSeek-V3-0324,推理能力、代码编写、中文写作等方面全面提升(提示词分享)
  • MiniMax M2.5 发布:国产 Agent 迈入低成本高可用阶段,OpenClaw 之父多次点名推荐
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
28518 9月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
26158 11月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
17659 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
17570 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15282 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
14112 1年前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13921 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13746 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
12978 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
11635 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 GPT-5.5正式发布:全面超越 Claude Opus 4.7,重新夺回 SOTA 宝座
2 OpenAI Workspace Agents 发布:一句话为团队创建 AI Agent,5 月 6 日前免费
3 OpenAI Workspace Agents 发布:GPTs 已死,云端龙虾限时免费至 5 月 6 日
4 智谱老套餐启动迁移:无周限额方案退场,这回我兄弟真买不到了
5 GPT Images 2.0 实测:10 大应用场景详解,中文字体支持重大升级
6 阿里云腾讯云全面停售 Coding Plan:AI 编程低价时代终结,开发者如何应对
7 Anthropic 移除 Claude Code 从 Pro 套餐,AI 算力全面收紧,20 美元时代终结
8 阿里云下架 Coding Plan 全面切换 Token Plan,AI 编程低价时代终结,换还是换?
9 GPT-Image-2 全量上线:中文能力大爆发,50+ 案例实测生图效果
10 Gemma 4 + TurboQuant:Google开源模型新方案,本地部署 LLM 内存降低 83%
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联