10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

重磅!Gemini 3深夜突袭:碾压GPT-5.1、超越Claude 4.5,Antigravity AI IDE 同步上线

1小时前 AI最新动态 17 0

推特上喊了快 1个月的 Gemini 3「马上发布」,昨晚狼真的来了!

没有任何多余的废话,打开 Model Card,满眼写着的只有两个字:碾压。连 Sam Altman 都久违地献上了自己的点赞。

这一次,那个曾经定义了 Transformer、如今「All in Gemini」的巨人,真的杀回来了。

全面霸榜的推理怪兽

事实证明,Google 没有让等待的人失望。Gemini 3 Pro 的发布再一次定义了 SOTA(State-Of-The-Art)。

根据 Google 披露的数据,Gemini 3 Pro 在推理、多模态、Agent 工具使用等关键基准上,实现了全方位的霸榜。

  • 数学能力的「地狱级」碾压: 在数学竞赛的「地狱模式」MathArena Apex 里,当包括 GPT-5.1 在内的其他大模型还在 1% 上下挣扎时,Gemini 3 Pro 直接干到了 23.4%。这就像小学生还在掰手指算加减法,旁边的 Gemini 3 已经开始徒手搓火箭了。
  • 人类智力的天花板: 在 Humanity’s Last Exam(人类最终大考)中,Gemini 3 Pro 轰出了 37.5% 的高分(GPT-5.1 为 26.5%)。在开启工具使用后,更是达到了 45.8%。
  • 视觉智能的质变: 在衡量屏幕理解能力的 ScreenSpot-Pro 测试中,GPT-5.1 得分仅为 3.5%(基本是瞎子),而 Gemini 3 Pro 高达 72.7%。这是近乎 20 倍 的能力碾压!

但这还不是极限。Google 还藏了一手 Gemini 3 Deep Think(深度思考模式)。

在不使用任何工具的情况下,Deep Think 模式在 Humanity's Last Exam 上的得分飙升至 41.0%。在 ARC-AGI-2 上更是取得了前所未有的 45.1% 的得分。这意味着模型在处理复杂学术问题时,已经具备了完全不同的理解深度。

颠覆性的交互体验:生成式 UI 与 Vibe Coding

Gemini 3 的野心不止于跑分,它正在从 Chatbot 进化为 Generative App。

首创「生成式界面」(GenUI):以前的 AI 给你文字或代码,现在的 Gemini 3 能直接为你生成一个交互界面。比如搜索「RNA 聚合酶工作原理」,它不再扔给你一堆链接,而是利用强大的推理能力,即时生成(Generated on the fly) 一个沉浸式的互动 3D 分子模型。你不仅可以浏览,还能点进去和里面的元素交互。

Vibe Coding:理解你的「直觉」Gemini 3 引入了「Vibe Coding」概念。你不需要清楚地描述开发要求,它能捕捉你的开发风格和模糊意图。只用一句话,Gemini 3 就能通过感知你的「编码直觉」,直接生成全功能的应用程序。

实测了几个案例,前端能力简直炸裂:

  • 复刻 Web OS: 仅仅输入一段 Prompt,要求创建一个类似 Windows 的 Web OS。Gemini 3 Pro 写了将近 2 分钟,结果真的生造了一个系统!从终端、代码编辑器到画图工具,大部分功能竟然都是可用的。
  • 复古 3D 游戏: 编写一款具有丰富视觉效果的太空飞船游戏,一句话搞定(from 机器之心」

Google Antigravity

有了最强的模型,Google 直接在应用层「掀桌子」,扔出了小王炸——Google Antigravity。

这不仅仅是一个 IDE,它是 Google 定义的 Agent-first(智能体优先) 开发平台。在这里,Gemini 3 化身为拥有编辑器、终端和浏览器完整权限的「执行合伙人」。

Antigravity 配置了一个「模型军团」协同作战:

  • Gemini 3: 大脑,负责推理和写代码。
  • Gemini 2.5 Computer Use: 手眼,控制浏览器进行 UI 验证。
  • Nano Banana: 美工,生成图像和 UI 素材。

这种打通底层模型到顶层交互的闭环体验,对于 Cursor 等现有编辑器来说,无疑是一次降维打击。Agent 可以代表你自主规划并执行复杂的端到端软件任务,甚至自己打开浏览器验证 UI,发现报错自己修。

致命短板:写作能力惨遭 Claude 4.5 吊打

虽然代码和推理能力强到让人头皮发麻,但在写作能力上,Gemini 3 Pro 却让人大跌眼镜。

实测显示,在科普文章写作方面,Gemini 3.0 的表现几乎是在「御三家」里垫底。

以「基于上下文工程技术文章写科普文」为例:

  • Claude 4.5 Sonnet: 写了 3000 字,场景描述抓人,用咨询顾问做类比把抽象概念讲透,结尾还能升华认知。
  • Gemini 3.0: 输出只有 1000 多字。虽然开头用了「你有没有过这样的经历」的套路,但每个观点点到为止,缺乏展开和让人眼前一亮的类比。

更让人抓狂的是,Gemini 3.0 依然保留了老毛病:喜欢在中文后面加括号注释英文单词(如「提示词工程(Prompt Engineering)」),读起来非常割裂,像是一份没翻译完的文档。

相比之下,Claude 4.5 Sonnet 理解什么时候该铺垫、什么时候该直给,这一点目前 Gemini 3 确实还做不到。

谷歌王者归来

Gemini 3 的发布,释放了一个强烈的信号:算力霸权依然存在。

Gemini 3 Pro 是使用 Google TPU 从头开始训练的。当全世界都在等英伟达 GPU 时,Google 坐在自家的 TPU 矿山上,拥有极高的带宽内存和算力冗余,这给了它肆意扩张参数规模的底气。

从底层的 TPU 硅基霸权,到中间层的 Antigravity 开发生态,再到顶层的生成式 UI,Google 展示了一个只有巨头才能构建的严丝合缝的未来。

虽然写作能力略显拉胯,但在代码、推理和多模态交互上,Gemini 3 确实已经杀疯了。

对于开发者而言,会不会写前端、会不会调框架可能真的不重要了。重要的是你能不能把脑子里的东西,翻译成精准的 Prompt。

Gemini 3 现已全面开放,即日起可通过 Google AI Studio 体验。

https://aistudio.google.com/
https://gemini.google.com/

至于它到底能不能终结「最好的 LLM」之争?让子弹(和服务器)再飞一会儿。

参考:https://blog.google/products/gemini/gemini-3/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=#responsible-development

 

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:重磅!Gemini 3深夜突袭:碾压GPT-5.1、超越Claude 4.5,Antigravity AI IDE 同步上线
#Gemini 3 #Google Antigravity 
收藏 1
DocStrange:从PDF到Markdown的智能文档转换方案
这是最后一篇
推荐阅读
  • 火山方舟满血版DeepSeek R1 API免费体验,可薅145元代金券!不封顶(附API接入教程)
  • 终于等到了!CodeBuddy Code 腾讯自研AI编程终端工具,国产Claude Code终极平替
  • OpenAI DevDay 2025:这不是发布会,而是下一代AI生态
  • Augment Code:又一款AI编程工具,号称取代Cursor指日可待,还真有点东西!
  • DeepSeek登上了《Nature》封面!国内首家大模型!
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
20710 4月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
18784 6月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14486 8月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
13258 11月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12722 7月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
11456 7月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
10928 7月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10131 8月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9138 11月前
Trae Pro 来了,终于可以告别排队了!这价格真香
6873 5月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 重磅!Gemini 3深夜突袭:碾压GPT-5.1、超越Claude 4.5,Antigravity AI IDE 同步上线
2 MiniMax 推出 Coding Plan,首月价格 9.9 元起
3 Grok 4.1 突袭上线,碾压登顶,EQ 提升 + 幻觉率下降
4 美团推出更强的免费AI IDE编程工具CatPaw,美团自研开启公测
5 破纪录!刚刚Cursor拿下23亿美元融资,火速接入GPT-5.1
6 Gemini 3 悄悄上线,美观和信息丰富的设计
7 OpenAi 刚刚在 ChatGPT 中试点群聊功能
8 GPT-5.1来了,这次小迭代GPT-5.1 Instant和GPT-5.1 Thinking该怎么选、怎么用
9 从存起来到用起来,ima2.0让知识流动起来
10 字节连放两个大招:Trae SOLO模式限时免费!Doubao-Seed-Code 接入Trae CN
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联