当前位置：首页 » AI最新动态

重磅！Gemini 3深夜突袭：碾压GPT-5.1、超越Claude 4.5，Antigravity AI IDE 同步上线

7月前 AI最新动态 1206 0

推特上喊了快 1个月的 Gemini 3「马上发布」，昨晚狼真的来了！

没有任何多余的废话，打开 Model Card，满眼写着的只有两个字：碾压。连 Sam Altman 都久违地献上了自己的点赞。

这一次，那个曾经定义了 Transformer、如今「All in Gemini」的巨人，真的杀回来了。

全面霸榜的推理怪兽

事实证明，Google 没有让等待的人失望。Gemini 3 Pro 的发布再一次定义了 SOTA（State-Of-The-Art）。

根据 Google 披露的数据，Gemini 3 Pro 在推理、多模态、Agent 工具使用等关键基准上，实现了全方位的霸榜。

数学能力的「地狱级」碾压： 在数学竞赛的「地狱模式」MathArena Apex 里，当包括 GPT-5.1 在内的其他大模型还在 1% 上下挣扎时，Gemini 3 Pro 直接干到了 23.4%。这就像小学生还在掰手指算加减法，旁边的 Gemini 3 已经开始徒手搓火箭了。
人类智力的天花板： 在 Humanity’s Last Exam（人类最终大考）中，Gemini 3 Pro 轰出了 37.5% 的高分（GPT-5.1 为 26.5%）。在开启工具使用后，更是达到了 45.8%。
视觉智能的质变： 在衡量屏幕理解能力的 ScreenSpot-Pro 测试中，GPT-5.1 得分仅为 3.5%（基本是瞎子），而 Gemini 3 Pro 高达 72.7%。这是近乎 20 倍 的能力碾压！

但这还不是极限。Google 还藏了一手 Gemini 3 Deep Think（深度思考模式）。

在不使用任何工具的情况下，Deep Think 模式在 Humanity's Last Exam 上的得分飙升至 41.0%。在 ARC-AGI-2 上更是取得了前所未有的 45.1% 的得分。这意味着模型在处理复杂学术问题时，已经具备了完全不同的理解深度。

颠覆性的交互体验：生成式 UI 与 Vibe Coding

Gemini 3 的野心不止于跑分，它正在从 Chatbot 进化为 Generative App。

首创「生成式界面」（GenUI）：以前的 AI 给你文字或代码，现在的 Gemini 3 能直接为你生成一个交互界面。比如搜索「RNA 聚合酶工作原理」，它不再扔给你一堆链接，而是利用强大的推理能力，即时生成（Generated on the fly） 一个沉浸式的互动 3D 分子模型。你不仅可以浏览，还能点进去和里面的元素交互。

Vibe Coding：理解你的「直觉」Gemini 3 引入了「Vibe Coding」概念。你不需要清楚地描述开发要求，它能捕捉你的开发风格和模糊意图。只用一句话，Gemini 3 就能通过感知你的「编码直觉」，直接生成全功能的应用程序。

实测了几个案例，前端能力简直炸裂：

复刻 Web OS： 仅仅输入一段 Prompt，要求创建一个类似 Windows 的 Web OS。Gemini 3 Pro 写了将近 2 分钟，结果真的生造了一个系统！从终端、代码编辑器到画图工具，大部分功能竟然都是可用的。
复古 3D 游戏： 编写一款具有丰富视觉效果的太空飞船游戏，一句话搞定（from 机器之心」

Google Antigravity

有了最强的模型，Google 直接在应用层「掀桌子」，扔出了小王炸——Google Antigravity。

这不仅仅是一个 IDE，它是 Google 定义的 Agent-first（智能体优先） 开发平台。在这里，Gemini 3 化身为拥有编辑器、终端和浏览器完整权限的「执行合伙人」。

Antigravity 配置了一个「模型军团」协同作战：

Gemini 3： 大脑，负责推理和写代码。
Gemini 2.5 Computer Use： 手眼，控制浏览器进行 UI 验证。
Nano Banana： 美工，生成图像和 UI 素材。

这种打通底层模型到顶层交互的闭环体验，对于 Cursor 等现有编辑器来说，无疑是一次降维打击。Agent 可以代表你自主规划并执行复杂的端到端软件任务，甚至自己打开浏览器验证 UI，发现报错自己修。

致命短板：写作能力惨遭 Claude 4.5 吊打

虽然代码和推理能力强到让人头皮发麻，但在写作能力上，Gemini 3 Pro 却让人大跌眼镜。

实测显示，在科普文章写作方面，Gemini 3.0 的表现几乎是在「御三家」里垫底。

以「基于上下文工程技术文章写科普文」为例：

Claude 4.5 Sonnet： 写了 3000 字，场景描述抓人，用咨询顾问做类比把抽象概念讲透，结尾还能升华认知。
Gemini 3.0： 输出只有 1000 多字。虽然开头用了「你有没有过这样的经历」的套路，但每个观点点到为止，缺乏展开和让人眼前一亮的类比。

更让人抓狂的是，Gemini 3.0 依然保留了老毛病：喜欢在中文后面加括号注释英文单词（如「提示词工程(Prompt Engineering)」），读起来非常割裂，像是一份没翻译完的文档。

相比之下，Claude 4.5 Sonnet 理解什么时候该铺垫、什么时候该直给，这一点目前 Gemini 3 确实还做不到。

谷歌王者归来

Gemini 3 的发布，释放了一个强烈的信号：算力霸权依然存在。

Gemini 3 Pro 是使用 Google TPU 从头开始训练的。当全世界都在等英伟达 GPU 时，Google 坐在自家的 TPU 矿山上，拥有极高的带宽内存和算力冗余，这给了它肆意扩张参数规模的底气。

从底层的 TPU 硅基霸权，到中间层的 Antigravity 开发生态，再到顶层的生成式 UI，Google 展示了一个只有巨头才能构建的严丝合缝的未来。

虽然写作能力略显拉胯，但在代码、推理和多模态交互上，Gemini 3 确实已经杀疯了。

对于开发者而言，会不会写前端、会不会调框架可能真的不重要了。重要的是你能不能把脑子里的东西，翻译成精准的 Prompt。

Gemini 3 现已全面开放，即日起可通过 Google AI Studio 体验。

https://aistudio.google.com/
https://gemini.google.com/

至于它到底能不能终结「最好的 LLM」之争？让子弹（和服务器）再飞一会儿。

参考：https://blog.google/products/gemini/gemini-3/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=#responsible-development

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：重磅！Gemini 3深夜突袭：碾压GPT-5.1、超越Claude 4.5，Antigravity AI IDE 同步上线

#Gemini 3 #Google Antigravity

请登录后发表评论