10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

重磅!Gemini 3深夜突袭:碾压GPT-5.1、超越Claude 4.5,Antigravity AI IDE 同步上线

3月前 AI最新动态 623 0

推特上喊了快 1个月的 Gemini 3「马上发布」,昨晚狼真的来了!

没有任何多余的废话,打开 Model Card,满眼写着的只有两个字:碾压。连 Sam Altman 都久违地献上了自己的点赞。

这一次,那个曾经定义了 Transformer、如今「All in Gemini」的巨人,真的杀回来了。

全面霸榜的推理怪兽

事实证明,Google 没有让等待的人失望。Gemini 3 Pro 的发布再一次定义了 SOTA(State-Of-The-Art)。

根据 Google 披露的数据,Gemini 3 Pro 在推理、多模态、Agent 工具使用等关键基准上,实现了全方位的霸榜。

  • 数学能力的「地狱级」碾压: 在数学竞赛的「地狱模式」MathArena Apex 里,当包括 GPT-5.1 在内的其他大模型还在 1% 上下挣扎时,Gemini 3 Pro 直接干到了 23.4%。这就像小学生还在掰手指算加减法,旁边的 Gemini 3 已经开始徒手搓火箭了。
  • 人类智力的天花板: 在 Humanity’s Last Exam(人类最终大考)中,Gemini 3 Pro 轰出了 37.5% 的高分(GPT-5.1 为 26.5%)。在开启工具使用后,更是达到了 45.8%。
  • 视觉智能的质变: 在衡量屏幕理解能力的 ScreenSpot-Pro 测试中,GPT-5.1 得分仅为 3.5%(基本是瞎子),而 Gemini 3 Pro 高达 72.7%。这是近乎 20 倍 的能力碾压!

但这还不是极限。Google 还藏了一手 Gemini 3 Deep Think(深度思考模式)。

在不使用任何工具的情况下,Deep Think 模式在 Humanity's Last Exam 上的得分飙升至 41.0%。在 ARC-AGI-2 上更是取得了前所未有的 45.1% 的得分。这意味着模型在处理复杂学术问题时,已经具备了完全不同的理解深度。

颠覆性的交互体验:生成式 UI 与 Vibe Coding

Gemini 3 的野心不止于跑分,它正在从 Chatbot 进化为 Generative App。

首创「生成式界面」(GenUI):以前的 AI 给你文字或代码,现在的 Gemini 3 能直接为你生成一个交互界面。比如搜索「RNA 聚合酶工作原理」,它不再扔给你一堆链接,而是利用强大的推理能力,即时生成(Generated on the fly) 一个沉浸式的互动 3D 分子模型。你不仅可以浏览,还能点进去和里面的元素交互。

Vibe Coding:理解你的「直觉」Gemini 3 引入了「Vibe Coding」概念。你不需要清楚地描述开发要求,它能捕捉你的开发风格和模糊意图。只用一句话,Gemini 3 就能通过感知你的「编码直觉」,直接生成全功能的应用程序。

实测了几个案例,前端能力简直炸裂:

  • 复刻 Web OS: 仅仅输入一段 Prompt,要求创建一个类似 Windows 的 Web OS。Gemini 3 Pro 写了将近 2 分钟,结果真的生造了一个系统!从终端、代码编辑器到画图工具,大部分功能竟然都是可用的。
  • 复古 3D 游戏: 编写一款具有丰富视觉效果的太空飞船游戏,一句话搞定(from 机器之心」

Google Antigravity

有了最强的模型,Google 直接在应用层「掀桌子」,扔出了小王炸——Google Antigravity。

这不仅仅是一个 IDE,它是 Google 定义的 Agent-first(智能体优先) 开发平台。在这里,Gemini 3 化身为拥有编辑器、终端和浏览器完整权限的「执行合伙人」。

Antigravity 配置了一个「模型军团」协同作战:

  • Gemini 3: 大脑,负责推理和写代码。
  • Gemini 2.5 Computer Use: 手眼,控制浏览器进行 UI 验证。
  • Nano Banana: 美工,生成图像和 UI 素材。

这种打通底层模型到顶层交互的闭环体验,对于 Cursor 等现有编辑器来说,无疑是一次降维打击。Agent 可以代表你自主规划并执行复杂的端到端软件任务,甚至自己打开浏览器验证 UI,发现报错自己修。

致命短板:写作能力惨遭 Claude 4.5 吊打

虽然代码和推理能力强到让人头皮发麻,但在写作能力上,Gemini 3 Pro 却让人大跌眼镜。

实测显示,在科普文章写作方面,Gemini 3.0 的表现几乎是在「御三家」里垫底。

以「基于上下文工程技术文章写科普文」为例:

  • Claude 4.5 Sonnet: 写了 3000 字,场景描述抓人,用咨询顾问做类比把抽象概念讲透,结尾还能升华认知。
  • Gemini 3.0: 输出只有 1000 多字。虽然开头用了「你有没有过这样的经历」的套路,但每个观点点到为止,缺乏展开和让人眼前一亮的类比。

更让人抓狂的是,Gemini 3.0 依然保留了老毛病:喜欢在中文后面加括号注释英文单词(如「提示词工程(Prompt Engineering)」),读起来非常割裂,像是一份没翻译完的文档。

相比之下,Claude 4.5 Sonnet 理解什么时候该铺垫、什么时候该直给,这一点目前 Gemini 3 确实还做不到。

谷歌王者归来

Gemini 3 的发布,释放了一个强烈的信号:算力霸权依然存在。

Gemini 3 Pro 是使用 Google TPU 从头开始训练的。当全世界都在等英伟达 GPU 时,Google 坐在自家的 TPU 矿山上,拥有极高的带宽内存和算力冗余,这给了它肆意扩张参数规模的底气。

从底层的 TPU 硅基霸权,到中间层的 Antigravity 开发生态,再到顶层的生成式 UI,Google 展示了一个只有巨头才能构建的严丝合缝的未来。

虽然写作能力略显拉胯,但在代码、推理和多模态交互上,Gemini 3 确实已经杀疯了。

对于开发者而言,会不会写前端、会不会调框架可能真的不重要了。重要的是你能不能把脑子里的东西,翻译成精准的 Prompt。

Gemini 3 现已全面开放,即日起可通过 Google AI Studio 体验。

https://aistudio.google.com/
https://gemini.google.com/

至于它到底能不能终结「最好的 LLM」之争?让子弹(和服务器)再飞一会儿。

参考:https://blog.google/products/gemini/gemini-3/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=#responsible-development

 

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:重磅!Gemini 3深夜突袭:碾压GPT-5.1、超越Claude 4.5,Antigravity AI IDE 同步上线
#Gemini 3 #Google Antigravity 
收藏 1
DocStrange:从PDF到Markdown的智能文档转换方案
PXZ:一句话搞定视频、图像、图形,一站式AI生成工厂
推荐阅读
  • 阿里巴巴通义实验发布全新图像模型:Z-Image(造相),1/3的参数达到商业模型的视觉质量
  • Chrome 变身 AI 浏览器:Gemini 加持后,浏览器也有了Agent?
  • 突发!Kiro 8月全员免费 + 全额退款,原因竟是因为一个BUG~
  • 7 个最新 AI 模型,一周模型上新速览清单
  • 字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
25100 7月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
23940 9月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
16279 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14905 12月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
14788 10月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13393 10月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13041 10月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
12005 11月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
10430 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
9454 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 谷歌出手:Gemini 上线 Lyria 3,7.5 亿人“拍照出歌”,可免费体验
2 Kimi 版 OpenClaw 上线:一键上云,5000+ Skills 即装即用
3 豆包大模型 Seed2.0 全系发布|全信息汇总(附 79 页 Model Card)
4 9B参数就能接近GPT-4o,MiniCPM-o 4.5如何做到"全模态+全双工+端侧运行"的平衡
5 MiniMax 推出旗舰模型 M2.5,面向 Agent 的新选择
6 GLM-5实测直逼Claude Opus 4.5:国产大模型再上台阶
7 OpenAI与Anthropic同时炸场,GPT-5.3-Codex 做手,Claude Opus 4.6 做脑
8 Claude Opus 4.6 发布:AI 不再单打独斗,把Claude变成可管理的团队
9 Codex 桌面版:OpenAI 最新发布桌面 App,支持并行 10 个 Agent
10 二月Ai资讯汇总,看看有没有你关注的
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联