10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Gemini 2.5 Pro再升级:推出专用计算机操作模型,智能体开始真正接管电脑操作

4月前 AI最新动态 1651 0

谷歌新发布的 Gemini 2.5 计算机使用模型(Computer Use Model) ,这是一款基于Gemini 2.5 Pro视觉理解与推理能力构建的专用模型,旨在赋予AI智能体(agent)与图形用户界面(GUI)直接交互的能力——就像人类一样进行点击、打字和滚动操作。

这意味着“AI终于开始学会‘用电脑’了。”

这次更新其实挺有里程碑意义的。过去我们习惯让AI通过API或者文本指令执行任务,但很多操作(比如网页登录、表单填写、文件上传)依然得靠人去点。

现在,谷歌直接让AI拥有“手和眼”——它能识别界面元素,看懂屏幕上的按钮、表单和下拉菜单,然后像人类一样去点击、输入、滚动。

官方把这称为 Computer Use Model,本质上是一个能让智能体直接与图形用户界面(GUI)交互的能力层。目前它已在 Gemini 2.5 Pro 中上线,并开放给开发者,通过 Google AI Studio 或 Vertex AI 即可使用。

这套系统是怎么运作的?

简单来说,它是一个“观察—行动—反馈”循环系统(loop)。

整个过程可以拆成四步:

输入阶段:模型接收到用户请求、当前屏幕截图以及最近的操作历史。开发者还能设置“禁止某些UI操作”或添加自定义函数。

分析与响应:AI分析这些输入后,生成具体动作,比如点击某个按钮、输入文字、或下拉选择。若是敏感操作(如支付),AI会自动请求用户确认。

执行操作:客户端根据模型返回的指令执行实际操作。

反馈与循环:操作完成后,系统会截取新的屏幕并反馈给AI,进入下一轮循环,直到任务结束或中止。

这个设计非常像人类在操作电脑时的思考方式——“看一眼、点一下、观察结果、再点一下”。

目前谷歌主要针对 网页操作 进行了优化(比如自动化Web任务、登录后操作等),但在移动端控制上也表现出不错的潜力。

性能:延迟低、精度高

从谷歌公开的测试结果看,Gemini 2.5 的Computer Use模型在多项基准测试中表现领先。

尤其是在 Browserbase 的 Online-Mind2Web 测试平台 上,浏览器控制的质量和延迟表现均为当前最优。

这意味着AI执行网页任务时更“流畅自然”,延迟更低,误点率更少——这一点在Agent自动化工作流中非常关键。

安全:三道保险

让AI能自由点击和输入,听起来很酷,但也很危险。谷歌在设计时非常谨慎,加入了多层安全防护:

模型内安全训练:在模型训练阶段就内置了防滥用机制,避免AI乱点、误操或被恶意诱导。

逐步安全服务(Per-step Safety Service):在AI每次执行动作前,都由外部安全服务审查其合理性。

系统指令控制(System Instructions):开发者可自定义规则,比如要求AI在执行支付、登录等高风险操作时必须暂停并征得用户确认。

这些机制能有效防止AI越权执行、绕过验证码、甚至控制医疗设备等高风险行为。

总结

Gemini 2.5 的Computer Use模型标志着智能体进入一个新阶段:从“语言理解”进化为“可视操作”。

我觉得这是一件值得关注的事。

它不只是AI性能的提升,更是人机交互方式的一次变革。未来的AI助手可能真的会帮你: 打开网页、登录账号、填写报表、提交工单,就像一个隐形的实习生,效率惊人。

而谷歌这次的更新,正是在为这样的未来打地基。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Gemini 2.5 Pro再升级:推出专用计算机操作模型,智能体开始真正接管电脑操作
#Gemini 2.5 Pro #智能体 
收藏 1
OpenAI DevDay 2025:这不是发布会,而是下一代AI生态
用好 find-skills ,让你更高效的查找和使用 Skills
推荐阅读
  • Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
  • 手把手教你白嫖一年Google Gemini Pro,学生免费订阅开通教程
  • 重磅!Gemini 3深夜突袭:碾压GPT-5.1、超越Claude 4.5,Antigravity AI IDE 同步上线
  • Uizard:Autodesigner 2.0 AI生成式辅助UI设计工具,产品经理+UI设计
  • 智谱发布旗下 GLM-4.5 模型,跃居全球模型第三,支持接入Claude Code
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
25191 7月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
24012 9月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
16334 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14907 12月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
14882 10月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13399 10月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13077 10月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
12061 11月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
10451 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
9536 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Anthropic 发布11 款 Claude 企业插件,一个 AI 顶一个部门,SaaS 将发生巨变
2 谷歌出手封禁接入OpenClaw的用户:Antigravity订阅账号不是 API
3 Ollama 新命令 Launch,一条指令直连 Claude Code、Codex、OpenCode(零配置)
4 Cline 升级:Minimax‑2.1、Kimi‑k2.5 限时免费开放,Cline CLI 2.0 同步上线
5 开工速览:OpenClaw(小龙虾)的前世今生
6 Claude-Mem 搭配 OpenClaw:为 AI 智能体装上持久记忆的终极组合
7 阿里云Coding Plan:告别烧token焦虑,按次计费,支持千问3.5、GLM-5、Kimi-K2.5等模型
8 GLM-5 技术报告深度解析|a16z:开源模型之首
9 Anthropic点名三家中国AI公司涉蒸馏攻击,马斯克反击:你们也不干净
10 Claude全新上线的 MCP Apps:一个聊天框打通全流程工具,让MCP自带UI
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联