10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Mano-P 4B 端侧 GUI Agent实战:本地部署、Cider 加速与三项测试

1月前 AI最新动态 1043 0

端侧 GUI Agent实战:Mano-P 4B + Cider 本地部署与测试

CUA(Computer Use Agent)让 AI 直接操控电脑界面,把任何 App 变成 Agent 的 Skill。但两个现实问题一直存在:

  • Token 消耗大:截屏、理解、定位、操作,每一步都在烧 Token,GUI 测试消耗占全自动编程流程的一半以上
  • 隐私安全:每一帧截图都要上传到云端模型处理

图片 1

Mano-P 是一个开源的端侧 GUI-VLA(视觉-语言-动作)模型,配合 Cider 推理加速框架,可以在本地 Mac 上运行,截图和任务数据不出设备。项目地址:https://github.com/MININGLAMP-AI/MANO-P

Mano-P 模型概述

Mano-P 目前开源两个版本:

版本 参数 OSWorld 成功率 硬件要求
72B 720 亿 58.2%(排名第一) 高配设备
4B 40 亿 与云端大模型相当 Mac mini / MacBook(量化后峰值 4.3GB 内存)

图片 2

4B 版本的训练数据包括 20,000+ 条浏览器操作轨迹、40,000+ 条桌面操作轨迹,覆盖 300 万+ 动作。核心能力是纯视觉驱动,不依赖 CDP 协议,不解析 HTML,直接通过屏幕截图理解界面、定位元素、执行操作。

这意味着它不局限于浏览器——桌面软件、Canvas 渲染的页面、3D 应用、游戏界面,理论上都能操作。Playwright 等 DOM 操作工具在这些场景下直接失效,而 Mano-P 没有这个限制。

图片 3

Cider 推理加速

本地跑模型的最大障碍是效率。Cider 是一个基于 Apple MLX 生态的推理加速框架,解决了这个问题。

Apple M 系列芯片原生支持 INT8 计算,但 MLX 之前只做了权重量化,没做激活量化。Cider 补齐了这块,是第一个在 Apple GPU 上实现硬件加速 INT8 TensorOps 的框架。

图片 4

实测 W8A8 模式比 MLX 原生 W4A16 快 1.4 到 1.9 倍。Cider 不限于 Mano-P,Qwen、Llama、Mistral 等主流开源模型都能接入。

部署与安装

官方推荐硬件:Apple M4 芯片 + 32GB 内存的 Mac mini 或 MacBook。4B 模型跑起来不卡。

安装过程通过 Codex 自动化完成,全程基本不需要手动操作。

图片 5

图片 6

安装 Mano-P Skill 接入 Codex(也可接入 Claude Code 等其它 Agent):

Skill 地址:https://clawhub.ai/hanningwang/mano-cua

图片 7

三项实测

测试一:小红书自动浏览与互动

任务:搜索 AI 话题→浏览前三个帖子→点赞→评论。小红书 UI 复杂,信息流、弹窗、多种交互方式混在一起。

结果:圆满完成任务。一个值得注意的细节:第一个帖子打开时已经是点赞状态,Mano-P 习惯性地点了点赞按钮(实际上是取消),但很快意识到不对,立马重新点了回来。

这说明它不是在机械执行,而是能根据视觉反馈判断操作是否正确并自动纠偏。这个能力对于 GUI Agent 非常关键。

图片 8

测试二:tiktok-gen 项目 E2E 测试

项目地址:https://github.com/kangarooking/tiktok-gen

让 Codex + Mano-P 配合跑 GUI 测试:

  • Codex:调度和监督
  • Mano-P:GUI 操作(打开前端→测试注册登录→上传素材→生成文案→输出测试报告)

图片 9

4B 小模型 GUI 操作能力不错,偶尔跑偏或卡住时 Codex 及时纠偏。这个组合比单独用 Codex 的 CUA 效果更好——单独用 Codex 自己做 GUI 操作速度快一些,但也会跑偏,而且没有另一个 AI 帮它纠偏。

更大的优点:整个过程不需要用到 Codex 的视觉能力。视觉理解由 Mano-P 在本地完成,Codex 只负责安排任务和纠偏。截图不上传云端,省 Token,私密性更好。

图片 10

测试三:玩 4399 扫雷

Playwright 操作 4399 扫雷完全做不到——游戏界面是 Canvas 渲染的,Playwright 操作的是 DOM 树,在 Canvas 面前直接失效。

Mano-P 纯视觉路线确实能操作:打开 4399→搜索扫雷→进入游戏→点击方块。游戏确实能玩上。

但它不太理解扫雷逻辑,玩得比较随机,没有根据数字推理安全格子。不过 Playwright 做不到的事,4B 小模型通过纯视觉还是能做。

总结与建议

Mano-P 4B 的定位很明确:自动化执行给定的 GUI 任务,而不是全程独立思考。页面元素定位、按钮点击、表单填写、跨步骤任务执行,这些它都能做得不错。

最佳实践是搭配一个聪明的大模型(如 Codex + GPT-5.5)一起用。大模型负责调度和纠偏,Mano-P 负责实际的 GUI 操作。

回到开头的两个痛点:Token 成本和数据安全。Mano-P + Cider 的组合确实解决了这两个问题。本地 GUI 操作不花或少花 Token,数据不出设备——不是安全协议上写的「我们承诺不看你的截图数据」,而是物理上数据就没出过你的电脑。

苏米注:端侧 AI 的方向越来越清晰——端侧模型不需要具备通用性,而是在某一个具体场景深耕打穿。Mano-P 专注 GUI 操作这一件事,在本地就能跑,更私密、更省钱、更可控。如果你有 M4 Mac,推荐自己跑跑看。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Mano-P 4B 端侧 GUI Agent实战:本地部署、Cider 加速与三项测试
#Mano-P # GUI Agent # 端侧 AI # Cider # 本地推理 
收藏 1
New API:开源 AI 网关,一个接口统一管理所有大模型
skills-refiner:超越断言测试,诊断 Skill 设计质量的开源工具
推荐阅读
  • 即梦AI图片3.0:AI文生图新王诞生!中文海报天花板「影视质感+文字精准+2K高清」
  • 麦肯锡《The State of AI》2025 年度报告:AI 的使用已成普遍,但真正把 AI“用好”的企业依然是少数
  • 今天学点啥?秘塔这个AI Agent,真正让学习变得简单!你的Ai老师
  • Kimi K2.5 正式发布:代码能力再次强悍升级,全球最强开源视觉智能体!
  • Cursor Agents 上线 Web & 移动端!随时随地远程调 Agent 写代码
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
30687 10月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
27860 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
19317 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
19231 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15983 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
15728 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
15305 11月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
14722 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
14170 1年前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
12455 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 提示词:把Dynamic Workflows成本从6.2万美元狂砍到129美元的拆解15个提示词
2 Token 定价大揭秘:一边涨价疯抢一边永久降价,海外价格差 100 倍
3 DeepSeek 首次大规模限流:免费时代终结,AI 行业付费时代来临
4 ChatGPT 史上最大改版:从聊天机器人到超级 App,Codex 周活突破 500 万
5 微信 A2A 能力正式上线:语音操控,双手自由
6 谷歌开源 Gemma 4 12B:统一无编码器架构,16GB 内存笔记本即可运行多模态模型
7 Kimi Work 桌面 Agent:支持 300 个 Agent 并行,实现网页数据抓取与分析
8 Codex 发布 6 大角色插件包:非程序员也能让 AI 替你干活
9 Qwen3.7-Plus正式发布:多模态混合智能体,视觉与语言统一的新基座
10 Holo3.1开源Computer Use模型发布:35B版性能超越Qwen3.5、Claude Sonnet 4.6
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联