10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

GELab-Zero:本地可控的移动设备GUI智能体,仅 4B 轻量小模型

58分钟前 AI开源项目 11 0

移动设备GUI智能体,又一个新的概念,现在的AI模型越往落地走,越能体会到“工程基建”在 GUI Agent 体系中的重要性——尤其在移动端。模型能力本身固然关键,但要让它真的在手机上执行任务,往往是另一套完全不同的挑战。

阶跃星辰刚开源的 GELab-Zero,它把“模型 + 工程基建”同时打包开源出来,对 GUI Agent 开发者而言是一个相对完整的起点。

什么是GELab-Zero?

这是阶跃星辰推出首个同时包含模型和基础设施的全开源 GUI Agent。

解决方案主打即插即用的工程化体验,无需依赖云端,赋予您完全的隐私控制权。

移动端 GUI Agent 的复杂性来自三个维度:

  • 生态碎片化:不同品牌、不同系统版本、不同 App;

  • 工程依赖链长:ADB、权限、依赖包、连接稳定性等;

  • 评估体系缺失:多数基准集中在生产力任务,而生活场景覆盖较少。

GELab-Zero 试图同时处理这三类问题:

维度 GELab-Zero 的解决方案
推理链路需本地化、可控 提供可在消费级硬件运行的 4B 模型
工程基建成本高 提供“一键启动式”的推理基础设施(MCP-like)
缺乏贴近真实生活的评估体系 自建 AndroidDaily 基准测试(生活服务类任务)

它的目标不是做“最强模型”,而是降低 Agent 开发者对移动端任务的实验门槛,让策略研究、交互流程验证更高效。

项目构成:模型 + 工程基建

GELab-Zero 包含两部分:

1. GELab-Zero-4B-preview 模型

  • 基于 Qwen3-VL-4B-instruct;

  • 规模仅 4B,可在本地消费级硬件运行;

  • 主要针对 GUI 理解、定位、点击、输入等交互流程优化。

在 AndroidWorld、OSWorld、ScreenSpot-Pro 等多个开源基准上均有较高得分,尤其是在真实移动场景任务上表现稳定。

2. “即插即用”推理基础设施(重点)

官方提供了一套可直接运行的 GUI Agent 推理框架,包括:

  • 本地推理服务(兼容 Ollama,模型完全在本地运行)

  • 统一部署流水线(自动完成依赖校验、ADB 连接)

  • 多设备管理(多台手机并行任务)

  • 任务回放与轨迹记录

  • 多种 Agent 模式:ReAct、Multi-Agent、定时任务等

从使用体验来看,这部分工程基建明显拉低了“跑通一个 GUI Agent”的门槛。

核心能力梳理

能力类别 GELab-Zero 提供的功能点 适配场景
模型推理 4B 模型、低延迟、可本地部署、隐私可控 本地环境、企业内部环境
环境管理 一键环境配置、多设备 ADB 管控 多设备测试场景
任务执行 ReAct / Multi-Agent、定时任务 自动化测试、任务调度
交互记录 交互轨迹录制、回放 策略对比、数据集构建
基准体系 静态动作预测、端到端任务执行、AndroidDaily 模型迭代、研究场景

与其他模型相比,GELab-Zero 的差异化不在于“模型性能最强”,而在于:

  • 工程可复用性强

  • 实际场景覆盖更生活化

  • 对本地部署和隐私环境更友好

AndroidDaily

多数 GUI Agent 评估集中在办公应用,但移动设备真正的高频场景往往包括:

  • 外卖

  • 社交

  • 打车

  • 本地服务

  • 电商购物

AndroidDaily 的设计目标是建立“贴近日常真实行为”的测试体系,覆盖 食、行、购、住、讯、娱 六类任务。

1. 静态测试(3146 动作)

通过预测截图动作判断模型的 GUI 理解能力,适合快速迭代模型。

GELab-Zero-4B 的静态动作预测准确率为 0.734,在开源模型中属于较高水平。

2. 端到端任务测试(235 个任务)

更贴近真实使用,包括:

  • 打车、导航

  • 外卖下单、支付

  • 淘宝搜索、商品筛选

  • 微信消息发送

  • 知乎浏览、收藏

端到端成功率:75.86%

对于轻量级 4B 模型,这个结果具有一定参考价值。

与现有 GUI Agent 模型的对比

目前 GUI Agent 模型生态包括:

  • 字节(UI-TARS 系列)

  • 阿里(Qwen 系列)

  • 谷歌(Gemini)

  • Salesforce AI(OSWorld Agent)

  • 小米(HyperIMU)

定位对比:GELab-Zero 的优势并不在“参数规模”,而在“可在本地复用的工程基建”。

项目 模型规模 本地运行 工程框架成熟度 特点
Gemini 系列 大模型 无 中 强场景理解
Qwen-VL 系列 多规模 有 中 视觉基础强
UI-TARS 小模型 有 中 定位强、动作预测好
GELab-Zero 4B 强 强 工程+模型一体化、贴近日常场景
OSWorld 多规模 有 较弱 数据与基准体系为主

适合 GELab-Zero 的用户类型:

  • 需要在本地环境运行的企业团队

  • 关注策略研究的 Agent 开发者

  • 从事 GUI 交互自动化研究的学者

  • 需要减少工程基建投入的个人开发者

本地部署流程

官方提供完整的部署脚本,这里按产品视角总结关键步骤,省略冗余指令。

Step 1:安装 Python 与 Ollama

  • Python:任意 3.9+ 版本均可

  • 使用 Ollama 部署模型(推荐个人用户)

  • 国内用户可使用 ModelScope 镜像,避免下载缓慢

地址:

  • HuggingFace

  • ModelScope:stepfun-ai/GELab-Zero-4B-preview

模型下载后,通过 .modelfile 导入 Ollama。

Step 2:配置 Android 环境

  1. 启用手机开发者模式

  2. 安装 ADB

  3. USB 连接并执行 adb devices 验证连接

  4. 若无法识别:检查数据线、USB 模式、USB 调试权限

Step 3:启动 GELab-Zero 推理服务

  • 通过官方脚本一键启动整个推理链路

  • 检测设备 → 加载模型 → 启动推理接口

  • 在浏览器中进入控制面板查看设备与日志

总结

从实际体验来看,GELab-Zero 的价值主要体现在三个方面:

  1. 轻量模型 + 工程框架一起开源,降低了可用门槛

  2. 对生活类 App 的基准测试覆盖更全面

  3. 本地运行友好,适合企业与独立开发者

它并不会在所有 Benchmark 上取得最强成绩,但“易用性 + 可控性 + 工程化程度”在同类方案中具有比较明显的差异化,对需要“可落地应用”的场景更友好。

等苏米有空了也本地部署来好好玩玩,门槛确实不高,所以有一定的可玩性~

项目官网:https://opengelab.github.io/index_zh.html

项目介绍:https://github.com/stepfun-ai/gelab-zero/blob/main/README_CN.md

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:GELab-Zero:本地可控的移动设备GUI智能体,仅 4B 轻量小模型
#GELab-Zero #GUI智能体 #轻量模型 
收藏 1
ChatGPT 上线「智能购物」:三分钟帮你做完购物指南
这是最后一篇
推荐阅读
  • FireRedTTS-2:开源多语言多人对话 TTS,支持零样本语音克隆
  • 告别 git stash!VibeTree 让你一仓多分身,还能并行跑 Claude Code、Codex、Cursor CLI、aider 等多 AI Agent
  • AstrBot:最强AI Agent聊天机器人平台横空出世,一键打通QQ/微信/飞书,主流模型随心配!
  • OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
  • Plandex:14.5K Star!开源AI编程助手,专为大型项目和复杂任务而生!
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
5553 1月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
4226 1月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
3728 2月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
3262 1月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
3052 3月前
SurfSense:私人AI研究助手,私有版的NotebookLM 和 Perplexity开源平替,
2989 1月前
KrillinAI:开源AI视频翻译配音工具,100种语言双向翻译,一键部署全流程
2826 1月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
2225 2月前
Bytebot:开源AI桌面代理(Desktop Agent),给AI配一台自己的电脑
2211 2月前
FlyCut Caption:本地化开源智能视频多语言字幕识别与编辑工具
2173 2月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 GELab-Zero:本地可控的移动设备GUI智能体,仅 4B 轻量小模型
2 Presentation AI:一款开源AI PPT工具,AI一键生成精美幻灯片!
3 TrendRadar:AI 驱动的多平台热点资讯聚合与舆情监控工具
4 OmniBox:开源AI知识管理系统,让你的收藏夹不再吃灰!
5 DataGear:自由构建数据看板的开源可视化平台,支持数据源、SQL工作台、导入/导出、项目管理、数据集、图表、看板、数据源驱动、图表插件等
6 MCP Business Analyzer:基于MCP架构的DevUI多组件业务分析平台
7 Athas:用Tauri重新定义轻量级代码编辑器
8 ChatWiki:基于微信的开源AI工作流平台,微信生态的AI知识库Agent构建平台
9 Chatbot UI:一个面向开发者与团队的开源 AI 聊天界面方案
10 IMAI.WORK:一套可自动私信获客,评论截流,粉丝获客,自动养号,RPA ,AIGC 生成,可私有化部署的AI 数字员工系统
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联