阶跃星辰刚开源的 GELab-Zero,它把“模型 + 工程基建”同时打包开源出来,对 GUI Agent 开发者而言是一个相对完整的起点。
什么是GELab-Zero?
这是阶跃星辰推出首个同时包含模型和基础设施的全开源 GUI Agent。

解决方案主打即插即用的工程化体验,无需依赖云端,赋予您完全的隐私控制权。
移动端 GUI Agent 的复杂性来自三个维度:
-
生态碎片化:不同品牌、不同系统版本、不同 App;
-
工程依赖链长:ADB、权限、依赖包、连接稳定性等;
-
评估体系缺失:多数基准集中在生产力任务,而生活场景覆盖较少。
GELab-Zero 试图同时处理这三类问题:
| 维度 | GELab-Zero 的解决方案 |
|---|---|
| 推理链路需本地化、可控 | 提供可在消费级硬件运行的 4B 模型 |
| 工程基建成本高 | 提供“一键启动式”的推理基础设施(MCP-like) |
| 缺乏贴近真实生活的评估体系 | 自建 AndroidDaily 基准测试(生活服务类任务) |
它的目标不是做“最强模型”,而是降低 Agent 开发者对移动端任务的实验门槛,让策略研究、交互流程验证更高效。
项目构成:模型 + 工程基建
GELab-Zero 包含两部分:
1. GELab-Zero-4B-preview 模型
-
基于 Qwen3-VL-4B-instruct;
-
规模仅 4B,可在本地消费级硬件运行;
-
主要针对 GUI 理解、定位、点击、输入等交互流程优化。
在 AndroidWorld、OSWorld、ScreenSpot-Pro 等多个开源基准上均有较高得分,尤其是在真实移动场景任务上表现稳定。
2. “即插即用”推理基础设施(重点)
官方提供了一套可直接运行的 GUI Agent 推理框架,包括:
-
本地推理服务(兼容 Ollama,模型完全在本地运行)
-
统一部署流水线(自动完成依赖校验、ADB 连接)
-
多设备管理(多台手机并行任务)
-
任务回放与轨迹记录
-
多种 Agent 模式:ReAct、Multi-Agent、定时任务等
从使用体验来看,这部分工程基建明显拉低了“跑通一个 GUI Agent”的门槛。
核心能力梳理
| 能力类别 | GELab-Zero 提供的功能点 | 适配场景 |
|---|---|---|
| 模型推理 | 4B 模型、低延迟、可本地部署、隐私可控 | 本地环境、企业内部环境 |
| 环境管理 | 一键环境配置、多设备 ADB 管控 | 多设备测试场景 |
| 任务执行 | ReAct / Multi-Agent、定时任务 | 自动化测试、任务调度 |
| 交互记录 | 交互轨迹录制、回放 | 策略对比、数据集构建 |
| 基准体系 | 静态动作预测、端到端任务执行、AndroidDaily | 模型迭代、研究场景 |
与其他模型相比,GELab-Zero 的差异化不在于“模型性能最强”,而在于:
-
工程可复用性强
-
实际场景覆盖更生活化
-
对本地部署和隐私环境更友好
AndroidDaily
多数 GUI Agent 评估集中在办公应用,但移动设备真正的高频场景往往包括:
-
外卖
-
社交
-
打车
-
本地服务
-
电商购物
AndroidDaily 的设计目标是建立“贴近日常真实行为”的测试体系,覆盖 食、行、购、住、讯、娱 六类任务。

1. 静态测试(3146 动作)
通过预测截图动作判断模型的 GUI 理解能力,适合快速迭代模型。
GELab-Zero-4B 的静态动作预测准确率为 0.734,在开源模型中属于较高水平。
2. 端到端任务测试(235 个任务)
更贴近真实使用,包括:
-
打车、导航
-
外卖下单、支付
-
淘宝搜索、商品筛选
-
微信消息发送
-
知乎浏览、收藏
端到端成功率:75.86%
对于轻量级 4B 模型,这个结果具有一定参考价值。
与现有 GUI Agent 模型的对比
目前 GUI Agent 模型生态包括:
-
字节(UI-TARS 系列)
-
阿里(Qwen 系列)
-
谷歌(Gemini)
-
Salesforce AI(OSWorld Agent)
-
小米(HyperIMU)
定位对比:GELab-Zero 的优势并不在“参数规模”,而在“可在本地复用的工程基建”。
| 项目 | 模型规模 | 本地运行 | 工程框架成熟度 | 特点 |
|---|---|---|---|---|
| Gemini 系列 | 大模型 | 无 | 中 | 强场景理解 |
| Qwen-VL 系列 | 多规模 | 有 | 中 | 视觉基础强 |
| UI-TARS | 小模型 | 有 | 中 | 定位强、动作预测好 |
| GELab-Zero | 4B | 强 | 强 | 工程+模型一体化、贴近日常场景 |
| OSWorld | 多规模 | 有 | 较弱 | 数据与基准体系为主 |
适合 GELab-Zero 的用户类型:
-
需要在本地环境运行的企业团队
-
关注策略研究的 Agent 开发者
-
从事 GUI 交互自动化研究的学者
-
需要减少工程基建投入的个人开发者
本地部署流程
官方提供完整的部署脚本,这里按产品视角总结关键步骤,省略冗余指令。
Step 1:安装 Python 与 Ollama
-
Python:任意 3.9+ 版本均可
-
使用 Ollama 部署模型(推荐个人用户)
-
国内用户可使用 ModelScope 镜像,避免下载缓慢
地址:
-
HuggingFace
-
ModelScope:
stepfun-ai/GELab-Zero-4B-preview
模型下载后,通过 .modelfile 导入 Ollama。
Step 2:配置 Android 环境
-
启用手机开发者模式
-
安装 ADB
-
USB 连接并执行
adb devices验证连接 -
若无法识别:检查数据线、USB 模式、USB 调试权限
Step 3:启动 GELab-Zero 推理服务
-
通过官方脚本一键启动整个推理链路
-
检测设备 → 加载模型 → 启动推理接口
-
在浏览器中进入控制面板查看设备与日志
总结
从实际体验来看,GELab-Zero 的价值主要体现在三个方面:
-
轻量模型 + 工程框架一起开源,降低了可用门槛
-
对生活类 App 的基准测试覆盖更全面
-
本地运行友好,适合企业与独立开发者
它并不会在所有 Benchmark 上取得最强成绩,但“易用性 + 可控性 + 工程化程度”在同类方案中具有比较明显的差异化,对需要“可落地应用”的场景更友好。
等苏米有空了也本地部署来好好玩玩,门槛确实不高,所以有一定的可玩性~
项目官网:https://opengelab.github.io/index_zh.html
项目介绍: