当前位置：首页 » AI开源项目

GELab-Zero：本地可控的移动设备GUI智能体，仅 4B 轻量小模型

1月前 AI开源项目 587 0

移动设备GUI智能体，又一个新的概念，现在的AI模型越往落地走，越能体会到“工程基建”在 GUI Agent 体系中的重要性——尤其在移动端。模型能力本身固然关键，但要让它真的在手机上执行任务，往往是另一套完全不同的挑战。

阶跃星辰刚开源的 GELab-Zero，它把“模型 + 工程基建”同时打包开源出来，对 GUI Agent 开发者而言是一个相对完整的起点。

什么是GELab-Zero？

这是阶跃星辰推出首个同时包含模型和基础设施的全开源 GUI Agent。

解决方案主打即插即用的工程化体验，无需依赖云端，赋予您完全的隐私控制权。

移动端 GUI Agent 的复杂性来自三个维度：

生态碎片化：不同品牌、不同系统版本、不同 App；
工程依赖链长：ADB、权限、依赖包、连接稳定性等；
评估体系缺失：多数基准集中在生产力任务，而生活场景覆盖较少。

GELab-Zero 试图同时处理这三类问题：

维度	GELab-Zero 的解决方案
推理链路需本地化、可控	提供可在消费级硬件运行的 4B 模型
工程基建成本高	提供“一键启动式”的推理基础设施（MCP-like）
缺乏贴近真实生活的评估体系	自建 AndroidDaily 基准测试（生活服务类任务）

它的目标不是做“最强模型”，而是降低 Agent 开发者对移动端任务的实验门槛，让策略研究、交互流程验证更高效。

项目构成：模型 + 工程基建

GELab-Zero 包含两部分：

1. GELab-Zero-4B-preview 模型

基于 Qwen3-VL-4B-instruct；
规模仅 4B，可在本地消费级硬件运行；
主要针对 GUI 理解、定位、点击、输入等交互流程优化。

在 AndroidWorld、OSWorld、ScreenSpot-Pro 等多个开源基准上均有较高得分，尤其是在真实移动场景任务上表现稳定。

2. “即插即用”推理基础设施（重点）

官方提供了一套可直接运行的 GUI Agent 推理框架，包括：

本地推理服务（兼容 Ollama，模型完全在本地运行）
统一部署流水线（自动完成依赖校验、ADB 连接）
多设备管理（多台手机并行任务）
任务回放与轨迹记录
多种 Agent 模式：ReAct、Multi-Agent、定时任务等

从使用体验来看，这部分工程基建明显拉低了“跑通一个 GUI Agent”的门槛。

核心能力梳理

能力类别	GELab-Zero 提供的功能点	适配场景
模型推理	4B 模型、低延迟、可本地部署、隐私可控	本地环境、企业内部环境
环境管理	一键环境配置、多设备 ADB 管控	多设备测试场景
任务执行	ReAct / Multi-Agent、定时任务	自动化测试、任务调度
交互记录	交互轨迹录制、回放	策略对比、数据集构建
基准体系	静态动作预测、端到端任务执行、AndroidDaily	模型迭代、研究场景

与其他模型相比，GELab-Zero 的差异化不在于“模型性能最强”，而在于：

工程可复用性强
实际场景覆盖更生活化
对本地部署和隐私环境更友好

AndroidDaily

多数 GUI Agent 评估集中在办公应用，但移动设备真正的高频场景往往包括：

外卖
社交
打车
本地服务
电商购物

AndroidDaily 的设计目标是建立“贴近日常真实行为”的测试体系，覆盖 食、行、购、住、讯、娱 六类任务。

1. 静态测试（3146 动作）

通过预测截图动作判断模型的 GUI 理解能力，适合快速迭代模型。

GELab-Zero-4B 的静态动作预测准确率为 0.734，在开源模型中属于较高水平。

2. 端到端任务测试（235 个任务）

更贴近真实使用，包括：

打车、导航
外卖下单、支付
淘宝搜索、商品筛选
微信消息发送
知乎浏览、收藏

端到端成功率：75.86%

对于轻量级 4B 模型，这个结果具有一定参考价值。

与现有 GUI Agent 模型的对比

目前 GUI Agent 模型生态包括：

字节（UI-TARS 系列）
阿里（Qwen 系列）
谷歌（Gemini）
Salesforce AI（OSWorld Agent）
小米（HyperIMU）

定位对比：GELab-Zero 的优势并不在“参数规模”，而在“可在本地复用的工程基建”。

项目	模型规模	本地运行	工程框架成熟度	特点
Gemini 系列	大模型	无	中	强场景理解
Qwen-VL 系列	多规模	有	中	视觉基础强
UI-TARS	小模型	有	中	定位强、动作预测好
GELab-Zero	4B	强	强	工程+模型一体化、贴近日常场景
OSWorld	多规模	有	较弱	数据与基准体系为主

适合 GELab-Zero 的用户类型：

需要在本地环境运行的企业团队
关注策略研究的 Agent 开发者
从事 GUI 交互自动化研究的学者
需要减少工程基建投入的个人开发者

本地部署流程

官方提供完整的部署脚本，这里按产品视角总结关键步骤，省略冗余指令。

Step 1：安装 Python 与 Ollama

Python：任意 3.9+ 版本均可
使用 Ollama 部署模型（推荐个人用户）
国内用户可使用 ModelScope 镜像，避免下载缓慢

地址：

HuggingFace
ModelScope：stepfun-ai/GELab-Zero-4B-preview

模型下载后，通过 .modelfile 导入 Ollama。

Step 2：配置 Android 环境

启用手机开发者模式
安装 ADB
USB 连接并执行 adb devices 验证连接
若无法识别：检查数据线、USB 模式、USB 调试权限

Step 3：启动 GELab-Zero 推理服务

通过官方脚本一键启动整个推理链路
检测设备 → 加载模型 → 启动推理接口
在浏览器中进入控制面板查看设备与日志

总结

从实际体验来看，GELab-Zero 的价值主要体现在三个方面：

轻量模型 + 工程框架一起开源，降低了可用门槛
对生活类 App 的基准测试覆盖更全面
本地运行友好，适合企业与独立开发者

它并不会在所有 Benchmark 上取得最强成绩，但“易用性 + 可控性 + 工程化程度”在同类方案中具有比较明显的差异化，对需要“可落地应用”的场景更友好。

等苏米有空了也本地部署来好好玩玩，门槛确实不高，所以有一定的可玩性~

项目官网：https://opengelab.github.io/index_zh.html

项目介绍：https://github.com/stepfun-ai/gelab-zero/blob/main/README_CN.md

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：GELab-Zero：本地可控的移动设备GUI智能体，仅 4B 轻量小模型

请登录后发表评论