当前位置：首页 » AI开源项目

BrowserAct 开源项目：解决 Agent 浏览器自动化难题，支持 Cookie 复用与人机接力

1月前 AI开源项目 501 0

在使用 Agent 操控浏览器执行任务时，经常遇到一些问题：Agent 打开的浏览器没有 Cookie 记录，每次都需要重新登录；被网页反爬机制拦截；被识别为 Bot；拿不到动态页面数据等。这些问题导致很多自动化工作流无法顺利完成。

BrowserAct 是一个面向 Agent 工具的浏览器自动化 CLI，填补了 Agent 在真实环境中执行任务的"执行层"空缺。

1. 反检测环境

Agent 控制浏览器通常有两种方式：纯视觉方式（较慢）和命令行方式（容易被反爬机制拦截）。BrowserAct 同时支持两种方式，既支持命令行控制，又能绕过部分反爬机制。

2. 三层递进结构

环境层：隐蔽指纹伪装、TLS 轮换、切换代理
执行层：全自动破解验证码，隐蔽提取功能，抓取受保护的页面
人工层：远程协助生成实时链接，用户可从任意设备接管操作，完成任务后无缝续接

当遇到需要人工介入的操作（如验证码或扫码）时，BrowserAct 不会直接中断任务，而是生成一个远程协作链接。人类通过链接完成协作后，Agent 继续执行任务。在等待人工协助的过程中，Agent 会先去执行其他可以执行的工作。

3. 多账号隔离

BrowserAct 通过 Stealth Browser + Static Proxy，将每个账号放在相对独立的浏览器环境中运行。每个浏览器可以绑定独立的登录状态和网络环境，分别执行对应账号下的任务。这适合电商店铺运营和社交媒体自动化运营等需要同时管理多个账号的场景。

4. 并发不串线

每个任务都有独立的浏览器工作区，账号之间互不污染。

5. Skill-Forge 扩展技能

Skill-Forge 是独立于 browser-act 执行入口之外的扩展能力。用户只需描述想要的数据或操作目标，Skill-Forge 会先探索目标网站，分析页面流程、可用 API 和数据字段，生成可部署的 Skill 包。之后 Agent 可以直接复用这套 Skill，沿着已验证过的路径稳定执行批量任务，无需每次重新理解网站。