10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

BrowserAct:AI Agent 浏览器自动化工具,突破网页访问限制

1小时前 AI开源项目 8 0

在讨论 AI Agent 的能力边界时,大多数人关注的是模型的推理能力和上下文长度。但有一个常被忽略的关键点:Agent 在真实网络环境中的执行能力。

现有的 Agent 工具在浏览网页时存在明显短板——面对需要登录、验证码或动态渲染的页面时,往往束手无策。

BrowserAct 正是为了解决这个问题而生的浏览器自动化 CLI 工具,目前在 GitHub 上已超过 2.8k Star。

图片 29

BrowserAct 的三层架构设计

与依赖模型视觉能力的传统方案不同,BrowserAct 采用纯命令行方式执行浏览器操作,从环境伪装、执行策略和人工协作三个层面系统性地提升了 Agent 操作浏览器的成功率。

图片 2

一、环境层:让 Agent 看起来像真人

环境层的核心是浏览器指纹伪装和动态网络身份切换,让 Agent 的浏览行为与真实用户几乎一致。每个账号可以绑定独立的登录空间和网络路径,多账号同时运行也不会互相干扰。

实际应用场景:

  • 长期登录稳定:同一账号不会因为"自动化特征"被封号,Cookie 和登录状态长期保持
  • 多账号隔离:同时运营多个店铺或社媒账号,每个账号有独立干净的环境,避免串号关联
  • 免反复登录:登录状态持久化,不用反复扫码或重新认证

图片 3

二、执行层:自动突破反机器人检测

当网站设置了人机验证或反爬虫检测时,执行层负责自动处理这些屏障,降低被识别为自动化行为的概率。

核心能力:

  • 自动通过人机验证:登录时需要"我不是机器人"验证,Agent 可以自动完成,无需手动操作
  • 跨越验证屏障:抓取需要登录态才能看到的数据(后台数据、会员内容),Agent 能自动突破
  • 自主重试:遇到复杂页面检测时,Agent 会自主尝试突破,而不是直接放弃任务

图片 4

三、人工层:人机接力无缝续接

有些情况只有人类能做到——短信验证码、扫码验证或敏感操作二次授权。BrowserAct 的处理方式是生成一个远程协作链接,在任何设备打开完成验证后,Agent 会从断点处继续执行,而不是从头开始。

典型场景:

  • 短信验证码:AI 遇到验证码不会终止任务,用户输入后它继续执行
  • 企业 SSO 登录:处理需要审批的场景,人工过一道后全自动继续
  • 复杂长流程:AI 和人工交替配合,已完成的部分不会重复执行

苏米注:这三层设计的精髓在于"自动优先、人工兜底、无缝续接"。不是追求 100% 自动化,而是承认某些环节必须人类参与,并把这个参与过程做得尽可能平滑。这种务实的思路比全自动化的噱头更有长期价值。

图片 5

额外功能

除了三层核心架构,BrowserAct 还提供了几个实用功能:

  • 多任务并发:同一浏览器环境下同步执行多个任务,窗口间共享 Cookie 和登录状态
  • 多账号隔离:每个账号运行在独立的 Stealth 浏览器中,互不干扰
  • 三种浏览器模式:chrome 模式复用本地登录态(适合需登录场景);stealth 隐私模式每次使用新指纹+代理(适合大批量抓取);Stealth 固定身份模式提供稳定的指纹+IP(适合多账号独立运行)
  • 技能沉淀:将跑通的流程沉淀为可复用的 Skill,后续直接运行,节省重复探索的 Token 和时间

图片 6

实战场景测试

场景一:电商数据监测

以电商平台数据收集为例。正常情况下,Agent 的浏览器控制无法进入带有严格反制机制的电商平台。使用 BrowserAct 后,由于本地没有登录态,系统触发了人机接力。

图片 7

BrowserAct 会发送一个云实例链接,在任何设备打开即可进入云端虚拟机的登录页面,扫码登录后关闭页面即可。

图片 8

图片 9

获取登录态后,BrowserAct 开始执行任务,每一步都会汇报具体操作。如果搜索词输入错误,它还会自行检查并纠正,然后按销量排序商品,最终成功获取目标数据。

图片 10

图片 11

图片 12

图片 13

如果这类任务需要每天重复执行,可以使用技能沉淀功能,将流程保存为 Skill。安装方式很简单,让 Agent 执行:

安装 BrowserAct Forge 这个技能,链接:https://github.com/browser-act/skills/tree/main/browser-act-skill-forge,并验证技能是否可用。

图片 14

场景二:多店铺管理

电商商家同时管理多家店铺时,频繁切换账号很麻烦。BrowserAct 可以创建多个隐私浏览器,账号相互隔离在专属浏览器中。

图片 15

创建时需要购买一个静态代理——给浏览器分配一个不变的 IP 地址,让账号处于稳定环境,避免触发平台风控。也可以使用本地已有的 IP 地址,不一定要购买。

图片 16

图片 17

图片 18

配置完成后,使用 Agent 管理多个店铺账号时,无需频繁切换登录,每个账号都在独立环境中运行。

场景三:自媒体多平台分发

将稿件分发到多个平台是自媒体人的日常重复工作。BrowserAct 可以复用已登录的浏览器状态,自动完成发帖流程。

图片 19

使用 Chrome 模式可以自动获取已登录的小红书和知乎状态,无需人机接力。

图片 20

发帖流程包括找发送按钮、编辑标题、编辑正文等步骤,BrowserAct 会逐步执行。值得一提的是,它还会自动制作封面图,并以图片形式发送内容。

图片 21

图片 22

图片 23

最终在小红书和知乎都顺利完成了发布。

图片 24

图片 25

安装与使用

BrowserAct 的技能开源免费,大部分功能都可以免费使用。只有在需要使用代理(如创建绑定静态代理的隐私浏览器)时才会产生费用。

图片 26

安装非常简单,访问 BrowserAct 官网(https://www.browseract.ai/),点击中间的白色按钮获取提示词,发送给你所使用的 Agent 即可自动安装。

图片 27

也可以直接告诉 Agent:

安装 browser-act 这个技能,链接:https://github.com/browser-act/skills/tree/main/browser-act,安装完成后验证一下它是否可用。

总结

BrowserAct 解决的是一类特定问题:如何让 AI Agent 在真实的、有人机验证和反爬虫机制的网络环境中可靠地执行浏览器操作。

这类问题不是单纯的"模型够强"就能解决的。需要的是对环境伪装、执行策略和人机协作的系统性设计。验证码、短信确认、企业审批等环节依然需要人类介入,但 BrowserAct 的设计让这些介入变得平滑无感。

对于正在尝试将 Agent 引入生产环境的团队来说,这种务实的设计思路值得参考。

相关链接:

  • BrowserAct 官网:https://www.browseract.ai/
  • GitHub 仓库:https://github.com/browser-act/skills
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:BrowserAct:AI Agent 浏览器自动化工具,突破网页访问限制
#BrowserAct #AI Agent #浏览器自动化 #开源工具 #AI编程 
收藏 1
Transformer 发明人与诺奖得主相继出走:谷歌 AI 的人才流失危机
Perry 开源编译器:把 TypeScript 直接编译为原生二进制,告别 Node.js 运行时依赖
推荐阅读
  • MemFree:集成知识库与互联网的多模态的开源 AI 搜索引擎
  • Hermes Web UI 汉化版发布:8 平台统一管理的 AI 对话控制台
  • 北邮饺子馆开源 AI Skill:餐厅也能玩 Agent,万物皆可 CLI 化
  • Dyad:本地优先的全栈应用生成器,无需云端的 AI Builder 替代方案
  • VoxCPM:开源声音克隆TTS神器,0.5B 逼真的语音克隆
评论 (0)
请登录后发表评论
分类精选
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9885 9月前
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9783 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7745 5月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
6988 6月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6849 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6744 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6641 9月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6620 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5922 10月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5878 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Perry 开源编译器:把 TypeScript 直接编译为原生二进制,告别 Node.js 运行时依赖
2 BrowserAct:AI Agent 浏览器自动化工具,突破网页访问限制
3 PixiJS v8.19 发布:HTML-in-Canvas 正式落地,DOM 进入 GPU 渲染管线
4 FastClaw 开源框架评测:从 OpenClaw 到云原生多 Agent 架构的演进
5 Nub JS 工具链实测:基于 Node 的 Rust 工具集,nub run 比 pnpm 快 24 倍
6 mattpocock/skills 开源项目:14 万 Star,用标准化流程解决 AI 编程意图对齐难题
7 AudioX-Turbo 开源音频生成模型:4 步极速出音效,支持文本/视频多模态输入
8 DBX 开源数据库客户端:Navicat 轻量替代,SQL 编辑/结构对比/数据迁移全支持
9 Amplication 开源后端代码生成平台:5 分钟生成生产级 CRUD,可商用可私有部署
10 抖音对标账号采集 + 多平台自动发布:开源短视频运营中台工具推荐
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联