10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

BrowserAct:让 AI突破反爬虫检测的浏览器自动化 Skill

1小时前 AI开源项目 12 0

如何让 AI Agent 更好地操作浏览器,一直是一个没有完美解答的课题。最近 GitHub 上出现了一个叫 BrowserAct 的项目,专注于让 AI Agent 操作真实浏览器,突破反爬虫检测。

很多人第一反应是:这不就是 Codex 的 Chrome 扩展做的事情吗?截图、点击、填表、跳转、读 DOM——给 AI 安了一双会操作浏览器的手。但深入对比后发现,Chrome 扩展和 BrowserAct 根本不是同一层的东西。

图片 1

通用工具 vs 专业方案

Chrome 扩展是个通用浏览器控制工具——能看到当前页面、点元素、填表单、跳转导航、执行任意浏览器操作。能力是通用的,但问题也出在"都能干"这三个字上:因为它什么都能干,所以它什么坑都不防。

几个典型场景:

  • 爬 Amazon 畅销榜?Cloudflare 五分钟就把你拦了
  • 登录后 session 半路失效?它就傻在那
  • 页面 DOM 直接喂给 LLM?90% 是垃圾 HTML,token 烧得飞起还不一定出活
  • 需要同时跑十个账号?没有并发支持,每个账号还得保持不同的登录态和网络出口

图片 2

通用工具有手,但没经验。BrowserAct 针对真实生产环境里最要命的几个麻烦——反爬检测、会话中断、Token 噪声、多账号串线——分别写了专门的防御性处理逻辑。

打个比方:Chrome 扩展 = 会开车的司机,什么路都能开;BrowserAct = 熟悉每条路的导航 + 专门的货运许可证,知道哪个路口有摄像头、哪段路常年修路、到了关卡拿什么证件能过。

图片 3

实际案例测试

案例一:批量抓取小红书笔记

安装过程很简单——不需要配环境、不用折腾依赖,直接在对话框里输入它的 GitHub 地址:github.com/browser-act/skills/tree/main/browser-act,然后说一句"我想安装这个 skill",前后不到一分钟。

小红书是有门槛的——人机验证这一块一直比较棘手,对自动化工具的检测很敏感。但正因为有门槛,才更能测出它的真实水平。

输入关键词"AI Agent"、"浏览器自动化"、"AI 自动化",让它直接去小红书搜索并抓取数据。它直接调用了本地的 Chrome 浏览器,复用原有登录状态的前提下直接操作浏览器。整个过程中,它操作的就是自己的浏览器,不是专门为自动化另开的。

图片 4

最终成功抓到了 84 条数据,包含了公开笔记的标题、互动数据、作者信息和发布时间。

图片 5

更惊喜的是,它不只是把数据扔出来就不管了。它根据抓取到的 84 条数据,自动生成了一份分析报告,对内容角度、互动趋势做了归纳和总结。这种"抓数据 + 出报告"的闭环,确实省了不少时间。

图片 6

案例二:多平台文章同步分发

第二个案例测试的是:把一篇公众号文章抓取下来,然后分发到小红书、知乎和抖音三个平台。

它先从公众号路径抓取文章内容。在这个过程中,它也检测到了平台的验证机制,但成功完成了验证。拿到了文章全文(包括图片),把文字内容全部提取下来,把图片打包下载。

接着,它分别进入了小红书、知乎和抖音三个平台的创作后台,把文章内容按照每个平台的风格改写之后,填入标题、正文、标签和简介,连图片也一并上传到了各个平台。最终,三篇文章全部保存到了对应平台的草稿箱里。

图片 7

这一轮考的不是一次性的抓取,而是执行层的完整操作流——在真实网页里像人一样走完多步骤操作。从抓取到改写,从登录后台到填入内容再到上传图片,每一步都踩在真实的生产环境里。

有三层能力在背后支撑:

  • 环境层:stealth 浏览器把自动化痕迹隐藏起来,指纹伪装让它看起来像一台正常设备
  • 执行层:在真实浏览器里完成搜索、滚动、提取、整理、总结的完整流程
  • 人机接力层:检测到验证码之后不硬闯,而是让人接管一次,完成后再继续执行

图片 8

案例三:多账号多 IP 登录

第三个案例测试的是多账号隔离。BrowserAct 给出了两个配置隐私浏览器的方案:使用现有的静态 IP 地址配置到现有的浏览器上,或者购买一个新的静态地址。

配置完成后,有了两个独立的隐私浏览器,各自配置了不同的静态 IP 地址。这样一来,可以在同一个网站上同时登录两个不同的账号,各自独立操作。浏览器负责身份,Session 负责具体任务,谁也不会串到谁那边去。

图片 9

对于经常需要做多账号运营的人来说,这个能力挺实际的——不用在一个浏览器里反复切换账号,不用担心登错号发错内容。每个账号都是独立的浏览器身份、独立的 Cookie、独立的登录态、独立的网络出口。

静态代理在今天不算什么新奇功能,很多工具都有。但在 BrowserAct 的设计里,它不是被当成一个单独卖点来吹的,而是"长期账号稳定身份"这个体系的一环。你的每个账号以稳定、统一的身份持续访问网站,风控系统看你就跟看一个正常用户一样。

图片 10

Skill Forge:能力持续积累

除了上面的能力,还有一个值得单独说的功能:Skill Forge。安装之后,你只需要用自然语言描述你的需求,比如"我需要一个能每天自动抓取小红书指定关键词数据并生成报告的 skill"。

Skill Forge 会自行进行方案探测,研究目标网站的页面结构和交互逻辑,然后输出一套执行方案,接着自己跑通测试,验证可行之后,最终输出一个可以直接调用的 Skill。

这跟"把跑过的流程录制成脚本"不太一样。它不是录制回放,而是让一个专门的 skill 去帮你研究和生成新的 skill。你只需要描述目标,方案探测、测试验证这些脏活累活它自己干了。这就从"每次都是一次性折腾"变成了"能力持续积累"。

多 Session 并发也同样支持——不同的任务放在不同的 Session 里同时跑,互不干扰。

图片 11

能力边界

BrowserAct 能做到的是:

  • 真实浏览器控制
  • 反检测浏览器环境
  • 静态代理支撑长期身份稳定
  • 遇到验证码时人机接力
  • 多任务并发不串线
  • 多账号独立身份隔离
  • 跑通的流程沉淀成可复用 Skill

但它做不到的是:

  • 保证百分百过验证码
  • 保证账号永远不会被封
  • 自动绕过所有平台风控
  • 所有流程完全不需要人看
  • 买一个代理就能一劳永逸解决多账号运营

图片 12

苏米观察

Chrome 扩展把 AI 能不能点网页这件事解决了。但它解决不了 AI 能不能稳定地进入真实网站、把活干完、中间不翻车这件事。这两个问题听起来像是一件事,实际上是两层。

通用工具给 AI 安了一双手,BrowserAct 给这双手配上了经验、地图、应急方案和多线作战能力。用大白话说,你考了驾照、会踩油门打方向盘,跟你真能在晚高峰、下大雨、到处修路绕道的城市里把一车货准时送到,是两码事。

能开不算本事,能送到,才算。

GitHub 仓库:github.com/browser-act

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:BrowserAct:让 AI突破反爬虫检测的浏览器自动化 Skill
#BrowserAct #AI浏览器自动化 #反爬虫检测 #Agent工具 #开源项目 
收藏 1
HyperFrames 与 html-video:两个 HTML 生成视频的开源项目对比
这是最后一篇
推荐阅读
  • DeepSeek++ 浏览器扩展评测:工具调用、长期记忆与MCP集成,让网页版AI更强大
  • llm-course:这个开源的免费LLM课程终极学习指南,开启AI之旅
  • SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
  • Super Agent Party:零门槛打造你的3D AI桌面伴侣
  • html-ppt-skill:20天3600星的神级PPT生成工具
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9553 7月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9427 9月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7395 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6555 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6441 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6340 8月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
6312 5月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6261 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5730 9月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5661 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 BrowserAct:让 AI突破反爬虫检测的浏览器自动化 Skill
2 HyperFrames 与 html-video:两个 HTML 生成视频的开源项目对比
3 JoyAI-Echo开源:京东5分钟长视频生成框架,角色不崩+对话式编辑
4 docx-editor:浏览器端直接编辑 Word 的开源编辑器
5 花园开源4个神级Agent Skills:视频网页图片知识库
6 Odysseus:PewDiePie开源AI工作台一周5万Star
7 CopilotKit 开源:33.6K Star 的 Agentic App 基础设施,AG-UI 协议全解析
8 DeepSeek-GUI 开源:1300+ Star 的非官方桌面端,让 Agent 交互更直观
9 Ant Design Pro :2026 年企业级 React 应用的标准方案
10 HTML版剪映来了:OpenDesign团队开源HTML-Video
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联