10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

Skyvern:这个浏览器 AI 自动化项目火了,基于视觉理解的浏览器自动化框架

1月前 AI开源项目 482 0

最近在GitHub浏览时发现了Skyvern这个项目,它已经累积了近2万的Star。

这让我想起了自己曾经维护过的Selenium脚本——每次网站稍作调整,一堆XPath和CSS选择器就得跟着改,特别痛苦。

Skyvern的核心思路很有趣:与其死守选择器,不如让AI像人类一样"看懂"网页。

这次想从产品经理的角度,深入分析这个项目的设计思路和实际应用价值。

项目定位

Skyvern定位为基于视觉理解的浏览器自动化框架,主要解决传统RPA工具的两个核心痛点:

脆弱性:传统Selenium、Puppeteer等工具依赖CSS选择器或XPath定位元素,页面结构变动后脚本立即失效

维护成本高:每次网站更新都需要人工调整选择器规则,对于大规模自动化任务来说成本巨大

Skyvern的解决方案是引入多模态AI(视觉 + 语言模型),让系统能够基于页面的视觉内容和语义理解来执行操作,而非依赖HTML结构。

技术架构

项目采用了典型的规划-执行-反馈三层架构:

模块名称 职责 技术特征
Planner(规划器) 将用户的自然语言指令拆解为可执行的子步骤序列 调用LLM进行任务分解,产生执行计划
Task(执行器) 逐步执行规划器分配的任务,通过视觉识别和交互完成网页操作 结合计算机视觉(OCR、对象检测)和浏览器控制
Validator(验证器) 确认每一步操作是否真正完成,决定是否继续或重试 页面状态对比、内容校验,防止盲目执行

举个实际场景:当用户下达"在Amazon上购买iPhone 16、手机壳和屏幕膜"的指令时:

  • Planner将其拆解为:登录 → 搜索iPhone 16 → 加入购物车 → 搜索手机壳 → 加入购物车 → 搜索屏幕膜 → 加入购物车 → 结账
  • Task模块逐步执行,每一步都通过视觉识别定位按钮和输入框,而不是硬编码的选择器
  • Validator在每步完成后验证(如确认商品确实添加到购物车),若失败则触发重试或上报

应用场景

根据架构特性,Skyvern较为适合的场景包括:

  • 高频变更的网站操作:如爬取新闻网站、社交媒体热榜等,页面结构经常调整但业务逻辑稳定
  • 多步骤跨页面流程:电商购物、表单填写、数据查询等,需要多步骤协调的任务
  • 无API接口的系统集成:某些遗留系统或第三方网站只能通过UI交互
  • 动态内容处理:JavaScript渲染的动态页面,传统选择器定位困难

实际使用体验

Skyvern提供了两种集成方式:

1. Docker部署(推荐新用户)

提供完整的Web UI界面,可实时观看浏览器自动化的执行过程:

git clone https://github.com/Skyvern-AI/skyvern.git
cd skyvern
./run_skyvern.sh init  # 初始化,需配置LLM API Key(OpenAI/Claude等)
docker compose up -d

启动后访问 http://localhost:8080 即可使用Web界面提交任务。

2. Python SDK集成

适合已有系统集成需求的开发者:

pip install skyvern

from skyvern import Skyvern

skyvern = Skyvern(api_key="your_key")
task = await skyvern.run_task(
    prompt="在Hacker News找到今日热度最高的帖子,返回标题和链接"
)
print(task)

实际执行特性

  • 执行速度:相比传统RPA工具,Skyvern的执行速度较慢(每个操作需要视觉识别 + LLM调用),不适合高吞吐量场景
  • Token消耗:每个任务步骤都涉及截图发送给LLM、文本生成等,API调用成本相对较高,被社区戏称为"Token消耗神器"
  • 准确性:受LLM模型能力影响,复杂或非常规UI设计的页面识别准确率可能下降
  • 可监控性:UI界面提供实时执行画面查看,便于调试和问题排查

类似项目

市场上也存在其他浏览器自动化方案,做个简单对比:

项目 技术路线 依赖选择器 成本 适用场景
Selenium WebDriver协议 是(XPath/CSS) 低 需求稳定、页面变动少的场景
Puppeteer Chrome DevTools Protocol 是(选择器) 低 Node.js环境、API自动化为主
Skyvern 视觉 + LLM 否 中等(API调用) 页面变动频繁、复杂多步流程
Browser Use(Anthropic) 视觉 + Claude 否 中等(API调用) 通用浏览器任务自动化

部署与配置

依赖环境:Docker、Docker Compose(推荐)或Python 3.8+

LLM配置:需配置OpenAI、Claude或其他支持的模型API Key,作为规划和执行决策的核心

资源占用:Docker方式下需要一定的CPU和内存(建议至少2核4GB)用于浏览器实例和LLM推理

网络要求:需要稳定的网络连接以调用外部LLM API和访问目标网站

总结

Skyvern代表了浏览器自动化领域的一个有趣尝试——用AI视觉能力取代脆弱的选择器规则。从产品设计角度,它在易维护性和鲁棒性上相比传统工具有明显优势,尤其对于页面频繁变动的场景。不过需要注意的是,这种方案的代价是执行速度和API成本的增加,所以它更适合对时效性要求不高、对稳定性要求高的任务。

如果你正在处理以下问题:

  • 维护大量因网站更新而频繁破损的RPA脚本
  • 需要处理动态渲染、结构复杂的现代Web应用
  • 对自动化的可靠性比速度更看重

那么Skyvern值得一试。而如果你的场景是高吞吐量数据采集或API完全可用,传统方案仍是更经济的选择。

项目地址:https://github.com/Skyvern-AI/skyvern
体验地址:https://app.skyvern.com/workflows

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Skyvern:这个浏览器 AI 自动化项目火了,基于视觉理解的浏览器自动化框架
#Skyvern #浏览器自动化 #RPA 
收藏 1
ACE:最强上下文引擎 Augment Context Engine,已支持主流的 AI 工具进行集成
一篇带你搞定AI编程工具Claude、Codex、OpenCode、Antigravity的Skills设计与实践指南
推荐阅读
  • RuoYi AI | 一款基于 RuoYi 框架开发的AI平台,支持本地化 AI 能力,包括向量检索、知识图谱、数字人交互,AI 流程编排
  • 小桔调研:滴滴开源的企业级问卷系统,10分钟搭建专业调研平台,支持AI一键生成问卷!
  • New API:用统一接口管理30+大模型,一个开源网关解决模型集成难题
  • LocalAI:不花钱、不断网、不怕泄密,把 AI 大模型装进你的本地服务器!
  • Fay:12.0K Star 的开源数字人框架,让 AI 助理有眼神、有表情、能感知情绪
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
6908 3月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
5053 4月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
4548 3月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
4031 3月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
3778 4月前
SurfSense:私人AI研究助手,私有版的NotebookLM 和 Perplexity开源平替,
3342 3月前
Fogsight (雾象):一句话自动生成任何科普动画
3247 3月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
3219 4月前
KrillinAI:开源AI视频翻译配音工具,100种语言双向翻译,一键部署全流程
3162 3月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
2908 4月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Eigent:平替Claude Cowork开源多智能体工作流桌面应用,让AI真正接管你的工作流
2 OpenWork:开源桌面AI Agent框架,用可视化工作流取代黑盒操作,Claude Cowork平替版!
3 WorldModel-Qwen:小模型也能精确计算,Qwen通过WASM代码执行实现推理时确定性计算
4 Claude-Cowork:开源如何打破官方生态的围墙,桌面 AI 助手的平民化方案
5 Agentic:首个开源MCP商业化平台,让AI工具实现按量计费
6 VidBee:一个基于 yt-dlp 引擎开源视频下载器!支持1000+网站下载音视频!
7 pi-mono:AI 智能体工具包,从 LLM 集成到智能体部署的完整工具链,包含编码代理 CLI、统一 LLM API 和 UI 库
8 小桔调研:滴滴开源的企业级问卷系统,10分钟搭建专业调研平台,支持AI一键生成问卷!
9 xan:不到6MB的终端CSV处理瑞士军刀! 这个更快的数据分析命令行工具
10 Quotio:macOS 菜单栏,聚合 Claude、Gemini、OpenAI等订阅,实时配额监控+智能切换
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联