10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

Skyvern:这个浏览器 AI 自动化项目火了,基于视觉理解的浏览器自动化框架

3小时前 AI开源项目 18 0

最近在GitHub浏览时发现了Skyvern这个项目,它已经累积了近2万的Star。

这让我想起了自己曾经维护过的Selenium脚本——每次网站稍作调整,一堆XPath和CSS选择器就得跟着改,特别痛苦。

Skyvern的核心思路很有趣:与其死守选择器,不如让AI像人类一样"看懂"网页。

这次想从产品经理的角度,深入分析这个项目的设计思路和实际应用价值。

项目定位

Skyvern定位为基于视觉理解的浏览器自动化框架,主要解决传统RPA工具的两个核心痛点:

脆弱性:传统Selenium、Puppeteer等工具依赖CSS选择器或XPath定位元素,页面结构变动后脚本立即失效

维护成本高:每次网站更新都需要人工调整选择器规则,对于大规模自动化任务来说成本巨大

Skyvern的解决方案是引入多模态AI(视觉 + 语言模型),让系统能够基于页面的视觉内容和语义理解来执行操作,而非依赖HTML结构。

技术架构

项目采用了典型的规划-执行-反馈三层架构:

模块名称 职责 技术特征
Planner(规划器) 将用户的自然语言指令拆解为可执行的子步骤序列 调用LLM进行任务分解,产生执行计划
Task(执行器) 逐步执行规划器分配的任务,通过视觉识别和交互完成网页操作 结合计算机视觉(OCR、对象检测)和浏览器控制
Validator(验证器) 确认每一步操作是否真正完成,决定是否继续或重试 页面状态对比、内容校验,防止盲目执行

举个实际场景:当用户下达"在Amazon上购买iPhone 16、手机壳和屏幕膜"的指令时:

  • Planner将其拆解为:登录 → 搜索iPhone 16 → 加入购物车 → 搜索手机壳 → 加入购物车 → 搜索屏幕膜 → 加入购物车 → 结账
  • Task模块逐步执行,每一步都通过视觉识别定位按钮和输入框,而不是硬编码的选择器
  • Validator在每步完成后验证(如确认商品确实添加到购物车),若失败则触发重试或上报

应用场景

根据架构特性,Skyvern较为适合的场景包括:

  • 高频变更的网站操作:如爬取新闻网站、社交媒体热榜等,页面结构经常调整但业务逻辑稳定
  • 多步骤跨页面流程:电商购物、表单填写、数据查询等,需要多步骤协调的任务
  • 无API接口的系统集成:某些遗留系统或第三方网站只能通过UI交互
  • 动态内容处理:JavaScript渲染的动态页面,传统选择器定位困难

实际使用体验

Skyvern提供了两种集成方式:

1. Docker部署(推荐新用户)

提供完整的Web UI界面,可实时观看浏览器自动化的执行过程:

git clone https://github.com/Skyvern-AI/skyvern.git
cd skyvern
./run_skyvern.sh init  # 初始化,需配置LLM API Key(OpenAI/Claude等)
docker compose up -d

启动后访问 http://localhost:8080 即可使用Web界面提交任务。

2. Python SDK集成

适合已有系统集成需求的开发者:

pip install skyvern

from skyvern import Skyvern

skyvern = Skyvern(api_key="your_key")
task = await skyvern.run_task(
    prompt="在Hacker News找到今日热度最高的帖子,返回标题和链接"
)
print(task)

实际执行特性

  • 执行速度:相比传统RPA工具,Skyvern的执行速度较慢(每个操作需要视觉识别 + LLM调用),不适合高吞吐量场景
  • Token消耗:每个任务步骤都涉及截图发送给LLM、文本生成等,API调用成本相对较高,被社区戏称为"Token消耗神器"
  • 准确性:受LLM模型能力影响,复杂或非常规UI设计的页面识别准确率可能下降
  • 可监控性:UI界面提供实时执行画面查看,便于调试和问题排查

类似项目

市场上也存在其他浏览器自动化方案,做个简单对比:

项目 技术路线 依赖选择器 成本 适用场景
Selenium WebDriver协议 是(XPath/CSS) 低 需求稳定、页面变动少的场景
Puppeteer Chrome DevTools Protocol 是(选择器) 低 Node.js环境、API自动化为主
Skyvern 视觉 + LLM 否 中等(API调用) 页面变动频繁、复杂多步流程
Browser Use(Anthropic) 视觉 + Claude 否 中等(API调用) 通用浏览器任务自动化

部署与配置

依赖环境:Docker、Docker Compose(推荐)或Python 3.8+

LLM配置:需配置OpenAI、Claude或其他支持的模型API Key,作为规划和执行决策的核心

资源占用:Docker方式下需要一定的CPU和内存(建议至少2核4GB)用于浏览器实例和LLM推理

网络要求:需要稳定的网络连接以调用外部LLM API和访问目标网站

总结

Skyvern代表了浏览器自动化领域的一个有趣尝试——用AI视觉能力取代脆弱的选择器规则。从产品设计角度,它在易维护性和鲁棒性上相比传统工具有明显优势,尤其对于页面频繁变动的场景。不过需要注意的是,这种方案的代价是执行速度和API成本的增加,所以它更适合对时效性要求不高、对稳定性要求高的任务。

如果你正在处理以下问题:

  • 维护大量因网站更新而频繁破损的RPA脚本
  • 需要处理动态渲染、结构复杂的现代Web应用
  • 对自动化的可靠性比速度更看重

那么Skyvern值得一试。而如果你的场景是高吞吐量数据采集或API完全可用,传统方案仍是更经济的选择。

项目地址:https://github.com/Skyvern-AI/skyvern
体验地址:https://app.skyvern.com/workflows

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Skyvern:这个浏览器 AI 自动化项目火了,基于视觉理解的浏览器自动化框架
#Skyvern #浏览器自动化 #RPA 
收藏 1
ACE:最强上下文引擎 Augment Context Engine,已支持主流的 AI 工具进行集成
MinerU:一款全能的PDF文档解析神器,本地部署的PDF智能解析方案
推荐阅读
  • FlyCut Caption:本地化开源智能视频多语言字幕识别与编辑工具
  • DocStrange:从PDF到Markdown的智能文档转换方案
  • VibeVoice:微软开源的长文本TTS框架,重新定义语音合成
  • Generative Models:从本地部署到模型训练,Stable Diffusion 官方的完整开源方案
  • CordysCRM:开源AI驱动的企业级CRM系统,Salesforce的可控替代方案
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
5774 1月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
4284 1月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
3895 3月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
3354 1月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
3141 3月前
SurfSense:私人AI研究助手,私有版的NotebookLM 和 Perplexity开源平替,
3044 1月前
KrillinAI:开源AI视频翻译配音工具,100种语言双向翻译,一键部署全流程
2896 1月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
2362 3月前
Fogsight (雾象):一句话自动生成任何科普动画
2272 1月前
Bytebot:开源AI桌面代理(Desktop Agent),给AI配一台自己的电脑
2255 2月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 MinerU:一款全能的PDF文档解析神器,本地部署的PDF智能解析方案
2 Skyvern:这个浏览器 AI 自动化项目火了,基于视觉理解的浏览器自动化框架
3 ClipSketch AI:将视频瞬间转化为手绘故事,并自动撰写适配社交媒体的爆款文案
4 Drawn-ix:MIT开源白板工具,支持思维导图、流程图与自由绘画的一体化方案
5 LocalAI:不花钱、不断网、不怕泄密,把 AI 大模型装进你的本地服务器!
6 Khoj:你的开源“AI 第二大脑”,如何把个人知识库变成可对话的 AI 系统
7 AnythingLLM:一个全栈式的本地化私有知识库与企业级文档聊天平台
8 withoutBG:本地部署的自动抠图!告别在线抠图网站~
9 YPrompt:把零散Prompt提示词变成可管理的知识库,提示词管理系统
10 SeekDB:一款AI原生的混合搜索数据库!还支持MCP
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联