10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

微软开源Webwright:让 LLM 直接写 Playwright 脚本,浏览器 Agent 性能达 SOTA

11小时前 AI开源项目 103 0

2026 年 5 月,微软正式开源了终端原生 Web Agent 框架 Webwright。项目刚发布就引发了 Agent 开发社区的广泛讨论。

图片 1

核心设计:完全跳出单步操作的旧模式

过去绝大多数浏览器 Agent 都走同一条路径:观察当前页面状态 → 预测下一步点击/输入动作 → 执行,每一步都要调用 LLM 做判断。这套设计在 LLM 能力较弱的时候确实有效,但随着模型写代码能力的提升,反而成了瓶颈。

Webwright 的思路完全不同,更接近真实工程师做自动化的逻辑:

  • 让 LLM 直接编写可运行的 Playwright 脚本,把网页操作转化成可复用的 Python 程序
  • 所有状态(脚本、截图、日志)都存在本地工作区,浏览器会话是可以随时启动、检查、丢弃的运行环境,而非状态载体
  • 架构极简,核心只有三个模块共约 1500 行代码:Runner(150 行)、Model Endpoint(550 行)、Environment(300 行),没有多智能体系统、没有图引擎、没有多余的插件层,仅依赖 httpx、pydantic、playwright、typer 四个库

这种模式的直接好处是,Agent 运行完任务留下的并非一次性操作痕迹,而是可直接修改、复用、分享的自动化脚本。

苏米注:这个设计思路很精妙。与其让 Agent 一步步"猜"该点哪里,不如让 Agent 直接写出完整的自动化脚本。把决策和execution分离,浏览器只是运行环境,本地工作区才是状态载体。

性能达到 SOTA 级别

Webwright 在两个主流浏览器 Agent 基准测试上都拿到了当前开源框架的最好成绩,100 步预算下的测试结果:

  • Online-Mind2Web(300 个真实网页任务):用 GPT-5.4 达到 86.7% 的准确率,是同类开源 harness 的最高水平;用 Claude Opus 4.7 也能达到 84.7%,在难例拆分上甚至超过 GPT-5.4(80.5% vs 76.6%)
  • Odysseys(200 个长程任务,平均需要 76.1 步):用 GPT-5.4 达到 60.1% 的完成率,比之前的 SOTA 高出 15.6 个百分点,比用坐标预测的基线 GPT-5.4 高出 26.6 个百分点

另外测试显示,哪怕是 Qwen-3.5-9B 这类小模型,配合预置的工具脚本,也能在 Online-Mind2Web 的难例上达到 66.2% 的完成率,适合低成本部署场景。

图片 2

图片 3

生态集成与附加功能

Webwright 已经完成了主流 Agent 生态的适配,不用改现有工作流就能接入:

  • Claude Code:直接通过插件市场安装,支持 /webwright:run(一次性任务)和 /webwright:craft(生成可复用的参数化脚本)两个命令
  • OpenAI Codex:通过插件市场安装后,用 @webwright 就能直接调用
  • OpenClaw、Hermes Agent:共用同一套 skill 目录,直接加载即可使用

另外还有两个实用功能:

  • Task2UI 模式:任务完成后自动把结果渲染成可交互的 HTML 应用,不用自己再做可视化
  • 全程可审计:每次运行的轨迹、截图、日志都会存在本地,方便调试和回溯

和同类项目的核心区别

社区也有人提到 Webwright 和 browser-use、agent-browser 等项目的差异,官方给出的架构对比如下:

维度 Stagehand
(Browserbase)
agent-browser
(Vercel)
browser-use Webwright
范式 混合:代码+自然语言 原语供其他 Agent 调用的 CLI 工具 基于 DOM 快照的自主 LLM 循环 带终端的编码 Agent,浏览器只是启动的运行环境
动作空间 Playwright 代码,或自然语言转译的 Playwright 离散子命令(打开、点击、截图等) LLM 选择的索引式点击/输入 自由格式 Python,自己写完整 Playwright 脚本
状态载体 浏览器会话 浏览器会话 浏览器会话 本地工作区(代码、截图、日志),浏览器可丢弃
循环形态 命令式,需要时做多步操作 每个微操作调用一次 CLI 观察→预测动作→执行循环 写代码→执行→检查截图→修复代码

行业共识:Agent 要跳出单步操作的局限

Webwright 的设计思路在社区得到了广泛认同,不少从业者表示这才是浏览器 Agent 的正确发展方向。

有开发者指出,绝大多数自动化的瓶颈不在动作层,而在决策循环。Playwright 点的已经足够快,真正的问题是该点什么。如果新工具能压缩这个决策 gap,就是完全不同的品类,如果只是重新包装一层 CDP 调用,最多是横向移动。

FSB(Full Self Browsing)的作者 Lakshman Turlapati 表示,Webwright 说明方向是对的:Agent 不该只猜下一步点击,还要能把真实浏览器会话、DOM、截图、日志和恢复机制放进同一个控制层。FSB 做的就是 Chrome 端的 MCP 层,让 Codex、Claude、Cursor 这类 Agent 能直接控制用户的真实 Chrome,保留原有的 cookie、扩展、登录态,同时做到敏感信息不泄露、多 Agent tab 隔离,适合处理收件箱分类、客服回复、数据拉取等需要登录态的重复工作。

还有开发者表示,Webwright 本质就是面向浏览场景的编码 Agent,自己之前手动用 Copilot CLI + Playwright MCP 搭过类似的工作流,现在终于有了更 streamlined 的官方方案。

快速上手

基础运行

环境要求:Python 3.10+,Playwright 安装的 Chromium,对应后端的 API 密钥(OpenAI/Anthropic/OpenRouter)。

# 安装
pip install -e .
playwright install chromium

# 运行示例任务
python -m webwright.run.cli \
    -c base.yaml -c model_openai.yaml \
    -t "Search for flights from SEA to JFK on 2026-08-15 to 2026-08-20" \
    --start-url https://www.google.com/flights \
    --task-id demo_openai \
    -o outputs/default

作为 Claude Code 插件安装

# 添加插件市场
/plugin marketplace add microsoft/Webwright
# 安装插件
/plugin install webwright@webwright

相关链接

  • Webwright GitHub 仓库:github.com/microsoft/webwright
  • Webwright 官方博客:microsoft.com/en-us/research/articles/webwright
  • FSB 官方网站:full-selfbrowsing.com/agents
  • FSB GitHub 仓库:github.com/lakshmanturlapati/FSB
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:微软开源Webwright:让 LLM 直接写 Playwright 脚本,浏览器 Agent 性能达 SOTA
#Webwright #微软 #浏览器Agent #Playwright #开源 
收藏 1
MinerU2.5-Pro 发布:1.2B 参数开源文档解析模型,OmniDocBench 得分 95.69 超越 Gemini 3 Pro
BiliSum 开源工具:B 站、YouTube 视频自动转写,生成结构化笔记和思维导图
推荐阅读
  • VoidNovelEngine - 无代码节点编辑的开源视觉小说引擎
  • 告别 git stash!VibeTree 让你一仓多分身,还能并行跑 Claude Code、Codex、Cursor CLI、aider 等多 AI Agent
  • Sim :零门槛 AI 工作流神器,60+ 服务随意拼装
  • AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
  • Google TimesFM 开源详解:1000 亿时间点预训练,零样本时间序列预测模型
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9339 7月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
8940 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7057 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6331 3月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6192 8月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6041 8月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
5886 7月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5580 9月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
5502 5月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5490 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 omp 开源发布:Hashline 技术让 AI 编程编辑成功率提升 10 倍,支持 40+ 模型
2 BiliSum 开源工具:B 站、YouTube 视频自动转写,生成结构化笔记和思维导图
3 微软开源Webwright:让 LLM 直接写 Playwright 脚本,浏览器 Agent 性能达 SOTA
4 DeepSeek++ 浏览器扩展评测:工具调用、长期记忆与MCP集成,让网页版AI更强大
5 One API 自建 AI 网关:15 分钟整合所有模型 Key,告别中转站跑路风险
6 PilotDeck 开源 AI Agent 操作系统:一个人指挥一支智能体军队
7 pyVideoTrans 开源视频翻译工具:语音识别+翻译+配音+声音克隆一站式解决方案
8 Qwen3.6-35B-A3B-Uncensored:35B参数仅3B激活的完全解锁开源MoE模型
9 开源纯真IP库在线查询系统:IP地理位置查询、本机IP查询、域名解析
10 Apex Dashboard:Obsidian 的一站式工作控制台插件
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联