这篇文章,我就用亲测的方式,手把手带你了解什么是 Playwright MCP,如何快速上手做一套“AI网页自动化”,并顺带演示一个网页截图的工作流,真正体验一下“只会说人话也能写脚本”的新时代。
什么是 Playwright MCP?
Playwright MCP 是微软推出的一个全新协议,它结合了:
-
Playwright 浏览器自动化框架
-
结构化快照系统(替代传统的 DOM/CSS 定位)
-
LLM 大模型(如 GPT、Claude)对自然语言指令的理解能力
换句话说,它是专为 AI 打造的浏览器控制协议 —— 不需要写 XPath、不需要找选择器,AI 就能听你说话去点击、跳转、截图、提取内容、生成测试脚本。
为什么值得用?
对比维度 | Selenium | Playwright MCP |
---|---|---|
操作方式 | 选择器 + 手写代码 | 自然语言 + 快照结构 |
编码门槛 | 高 | 超低,零代码 |
适应性 | 易崩,页面一改就挂 | 自动适应 DOM 结构变更 |
跨设备 | 支持有限 | 支持移动、平板模拟器 |
性能 | 一般 | 快 30~50% |
最关键的是:你可以把 Playwright MCP 当作一个 AI 助手,告诉它“帮我截图”、“点击右上角登录按钮”,它就真能听懂去做。
支持的常用命令
Playwright MCP 提供了非常完整的一套浏览器操作能力,下面我按模块简单列一下:
浏览器控制
-
browser_close()
:关闭浏览器 -
browser_resize()
:调整窗口或切换为手机模式 -
browser_install()
:下载对应浏览器内核(如Chromium)
页面交互
-
browser_click()
:点击按钮 -
browser_type()
:输入内容 -
browser_hover()
:悬停 -
browser_drag()
:拖拽元素 -
browser_select_option()
:选择下拉菜单项
导航和标签页
-
browser_navigate()
:跳转网址 -
browser_tab_new()
/browser_tab_select()
/browser_tab_close()
:多标签控制 -
browser_navigate_back()
/browser_navigate_forward()
:前进/后退操作
数据提取与截图
-
browser_snapshot()
:结构化快照,AI用来理解页面结构 -
browser_take_screenshot()
:网页截图 -
browser_pdf_save()
:另存为 PDF -
browser_file_upload()
:上传文件
调试&高级操作
-
browser_console_messages()
:获取 console 输出 -
browser_handle_dialog()
:自动处理弹窗 -
browser_network_requests()
:查看网络请求 -
browser_generate_playwright_test()
:生成测试代码!
如何安装和使用?
常用的IDE配置方法,及如何快速使用
方式一:VScode + npx 快速配置
在 .mcp/config.json
中加入:
"playwright": {
"command": "npx",
"args": ["-y", "@playwright/mcp@latest"]
}
方式二:在 Cursor 中一键添加
Cursor 支持原生 MCP 插件,在 Tools 菜单直接点击添加:
方式三:在 Trae 中使用
Trae MCP 市场中搜索“playwright”,点击添加即可,非常简单

对话时选择 Builder with MCP,接着发送需求就可以了
接下来playwright MCP就会执行任务了

方式四:在 Cherry 中使用
还是可以当作日常工具使用,配置在Cherry上,可以通过对话实现一些简单的自动化功能
添加MCP配置,参考上面的配置文件,只需要添加一个npx + 两行命令就搞定了

接着在对话框选择playwright MCP,让它告诉你都能做什么


实测最简单的网页截图,Cherry会调用系统默认浏览器执行操作:

而且还是截取的全屏

结语:MCP + AI = 自动化新范式
Playwright MCP不是另一个低代码平台,而是真正让“语言模型接管网页”的落地方案。你不再需要学习 JavaScript,也不再需要反复调试 selector,只需要说出你要什么,AI 就能完成任务。
我自己也在把它集成进 Claude Code 的 Agent 流程中,未来可能构建一套「AI+Browser」的内容抓取自动工具。