当前位置：首页 » AI开源项目

Page Agent：阿里开源，一行代码注入，用自然语言操控Web应用的纯前端GUI Agent

1月前 AI开源项目 573 0

最近阿里开源了一个有趣的项目——Page Agent。

作为一个经常关注 AI 开源生态的产品经理，我对这类项目特别敏感。

它解决的问题很实际：怎样以最低成本给 Web 应用加上 AI 交互能力？

Page Agent 的答案是：纯 JavaScript 实现，一行代码搞定，不需要插件、Python 或无头浏览器。

GitHub 上已有 12K+ Star，还上了 Hacker News 热门。今天我就来拆解一下这个项目的核心价值。

项目定位与核心特点

Page Agent 是一个纯前端的 GUI Agent，能用自然语言指令操控网页上的交互元素。它的设计哲学很直白：既然 DOM 树已经在浏览器里了，为什么不直接在前端做 Agent？

1. 纯前端实现——最大的差异化

传统 GUI Agent 方案通常需要：

装浏览器插件
跑 Python 脚本
部署无头浏览器

Page Agent 打破了这个模式。它就是一个 JS 文件，引入网页即可使用：

这意味着：

集成成本极低——一行代码，无需后端改造
用户无感知——不需要安装任何插件
响应速度快——本地执行，无网络往返

2. 基于 DOM 文本解析，而非视觉模型

很多 GUI Agent 采用"截图 + 视觉模型"的方案，成本高、速度慢、对模型要求高。

Page Agent 的做法不同：

将 DOM 树转换成结构化文本格式
LLM 直接理解文本描述
生成对应的 DOM 操作指令

这样的好处是：

成本更低——任何能理解文本的大模型都能用
准确度更高——文本信息比图像更精确
模型门槛更低——不需要多模态模型

3. 自带 UI 界面与人机协同

Page Agent 不仅提供 API，还内置了一个操作界面：

自然语言输入框
执行过程可视化
人工确认机制
操作历史记录

这对于复杂操作或需要用户确认的场景很有用。

4. 灵活的模型配置

支持任何 OpenAI 兼容的 API：

const agent = new PageAgent({
  model: 'gpt-4o',
  baseURL: 'https://api.openai.com/v1',
  apiKey: 'YOUR_API_KEY',
  language: 'zh-CN',
})

阿里云、OpenAI、Azure、本地模型，随意切换。

快速上手指南

方式一：CDN 快速体验

官方提供了免费的 Demo API，最快 30 秒体验：

国内用户可用 npmmirror 加速：

加载后，页面右下角会出现 Agent 入口，点开即可用自然语言操控页面。

方式二：NPM 正式集成

生产环境推荐使用 npm 安装：

npm install page-agent

在代码中初始化：

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
  model: 'gpt-4o',
  baseURL: 'https://api.openai.com/v1',
  apiKey: 'YOUR_API_KEY',
  language: 'zh-CN',
})

// 程序化执行指令
await agent.execute('点击提交按钮，然后填写用户名为张三')

// 或显示对话框让用户输入
agent.panel.show()

应用场景分析

场景一：SaaS 产品的 AI 副驾驶

问题：用户抱怨功能太多、操作路径深、学习成本高。

解决方案：

// 用户说："帮我导出上个月的报表"
// Agent 自动：找到报表模块 → 选择时间范围 → 点击导出

效果：用户不需要学习产品，自然语言直达目标功能。

场景二：后台管理系统的表单自动填充

问题：ERP、CRM 系统操作繁琐，新建客户需要点击 20+ 次、填写 10+ 个字段。

解决方案：

// 用户说："新建一个客户，公司叫某某科技，联系人是张三，电话138xxxx"
// Agent 自动：点击新建 → 填入各个字段 → 保存

效果：一句话完成原本需要多步操作的任务。

场景三：无障碍访问增强

为视障或运动障碍用户提供语音指令操控能力，降低使用门槛。

场景四：测试自动化

用自然语言描述测试用例，自动生成和执行测试步骤。

技术原理简析

DOM 解析与文本化

Page Agent 将网页 DOM 转换成结构化文本：

[1] button "登录" id="login-btn"
[2] input "用户名" placeholder="请输入用户名"
[3] input "密码" type="password"
[4] a "忘记密码?" href="/forgot"

LLM 看到这个结构化描述，能准确理解页面布局和交互元素。

执行循环

用户指令 → LLM 理解 → 生成操作 → 执行 → 观察结果 → 循环直到完成

这个循环机制与 browser-use 等框架类似，但 Page Agent 将其完全搬到了前端。

安全边界

因为是纯前端运行，Agent 的权限受限于当前页面：

只能操作当前页面的 DOM
无法访问其他网站数据
用户可随时中断

进阶配置

自定义工具扩展

除了 DOM 操作，还可以添加自定义工具：

import { z } from 'zod/v4'
import { PageAgent, tool } from 'page-agent'

const pageAgent = new PageAgent({
  customTools: {
    add_to_cart: tool({
      description: 'Add a product to the shopping cart by its product ID.',
      inputSchema: z.object({
        productId: z.string(),
        quantity: z.number().min(1).default(1),
      }),
      execute: async function (input) {
        await fetch('/api/cart', {
          method: 'POST',
          body: JSON.stringify(input),
        })
        return `Added ${input.quantity}x ${input.productId} to cart.`
      },
    })
  },
})

这样 Agent 不仅能操作 UI，还能调用自定义的后端接口。

与其他方案的对比

方案	优点	缺点	适用场景
Page Agent	纯前端、易集成、成本低、响应快	只能操作当前页面、依赖 LLM API	SaaS 产品、后台系统、快速原型
browser-use	功能强大、支持复杂任务、跨页面	需要 Python 环境、部署复杂、成本高	复杂自动化、爬虫、测试
Playwright	完全控制浏览器、稳定性高	需要后端部署、不是 Agent 框架	端到端测试、网页自动化
Chrome 插件	能跨页面、用户可见	用户要安装、审核麻烦、维护成本高	浏览器增强、跨站点操作

Page Agent 的定位很清晰：轻量级、纯前端、易集成的 GUI Agent。适合给现有 Web 产品快速加 AI 能力，而不适合需要跨页面或复杂浏览器控制的场景。

使用注意事项

1. Demo API 的限制

官方提供的免费 Demo API 仅用于技术评估，有调用限制和速率限制。正式使用必须配置自己的 API Key。

2. 页面结构变化的影响

如果网页改版，DOM 结构变了，Agent 可能找不到元素。不过 Page Agent 有自动重试和恢复机制，大多数情况下能自动适应。

3. 复杂操作需要人工确认

对于特别复杂的操作（多步表单、条件判断、数据验证），建议启用人机协同模式，让用户在关键步骤确认。

4. 成本与性能权衡

每次操作都要调用 LLM API，对于高频操作场景，需要考虑 API 成本和响应延迟。建议为一些高频操作单独优化。

总结

Page Agent 解决了一个很实际的问题：怎样以最低成本给 Web 产品加上 AI 操作能力。

它的创新点不在于技术有多复杂，而在于架构设计的巧妙性——充分利用浏览器已有的能力（DOM 树、

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Page Agent：阿里开源，一行代码注入，用自然语言操控Web应用的纯前端GUI Agent

#Page Agent #GUI Agent

请登录后发表评论