在Openclaw中有一个大家都非常想要却又头疼的需求,那就是网页内容抓取。
很多人直觉上认为,AI 的主要支出来自模型调用。
但当我在 OpenClaw 中跑了几十个真实工作流后,才明白:真正的"吞金兽"其实是网页预处理。
一篇技术博客的原始 HTML 经常包含 8000-15000 Token,但真正有价值的正文内容只占 30% 左右。
剩下的 70% 全是导航栏、推荐模块、脚本代码,这些噪音既浪费 Token,还会让模型产生幻觉。
更糟的是,Substack、微信公众号这类平台的反爬机制更是让普通工具直接歇菜。
这一次,我在 OpenClaw 上把目前最主流的三个选手拉出来做了完整对标:Jina Reader、Scrapling 和 Claude 原生的 web_fetch。
不玩虚的,就用真实数据和运行日志说话。
为什么这些工具各有各的坑?
web_fetch 的"裸奔"困境:
Claude 的原生工具,看似零配置很诱人。
但在 OpenClaw 里实测发现,它返回的是完全未处理的原始 HTML。
对付 GitHub README 还行,一旦遇到稍复杂的页面,有效内容就淹没在代码噪音里。
致命的是,面对 Substack 或微信公众号这类反爬网站,它基本无能为力,经常返回 403 错误或空值。
Jina Reader 的"配额焦虑":
Jina Reader(r.jina.ai)确实强悍
一行 URL 前缀就能返回完美的 Markdown,几乎不需要二次清洗。
但它的免费额度卡在 200 次/天。对个人用户可能够用,但对批量处理数据的创作者或开发者来说,这个限额就像达摩克利斯之剑。
Scrapling 的"门槛与承诺":
这个 GitHub 最近爆火的框架(2.2 万+ Star),能力确实全面。
但它的接入方式相对工程化:你要么写脚本,要么做容错处理,要么维护代理池。
不过,Scrapling 原作者已明确宣布将其打造为 OpenClaw 的原生 Skill,这改变了游戏规则。
三位选手的基本对比
| 工具 | 出身背景 | 核心能力 | 成本模型 | 适用场景 |
| Jina Reader | Jina AI 官方,Apache-2.0 开源 | 无需 API Key,URL 前缀即用;自动 HTML→Markdown;支持 PDF 和图片 Alt 描述 | 200 次/天免费额度 | 英文站点、静态页面、文档类内容 |
| Scrapling | GitHub 爆火框架,2.2 万 Star;作者已纳入 OpenClaw Skill 规划 | 三种 Fetcher 模式(HTTP、StealthyFetcher、DynamicFetcher);自动元素追踪;MCP Server 集成 | 完全免费,无限制 | 反爬保护、动态渲染、微信公众号、持续监控 |
| web_fetch | Claude 原生内置 | 零配置,开箱即用 | 包含在 Claude API 额度内 | 简单静态页面、快速侦察 |
实战演练:核心维度横向对决
普通静态页面测试
测试对象:GitHub README、Python 官方文档
结果:三者均能完成任务。但 web_fetch 返回的内容夹杂大量