2026 年 3 月,中国科技界发生了一场静默却深刻的变革。钉钉、飞书、网易云音乐三家分属不同赛道的公司,不约而同地做出了同一个选择:将自己的产品能力压缩成命令行接口(CLI),向 AI Agent 敞开大门。
这场变革的起点可以追溯到 Karpathy 在 Twitter 上的一条回复。他评论 Box CEO Aaron Levie 的万字长文《Building for trillions of agents》时说道:
「如果你告诉用户该点哪个按钮、填哪个输入框,这突然显得很粗鲁。请直接给我一个能复制粘贴给 Agent 的东西。」
「粗鲁」这个词精准地捕捉到了时代的转折。当 AI Agent 能够自主完成任务时,继续要求人类手动操作图形界面,就像要求成年人用儿童餐具吃饭一样不合时宜。
CLI 化:给 AI 开一扇门
CLI(命令行界面)的本质是什么?简单说,就是把「只有人能用鼠标点」的功能,变成「AI 用一行命令就能调」的能力。
这并非要废弃图形界面,而是增加一层专为 Agent 设计的访问通道。就像建筑物既有给人走的门,也有给送货机器人开的通道。
2026 年 3 月的三件事标志着这一趋势的加速:
- 3 月 17 日,钉钉发布「悟空」平台,完成 CLI 化改造,10 天后开源代码
- 3 月 23 日,网易云音乐接入 OpenClaw,提供标准化 CLI 接口
- 3 月 28 日,飞书 CLI 开源,采用 MIT 协议
如果再加上微信推出的 ClawBot 插件,可以说国内主流平台都在为 Agent 时代做准备。
钉钉:最激进的企业管理 CLI
钉钉是这一波浪潮中最早出手的。3 月 17 日,钉钉 CTO 朱鸿明确表示:
「我们希望每一个 AI Agent,都能像调用系统命令一样自然地调用钉钉。」
注意用词——「系统命令」。这意味着不是简单的 API 封装,而是让 Agent 能像使用 ls、cd 那样自然地操作钉钉。
钉钉的 CLI 工具 dingtalk-workspace-cli 采用 Go 语言开发,仅 8MB,基于 Apache-2.0 协议开源。安装后提供 dws 命令,覆盖 11 个服务模块:
- AI 表格、考勤打卡、日历日程
- 群聊(含机器人消息)、通讯录
- DING 消息、OA 审批、日志周报
- 待办任务、工作台、开放平台文档搜索
钉钉专门为 Agent 设计了几个关键参数:
--yes:跳过确认提示,标注为「AI Agent 模式」--mock:模拟数据测试,无需连接后台--dry-run:先预览再执行,防止误操作
安全方面,钉钉实现了无感认证、批量熔断(防止 Agent 失控)、安全沙箱等机制。

钉钉的优势在于企业管理场景。OA 审批的批准/拒绝、考勤打卡、DING 消息等功能,是飞书 CLI 目前尚未覆盖的。如果 Agent 需要帮管理者批审批单、查考勤、催日报,钉钉是当前唯一选择。
飞书:架构更精细的开发者工具
飞书的 CLI 工具 lark-cli 同样采用 Go 语言,但通过 npm 分发,体积 14MB,使用 MIT 协议。

飞书采用了三层架构设计:
第一层:Shortcuts(快捷命令)
所有快捷命令带 + 前缀,内置大量默认值。例如 lark-cli calendar +agenda 查看今日日程,lark-cli im +messages-send --text "hello" 发送消息。仅多维表格模块就有 68 个 shortcut 命令。
第二层:API Commands
100 多条命令,与飞书平台 API 一一对应。
第三层:Raw API
可直接调用飞书底层 2500 多个 OpenAPI 端点。这是「万能逃生舱」设计——即使 CLI 没有封装对应命令,Agent 也能直接调用底层 API。

飞书还提供 schema 命令,可查询任何 API 方法的参数、类型和所需权限。对 Agent 而言,这相当于一本随时可查的字典。
输出格式方面,飞书支持 JSON、NDJSON、table、CSV、pretty 五种,比钉钉多出 NDJSON 和 CSV,更适合数据处理场景。
认证设计也更细致——支持按域申请权限(如--domain calendar,task),以及--as user和--as bot身份切换。
开源社区反馈显示,飞书 CLI 获 2.6k星标,钉钉为 0.9k,相差近 3 倍。飞书的优势在于开发者体验和文档协作——完整的邮件客户端、文档 Markdown 互转、电子表格读写、知识库管理、会议纪要搜索等功能。
一个形象的比喻:钉钉 CLI 像给企业行政部门配的数字助理,飞书 CLI 更像给研发团队配的效率工具。
网易云音乐:出人意料的入局者
如果说钉钉和飞书的 CLI 化还在预期之内(毕竟都是效率工具),那网易云音乐的入局则令人意外。
3 月 23 日,网易云音乐宣布接入 OpenClaw,提供拉取红心歌曲、获取歌词、获取歌单等接口。虽然音频流不开放,但元数据的开放对于一家以「数据护城河」著称的音乐平台来说,已是重大突破。

个人开发者可获得 100 次/分钟的 rate limit。这些接口足以支撑 AI 音乐推荐、播客背景音选曲等应用场景。
尽管有人质疑「噱头大于实际」,但争议本身说明了一件事:连网易云音乐这种「数据即命脉」的公司都开始为 Agent 打开接口,这股趋势的推力已不可忽视。
为什么是 CLI,而不是 MCP?
这一波 CLI 化浪潮中,钉钉和飞书都未选择 MCP(Model Context Protocol),而是选择了传统 CLI。这并非审美偏好,而是成本账。
ScaleKit 用 GitHub 官方 MCP 服务器和 gh CLI 做了对照实验(模型:Claude Sonnet 4),结果如下:
- 查仓库语言:CLI 消耗 1,365 tokens,MCP 消耗 44,026 tokens,32 倍差距
- 查 PR 详情:CLI 1,648 tokens,MCP 32,279 tokens,20 倍差距
- 查仓库元数据:CLI 9,386 tokens,MCP 82,835 tokens,9 倍差距
可靠性差距更大:CLI 跑 25 次全部成功,MCP 成功 18 次,失败率 28%,7 次失败均为 TCP 层面超时。

成本核算:每月 1 万次操作,CLI 约 3.2 美元,MCP 约 55.2 美元,17 倍差距。
问题出在架构层面。MCP 的工作方式是将所有工具的 schema 一次性注入大模型上下文。GitHub 官方 MCP 服务器一次注入 55,000 tokens 的工具描述——Agent 还没开始干活,光是「理解我能做什么」就消耗了大量 token 预算。
CLI 则采用按需发现机制。Agent 先跑dws --help看到 11 个模块,觉得日历相关就跑dws calendar --help,要创建日程就跑dws calendar event create --help。每一步只读当前需要的信息。
这个区别决定了根本性的一点:CLI 让 Agent 像人一样逐步探索产品,MCP 要求 Agent 在动手前先把整本说明书背下来。
为什么不用 REST API?
有人可能会问:CLI 比 MCP 好理解,但直接用 REST API 不行吗?
因为 API 是给程序员用的,CLI 是给 Agent 用的。CLI 提供了 REST API 永远无法提供的三个特性:
第一,自描述性。Agent 可以运行--help来发现命令。REST API 没有等价物——你得去读文档网站,而文档网站是给人看的 HTML 页面。
第二,环境集成。CLI 天然运行在 shell 环境中,可使用管道、重定向、环境变量。LLM 的训练数据包含海量 bash 脚本和命令行用法,让 Agent 操作 CLI 几乎是零成本。
第三,认证简化。CLI 安装后登录一次,后续调用自动携带 token。REST API 每次请求都要自己管理认证头。
Karpathy 那句话恰好点题:「请直接给我一个能复制粘贴给 Agent 的东西。」CLI 就是那个东西,REST API 还需要一层封装。
Agent 时代的选择逻辑
Aaron Levie 在文章中做出了一个核心判断:未来每家拥有 1 万名员工的公司,可能运行着 100 万到 1000 万个 Agent。
这些 Agent 不再是「带几个工具的聊天机器人」。它们拥有自己的沙箱计算环境,能写代码、运行代码、调用 API 和 CLI、管理文件系统和长期记忆。
Levie 说出了全文最核心的一句话:
「如果你的某个功能没有 API,那它等于不存在。如果它不能通过 CLI 或 MCP Server 暴露出来,你就处于劣势。」
「不存在」不是修辞手法,是字面意思。
Y Combinator 的 Jared Friedman 也发文提醒:「现在最好的开发者工具,大多数连注册账号都不能通过 API 完成。在 Claude Code 时代,这是重大失误——因为 Claude 没法自己注册。把所有账户管理功能放进 API,现在应该是最基本要求。」
Agent 选择软件的逻辑与人类完全不同。人类受品牌、UI 设计、朋友推荐、广告、切换成本影响,所以很多更好的产品打不过先入为主的竞品。
但 Agent 不认品牌、不看颜值、没有社交圈、不会被广告打动、没有「习惯」概念。它的选择逻辑极其冷酷:哪个 API 更好用、更稳定、更便宜、文档更清晰,就用哪个。
这是一种近乎纯粹的达尔文式选择。没有噪音,没有偏见,只有适应度。
品牌价值、用户惯性、渠道优势,这些传统护城河在 Agent 面前一文不值。剩下的只有:API 质量、数据独占性、性价比。
尾声:40 年的轮回
1980 年代,Xerox PARC 发明了图形用户界面(GUI)。此后 40 年,整个软件行业都在做同一件事:把计算机的能力翻译成人类能理解的视觉语言。
这层翻译越来越精美。Apple 凭借它成为全球市值最高的公司。
但 GUI 的本质是什么?一个翻译层。计算机底层运行的仍是 API 调用、命令行指令、HTTP 请求。GUI 只是包了一层好看的外壳。
现在 Agent 来了。
Agent 会写代码、会调 API、会发 HTTP 请求。它不需要那层翻译。
所以软件的演化路径,40 年前是 CLI → GUI。
现在反过来了:GUI → CLI。
不是因为我们要回到过去。
是因为那个新的用户来了。
这个新用户,叫 Agent。