做产品这些年,我最害怕的复盘问题是:这个页面上线后,具体办成了哪件事?
不是PV,也不是点击率,而是有形的业务结果。
两年前,我还在展示一堆漂亮的报表;这两年,越来越多的业务同事问我,系统能不能直接把价格调了、促销发出去、库存挪一下。
换句话说,大家不想再买“工具”,大家要的是“把事办成”的能力。
这正是AI Agent的价值——不再等人点一下才动一下,而是能听懂、会判断、敢动手,且对结果负责。
我想把这件事讲清楚:为什么Agent是新一代应用范式、它的架构应该如何搭、在真实业务里如何把一个岗位做成“数字员工”。

不谈概念空转,我会把自己在零售与供应链场景里的踩坑与心法一起说出来。
从工具到智能体
软件的演进回看起来很直白:
规则+流程时代:写满If-Then,画细流程图,系统很稳也可控,但一遇到灰度就卡住等人。
数据+机器学习时代:会预测会打分,更像“参谋”,决策链条依旧在人的手里。
AI Agent时代:形成闭环——感知 → 推理/决策 → 行动 → 反馈 → 迭代。能理解自然语言、能多轮澄清目标、能输出结构化结果,更重要的是能调工具、能执行、能在失败后调整策略再试。
产品的基本单元也悄悄换了:过去是“点击”,如今是“任务”。一个合格的数字店长,不该只会生成促销文案,而是能捕捉库存预警、综合竞品与天气、生成选品方案、提交定价、监控效果、必要时自动回滚。你会发现,这不是把模型换大,而是把系统的职责换了。
架构解剖
很多LLM应用的第一版是:Prompt → LLM → 文本输出。能写东西,但难以跑业务闭环。一个可上线的Agent更像微型操作系统:
- 环境层:业务系统、数据库、API接口
- 感知模块:实时数据获取、事件监听
- 大脑层(LLM + 推理引擎):任务理解与分解、RAG检索、策略推理(CoT/ToT)、动作规划
- 执行层:工具调用、系统操作
- 反馈循环:结果验证、经验积累
岗位级Agent通常还要加三件增强件:
- 长期记忆:向量库+结构化知识库,让经验可检索、可复用。
- 领域适配:行业语言、行业坑位,靠微调与提示工程落地。
- 多Agent协作:店长/库存/营销分工协作,比一个大Agent更稳、更快。
作为产品经理,我会把这套理解翻译成一个设计原则:把它当成“可治理的系统能力”,而不是“会聊天的模型”。
能力封装一
为什么同样的系统与货品,有的店能越做越好?差异常常不在工具,而在店长的“经验系统”。落到工程化,模块拆解是关键:
1)环境感知与数据接入:先让它看得见
- 数据源:ERP / POS / CRM / 电商API
- 事件流:用Kafka/Flink处理加购、退货、库存变动等实时事件
- 指标引擎:转化率、动销率、客单、毛利、库存周转等KPI实时计算
一个常见的反面教材是“日更ETL”。等到Agent接到昨天的数据,店长最值钱的那部分——即刻调整——已经错过窗口。我在一次大促里把库存预警做成分钟级流处理,退货峰值提前了两个小时被识别与分流,后端压力降了30%,这就是时效的差异。
2)知识库构建:把经验从脑子搬到系统
- 显性知识:SOP、陈列规范、活动规则,结构化成YAML/JSON规则库;商品做成“品类-属性-季节性-关联推荐”的知识图谱。
- 隐性经验:历史“情景-决策-结果”,沉淀案例库,用RAG做相似检索,让LLM做类比推理。
- 动态知识:竞品价格、热搜趋势、天气、实验反馈,作为实时上下文注入,并管理版本与时效。
我更愿意把这部分叫“知识工程”。别指望LLM无中生有,上限取决于你把知识结构化的程度。
3)决策引擎:用三层策略对抗不确定性
- L1硬规则层:合规、库存阈值、价格底线,用规则引擎兜底。
- L2启发式策略层:定价公式、促销模板、陈列组合,可解释、可调参。
- L3LLM推理层:复杂场景判断、创意生成、跨信息源综合推断。
在选品场景里,我会给LLM明确的输入与输出约束:
{
"inputs": {
"inventory_turnover": "...",
"top_skus_7d": [...],
"weather": "...",
"competitor_promotions": [...]
},
"principles": [
"高毛利+高动销优先",
"结合季节场景",
"避免硬碰硬"
],
"output_schema": {
"sku_id": "string",
"reason": "string",
"placement": "string"
}
}
重点不在“提示词多华丽”,而在可验证的输入与可检查的结构化输出,这能显著降低幻觉导致的偏差。
4)工具集与执行层:让它真动手、且可控
query_inventory(sku_id)
update_pricing(sku_id, price)
send_promotion(user_segment, template)
generate_report(metrics, time_range)
- 关键操作二次确认(人工审核或阈值检查)。
- 操作日志与回溯、输出校验器(Validator Agent或规则校验)。
- 低风险先行:先报告后执行,逐步开放写操作权限。
我会用“影响×可逆性”的风险矩阵分级授权:可逆低影响操作自动执行;不可逆高影响必须人审;中间区域由系统根据SLA与近期表现动态决定是否上人。
能力封装二
调度的难点在多目标权衡与状态剧烈变化。经验不在嘴上,在约束与优先级里。落地路径要从环境建模走起。
1)环境建模:把现实问题变成可计算的状态空间
- 图结构:节点(仓库/门店/中转)、边(路线/时效/成本)。
- 状态空间:订单池(优先级/时间窗/体积重量)、资源池(车辆位置/容量/班次)、约束(交通/天气/装卸能力)。
只有结构化了,优化算法与LLM才有共同语言。我们把冷链温度异常也建模成事件,Agent能在路线重算时优先保障易损品。
2)规划引擎:混合架构更现实
- 底层优化问题(VRP、装箱)交给算法:遗传、模拟退火、启发式搜索、3D装载。
- LLM做高层规划:在非标场景里选策略与方向,组织经验规则为可执行策略。
我的做法是把“算最优”和“选方向”拆开。算法给出可行解集合与评价;LLM基于历史案例与风险偏好选择策略,并解释原因,方便事后复盘。
3)知识封装与协作:把经验变成可学习资产
- 案例库:状态-决策-结果,用Embedding做相似检索。
- 规则提取:从老师傅访谈里提炼决策树(如紧急度>8且延误风险>30%触发备用车)。
- 强化学习/策略网络:用历史数据训练,小流量线上A/B。
- 多Agent协作:主调度、区域子Agent、异常处理Agent,消息队列事件驱动(新订单/车辆异常/天气变化即触发重算)。
一次暴雨应急里,异常处理Agent先挂起非紧急单、触发备用车、同步客服延迟话术,主调度Agent重算路线;全链路有依据、能追溯,这才像一个成熟的“人”。
从Demo到系统
能上线的Agent,问题不在“不会回答”,而在“不可控、不可观测、不可复盘”。几件事是分水岭:
- Prompt工程的运营化:版本管理、评估集与A/B;从零样本到少样本,从CoT到ToT。
- 结构化输出约束:JSON Schema保证下游可靠解析。
- 记忆系统:短期会话、任务工作记忆、长期经验(向量库+图数据库);RAG要做查询重写、检索、重排序、上下文注入。
- 工具调用框架:OpenAPI/Schema描述、参数校验、异步与超时、顺序/分支/循环编排。
- 可观测性:LLM tracing、延迟/成功率/成本、死循环与异常检测。
- 安全合规:防注入、脱敏、权限白名单、高风险人工介入、审计日志、Kill Switch。
我会额外准备一份运行手册(Runbook):出现幻觉、工具超时、输出不合规、成本飙升等场景的处置策略,值班同学有章可循。
组合优先
栈不必追求“唯一正确”,更在乎可组合与替换:
- LLM:GPT-4 / Claude / DeepSeek + 领域模型,复杂推理用云端,大量常规用轻量模型。
- 框架:LangChain / LlamaIndex / LangGraph / AutoGen / CrewAI。
- 向量库/图数据库:Pinecone / Milvus / Weaviate;Neo4j。
- MQ与编排:Kafka / RabbitMQ;Airflow / Prefect。
- 监控:Langfuse / Helicone。
- 部署:K8s + GPU节点,云-边混合。
成本优化也很朴素:提示词压缩与缓存、批量与异步、把小模型放在边缘做实时与隐私,把大模型留给疑难与高价值环节。
从PoC到生产
把Agent当岗位来落地,流程更顺畅:
- 岗位分析与任务拆解:明确输入、约束、产出、失败后果。
- 知识库与规则提取:业务语料、SOP、案例、实验数据。
- 单任务原型:先跑一个闭环,确认接口与数据链路。
- 工具集成与联调:权限、风控、审计贯穿。
- 小范围试点:灰度、对照组、观察人机协作成本。
- 全量上线与持续运营:版本节奏、评估、迭代飞轮。
评估分层看:
- 技术指标:完成率、准确率、响应时延、调用次数与成本。
- 业务指标:店长看GMV/毛利/周转/缺货率;调度看准时率/运输成本/投诉率。
- 体验指标:人工干预频次、可解释性评分、操作回滚率。
我会设置“Agent试用工单”:限定权限、明确SLA与失败边界,连同人审规则同步到运营团队,避免“黑盒上线”。
组织与未来
现实的天花板今天仍在:推理成本与速度、真正的多模态感知、长程规划、知识更新时效。但趋势清晰:轻量化与蒸馏让“随处可用”更近,多模态让感知贴近真实世界,分层Agent(战略/战术/执行)提升稳定性,多Agent协作甚至博弈把“组织能力”引入系统设计,统一的“Agent OS”会提供权限、记忆、工具、监控的一致环境。
更大的变化在角色:懂业务的AI工程师稀缺,Agent架构师、知识工程师走到台前。产品经理也要从“功能交付”转向“岗位能力交付”。
落地建议
- 选边界清晰、规则明确的岗位做MVP,别企图一次吃下整条业务链。
- 坚持“规则引擎+机器学习+LLM”的三层混合,用确定性兜底不确定性。
- 重视知识工程,数据契约与数据质量要先行,Garbage In一定Garbage Out。
- 建立评估与监控体系,能度量才会进化,能复盘才敢放权。
- 高风险决策必须人审,权限分级与审计日志是底线,不要省这一步。
- 避免过度依赖提示词,能规则化的尽量规则化,Agent只处理规则覆盖不到的部分。
收尾
Agent时代的技术使命,是一次身份转换:我们不只是写代码,而是在“培养数字员工”;不只是调API,而是在“设计认知与治理”;不只是交付功能,而是在“交付岗位能力”。
别等完美架构。
选一个岗位,找到一个可闭环的任务,让它在真实业务里做成一件事。
把成功的闭环复制扩展,把失败的案例复盘到规则与知识库里。
时间长了,你会发现,系统不再是工具,而是团队的一员——这一天,产品经理的KPI,也会变得更好讲。