LangChain 创始人 Harrison Chase 联合 AWS 发布了基于 LangSmith 的 Deep Agent 全流程评估方案
整套方案针对 Agent 落地的核心痛点——Agent 是非确定性的多步系统,一个早期的工具调用错误就能串联毁掉整个工作流,上线前很难通过零散测试覆盖所有情况,上线后出问题也难追溯根源。

为什么 Agent 评估比普通大模型难得多
和直接评估大模型输出相比,Agent 评估有三个无法回避的特性:
- 非确定性:同一个任务跑 10 次,可能 9 次成功 1 次失败,单次通过/失败没有参考价值,需要多次运行统计概率
- 错误传导:多步流程里第三步的错误会影响所有后续步骤,只评估最终答案根本找不到问题出在哪
- 创造性解法:前沿模型有时候会找出测试设计者完全没预料到的正确路径,硬卡预设步骤反而会误杀正确结果
苏米注:有从业者在评论区指出,评估设计是拖死大部分Agent项目的核心原因。很少有团队在项目初期就设计长周期的评估规则,一旦 Agent 的决策分支超过 3 个,传统单元测试的思路就完全失效。
评分器搭配原则
方案给出了三类评分器的搭配原则:
- 确定性代码规则:能用代码卡的规则就用代码(比如有没有执行危险的 SQL 删改语句)
- LLM-as-judge:需要判断内容质量的用 LLM 评委(比如复杂分析的完整度)
- 人工校准:只做定期校准,不用来做批量测试
这套搭配的核心是尽量把评估标准画得客观可复现,减少主观判断的空间。
五种 Deep Agent 评估模式
方案总结了五种覆盖所有场景的评估模式,全部可以通过 LangSmith 和 Pytest 集成,自动化运行:
1. 单测级的单步评估
只测 Agent 在特定输入下的第一个决策对不对。比如 text-to-SQL 场景下,收到问题是不是先调用工具查数据库 schema,而不是瞎编答案。这类评估跑得快、耗 token 少,能快速捕获核心逻辑的回归问题。
2. 单数据点自定义逻辑
不同测试用例用不同的评分标准。比如"加拿大有多少用户"可以直接用字符串匹配有没有数字 8,而"哪个员工带来的营收最高"就需要用 LLM 评委判断答案的正确性,不需要所有用例都套同一套评分逻辑。
3. 全流程端到端评估
跑完整的 Agent 执行链路,只卡核心行为和最终结果,不抠具体执行顺序——比如不管 Agent 是先列表格还是先查字段,只要用了 SQL 工具,最终答案正确就算过,避免误杀模型的创造性解法。
4. 多轮对话评估
用条件逻辑写测试,前一轮的输出有效才跑下一轮的追问,不会硬写死对话路径,适配真实用户的多轮交互场景。
5. 安全与状态检查
扫描所有中间输出,比如 SQL 语句里有没有 INSERT、DELETE 这类危险操作,从根源上避免生产事故。

SQL 安全检查示例
最简单的 SQL 安全检查逻辑,只需要扫描执行语句的关键词即可:
dangerous_keywords = {"INSERT", "UPDATE", "DELETE", "DROP", "ALTER", "TRUNCATE"}
for query in executed_queries:
for keyword in dangerous_keywords:
if keyword in query.upper().split():
return {"sql_safety": 0}
所有测试的结果都会自动同步到 LangSmith,能看到完整的执行链路、每一步的 tool call、token 消耗和延迟,测试失败的时候直接定位到出错的步骤。
测试集拆分策略
测试集按用途拆分为两类:
- 能力评估:测 Agent 新增的能力行不行,一开始通过率低没关系,逐步提升即可
- 回归评估:覆盖已经验证过的场景,通过率必须接近 100%,一旦下降就说明代码改动引入了新问题

从离线测试到生产监控的闭环
离线测试只能覆盖预设的场景,上线后的真实用户请求永远会出预料之外的问题。方案同时给出了生产环境的在线评估方案,不需要改业务代码,直接在 LangSmith 后台配置就能生效:
- 代码级安全检查:实时扫描所有生产链路的 SQL 语句,发现危险操作直接打 0 分,触发告警
- LLM-as-judge 抽样评分:按比例(比如 50%)抽样生产请求,用 LLM 评委打分判断答案的正确性、清晰度和完整度,控制成本的同时覆盖大部分异常
- 综合质量分:把安全分、正确性分等多个维度按权重合成综合分,低于阈值直接告警,日常监控只看这一个核心指标就行

整套流程形成闭环:生产里发现的 bad case 直接加到离线测试集里,下次迭代就能避免同样的问题,所有优化都有明确的指标参考。

核心评估原则
针对"Agent 做出了正确但不符合测试用例预设路径的决策怎么办"的问题,方案明确给出了原则:
永远评估行为和结果,不评估具体路径。只要核心规则没违反,最终结果正确就算通过。
总结
LangChain + AWS 的这套 Deep Agent 评估方案,从开发到生产全生命周期给出了可落地的流程。所有示例都基于 Amazon Bedrock 上的 Amazon Nova 2 Lite 模型,配套有完整的开源代码仓库。
相关链接: