langsmith trajectory evals¶
Ch01.563 langsmith trajectory evals¶
📊 Level ⭐⭐ | 6.3KB |
entities/langsmith-trajectory-evals.md
LangSmith Trajectory Evaluations¶
LangSmith Trajectory Evaluations 是一种评估 AI Agent 行为的方法,特别适合具有明确步骤流程和决策路径的复杂工作流 。
核心要点¶
- agent 的很多行为只会在真实 LLM 运行里暴露
- trajectory eval 可以评估消息、工具调用和决策路径
- trajectory match 适合步骤明确的工作流
- LLM-as-judge trajectory eval 适合更灵活、更关注"过程是否合理"的场景
- reference trajectory 可以有,也可以没有
评估模式¶
| 模式 | 说明 |
|---|---|
| strict | 严格匹配,要求每一步完全一致 |
| unordered | 无序匹配,只要求包含相同的关键步骤 |
| subset | 子集匹配,允许缺少某些步骤 |
| superset | 超集匹配,允许添加额外步骤 |
为什么适合 wiki-evolver¶
wiki-evolver 既有一些强约束步骤,比如 orient / choose leverage track / govern / close out,也有一些开放式判断。因此它最适合:
- outcome rubric
- 配合轻量 trajectory checklist
- 而不是只看最终文字质量
深度分析¶
1. Trajectory Eval 填补了传统评估的盲区
传统的 LLM 评估往往只看最终输出质量,而忽略中间过程。Agent 的很多有意义的行为——工具调用的选择、决策路径的合理性、错误处理的方式——只在真实运行中才会暴露 。这意味着如果你只评估输出结果,会错过大量关于 Agent 能力的重要信息。Trajectory eval 通过记录完整的消息序列、工具调用和决策点,使得评估者能够回溯和审查整个执行过程,而不仅仅是最终答案。
2. 模式选择取决于工作流特性
四种匹配模式(strict/unordered/subset/superset)反映了不同场景对"正确性"的不同定义 。strict 模式适合有明确标准操作流程的合规场景;unordered 适合步骤顺序无关紧要的情况;subset 允许灵活省略可选步骤;superset 则允许额外的防御性行为。理解这个权衡很重要:过于严格会因无关紧要的差异而拒绝正确的执行,过于宽松则可能放过真正的错误。
3. Reference Trajectory 的有无是设计选择
可以为 trajectory eval 提供参考轨迹,也可以不提供 。有参考轨迹时,评估更加定向和可解释;没有时,评估更加灵活,允许多种正确的实现路径。这种灵活性对于 AI Coding 场景特别重要,因为不同的工程师可能写出功能等价但风格不同的代码。
4. LLM-as-Judge 扩展了评估的适用范围
对于更灵活的、"过程是否合理"的评估场景,LLM-as-judge trajectory eval 比严格的字符串匹配更合适 。这种方法的优点是可以处理开放式的判断(如"这个决策是否合理"),缺点是引入了 judge 模型本身的偏见。在 Agent Harness Engineering Survey 2026 实践中,这种混合方法特别有价值,因为既需要确保关键步骤不遗漏,又需要允许合理的工程自由度。
5. 与 Multi Agent Architecture Retail Practice 的关联
在多 Agent 系统中,单个 Agent 的 trajectory eval 可以组合成整个系统的行为评估。每个 Agent 的工具调用和决策路径被记录,然后通过 LLM-as-judge 进行综合判断 。这对于管理复杂的虚拟工程团队(如 gstack 模式)至关重要,因为需要确保每个专家角色的行为符合其职责定义。
实践启示¶
1. 为你的 Agent 工作流选择正确的匹配模式
在设计 trajectory eval 之前,先分析你的工作流:步骤顺序是否重要?是否允许变体?是否有可选的防御性步骤?对于 中的 orient/choose/govern/close 流程,大多数步骤有相对固定的顺序(strict 或 superset),但某些开放式判断步骤可以接受 unordered 或 subset 匹配。错误的模式选择会导致大量误报或漏报。
2. 用轻量 checklist 补充 outcome rubric
不要只依赖最终输出评估。为每个关键决策点创建轻量级的 checklist,例如"是否调用了正确的工具"、"是否在合理的尝试次数内完成"。这种组合比单独使用任一方法都更稳健 。
3. 记录足够的上下文以支持事后分析
Trajectory eval 的价值不仅在于自动化评分,还在于支持人工复盘。确保记录足够的信息:每个工具调用的输入输出、LLM 的推理过程、关键决策点的上下文。这些数据对于迭代 Agent 设计至关重要。
4. 从 reference trajectory 开始,逐步放开约束
如果有已知的良好执行路径,从 reference trajectory 开始可以帮助建立评估基线。随着对 Agent 能力的信心增长,可以逐渐放宽约束,允许更多的实现变体。这种渐进式的方法比一开始就追求完美评估更加务实。
5. 将 trajectory eval 集成到 CI/CD
在代码变更时自动运行 trajectory eval,可以及早发现回归。关键是选择合适的触发条件(不一定要每次提交都运行完整的 trajectory eval),并确保评估时间在可接受的范围内。
→ 原文存档