langsmith trajectory evals¶

Ch01.563 langsmith trajectory evals¶

📊 Level ⭐⭐ | 6.3KB | entities/langsmith-trajectory-evals.md

LangSmith Trajectory Evaluations¶

LangSmith Trajectory Evaluations 是一种评估 AI Agent 行为的方法，特别适合具有明确步骤流程和决策路径的复杂工作流。

核心要点¶

agent 的很多行为只会在真实 LLM 运行里暴露
trajectory eval 可以评估消息、工具调用和决策路径
trajectory match 适合步骤明确的工作流
LLM-as-judge trajectory eval 适合更灵活、更关注"过程是否合理"的场景
reference trajectory 可以有，也可以没有

评估模式¶

模式	说明
strict	严格匹配，要求每一步完全一致
unordered	无序匹配，只要求包含相同的关键步骤
subset	子集匹配，允许缺少某些步骤
superset	超集匹配，允许添加额外步骤

为什么适合 wiki-evolver¶

wiki-evolver 既有一些强约束步骤，比如 orient / choose leverage track / govern / close out，也有一些开放式判断。因此它最适合：

outcome rubric
配合轻量 trajectory checklist
而不是只看最终文字质量

深度分析¶

1. Trajectory Eval 填补了传统评估的盲区

传统的 LLM 评估往往只看最终输出质量，而忽略中间过程。Agent 的很多有意义的行为——工具调用的选择、决策路径的合理性、错误处理的方式——只在真实运行中才会暴露。这意味着如果你只评估输出结果，会错过大量关于 Agent 能力的重要信息。Trajectory eval 通过记录完整的消息序列、工具调用和决策点，使得评估者能够回溯和审查整个执行过程，而不仅仅是最终答案。

2. 模式选择取决于工作流特性

四种匹配模式（strict/unordered/subset/superset）反映了不同场景对"正确性"的不同定义。strict 模式适合有明确标准操作流程的合规场景；unordered 适合步骤顺序无关紧要的情况；subset 允许灵活省略可选步骤；superset 则允许额外的防御性行为。理解这个权衡很重要：过于严格会因无关紧要的差异而拒绝正确的执行，过于宽松则可能放过真正的错误。

3. Reference Trajectory 的有无是设计选择

可以为 trajectory eval 提供参考轨迹，也可以不提供。有参考轨迹时，评估更加定向和可解释；没有时，评估更加灵活，允许多种正确的实现路径。这种灵活性对于 AI Coding 场景特别重要，因为不同的工程师可能写出功能等价但风格不同的代码。

4. LLM-as-Judge 扩展了评估的适用范围

对于更灵活的、"过程是否合理"的评估场景，LLM-as-judge trajectory eval 比严格的字符串匹配更合适。这种方法的优点是可以处理开放式的判断（如"这个决策是否合理"），缺点是引入了 judge 模型本身的偏见。在 Agent Harness Engineering Survey 2026 实践中，这种混合方法特别有价值，因为既需要确保关键步骤不遗漏，又需要允许合理的工程自由度。

5. 与 Multi Agent Architecture Retail Practice 的关联

在多 Agent 系统中，单个 Agent 的 trajectory eval 可以组合成整个系统的行为评估。每个 Agent 的工具调用和决策路径被记录，然后通过 LLM-as-judge 进行综合判断。这对于管理复杂的虚拟工程团队（如 gstack 模式）至关重要，因为需要确保每个专家角色的行为符合其职责定义。

实践启示¶

1. 为你的 Agent 工作流选择正确的匹配模式

在设计 trajectory eval 之前，先分析你的工作流：步骤顺序是否重要？是否允许变体？是否有可选的防御性步骤？对于中的 orient/choose/govern/close 流程，大多数步骤有相对固定的顺序（strict 或 superset），但某些开放式判断步骤可以接受 unordered 或 subset 匹配。错误的模式选择会导致大量误报或漏报。

2. 用轻量 checklist 补充 outcome rubric

不要只依赖最终输出评估。为每个关键决策点创建轻量级的 checklist，例如"是否调用了正确的工具"、"是否在合理的尝试次数内完成"。这种组合比单独使用任一方法都更稳健。

3. 记录足够的上下文以支持事后分析

Trajectory eval 的价值不仅在于自动化评分，还在于支持人工复盘。确保记录足够的信息：每个工具调用的输入输出、LLM 的推理过程、关键决策点的上下文。这些数据对于迭代 Agent 设计至关重要。

4. 从 reference trajectory 开始，逐步放开约束

如果有已知的良好执行路径，从 reference trajectory 开始可以帮助建立评估基线。随着对 Agent 能力的信心增长，可以逐渐放宽约束，允许更多的实现变体。这种渐进式的方法比一开始就追求完美评估更加务实。

5. 将 trajectory eval 集成到 CI/CD

在代码变更时自动运行 trajectory eval，可以及早发现回归。关键是选择合适的触发条件（不一定要每次提交都运行完整的 trajectory eval），并确保评估时间在可接受的范围内。

→ 原文存档