AWS China 企业级智能体评估方法论 ADLC 系列¶
Ch04.395 AWS China 企业级智能体评估方法论 ADLC 系列¶
📊 Level ⭐⭐ | 6.2KB |
entities/aws-china-enterprise-agent-evaluation-adlc.md
AWS China 企业级智能体评估方法论 ADLC 系列¶
Background:本文基于 AWS China Blog 2026 年 6 月发布的三篇系列文章综合提炼。系列主题是企业级 AI Agent 从原型到生产的评估方法论,核心框架为 ADLC(Agent Development Lifecycle)。三篇分别覆盖:为什么评估是起点(Part 1)、评估维度与方法论(Part 2)、工程化落地与工具支持(Part 3)。
核心命题:为什么 Agent 评估不同于传统 QA¶
Agent 与传统软件有三个本质差异,导致传统 QA 框架系统性失效:
- 非确定性 — 同样的输入今天跑出一个结果,明天换了模型版本行为悄悄变了,没有任何报警
- Prompt 即源代码 — 传统 assert 语句无法验证多步推理过程的正确性
- 依赖会自己动 — 外部 API、知识库、工具接口随时变化,Agent 的行为边界是动态的
传统 LLM benchmark 评的是孤立 prompt 上的模型表现,而 Agent 是一个会自主追逐目标、跨多轮交互做多步推理、调用工具、动态决策的完整系统。benchmark 只看最终输出对不对——能告诉你"结果错了",却无法告诉你"为什么错"。
ADLC:Agent Development Lifecycle¶
AWS 提出的六环节飞轮,核心原则是"定义'好'排在动手构建之前":
- 定义评估标准 — 在写第一行 Prompt 之前,先明确"好"的定义
- 原型验证 — 用最小可行 Agent 快速验证核心能力
- 评估驱动迭代 — 每次改动都有评估基线对照
- 生产就绪验证 — 从安全性、可靠性、成本三维度 gate
- 生产监控 — 持续评估线上 Agent 表现
- 反馈闭环 — 线上问题驱动下一轮迭代
ADLC 的关键洞察:评估不是上线前的"最后一关",而是贯穿整个生命周期的工程纪律。
评估方法论框架:两根支柱¶
支柱一:评什么(维度体系)¶
按智能体形态选指标,而不是堆指标:
| 维度 | 适用场景 | 核心问题 |
|---|---|---|
| 正确性 | 所有 Agent | 最终结果是否正确? |
| 有用性 | 对话型 Agent | 回答是否对用户有帮助? |
| 工具使用 | 工具调用型 Agent | 工具选择和参数是否正确? |
| 推理链路 | 多步推理 Agent | 中间推理步骤是否合理? |
| 安全性 | 生产 Agent | 是否越权、泄露、产生有害输出? |
| 延迟/成本 | 生产 Agent | 响应时间和 token 消耗是否可控? |
| 人机协作 | HITL 场景 | 何时需要人工介入?介入是否有效? |
| 多Agent协调 | 多Agent系统 | Agent间通信和任务分配是否合理? |
支柱二:怎么评(方法矩阵)¶
| 方法 | 优势 | 局限 |
|---|---|---|
| LLM-as-Judge | 可规模化、可定制评估维度 | 评估器自身有偏差,需人工校准 |
| Human-in-the-Loop | 高质量 ground truth | 成本高、不可规模化 |
| Trace-driven 评估 | 可定位具体失败环节 | 需要完善的 trace 基础设施 |
| Agent-based Evaluation | 用 Agent 评 Agent,专家级评审规模化 | 复杂度高、成本递增 |
Trace-driven 评估工作流(四步自动化): 1. 收集 trace(完整调用链路) 2. 定义评估点(每个工具调用、每个推理步骤) 3. 运行评估器(LLM-as-Judge + 规则检查) 4. 生成报告(通过率、失败模式分布)
工程化落地:评估嵌入开发流程¶
评估数据集管理¶
- Golden Dataset — 专家标注的 ground truth,定期更新
- Regression Dataset — 历史失败案例集合,防止退化
- Adversarial Dataset — 对抗性测试用例,验证边界情况
数据集质量是评估质量的上限。没有好的数据集,再精巧的评估器也只是"garbage in, garbage out"。
工程纪律¶
评估必须嵌入开发流程,而非上线前跑一次:
- CI/CD 集成 — 每次 Prompt 变更触发评估
- 评估基线 — 每个版本的评估结果作为下一次对照
- 失败模式分析 — 不只看通过率,还要分类失败原因
- 成本监控 — token 消耗和延迟作为评估维度
AgentCore Evaluations 工具¶
AWS 提供的评估工具链: - 内置评估器(正确性、有用性等) - 自定义评估器(业务特定需求) - Trace 可视化和分析 - 与 AgentCore 运行时集成
与现有 Agent 评估实体差异化¶
本系列聚焦企业级生产部署视角的评估方法论(ADLC 六环节 + 两根支柱 + 工程纪律),而非: - 学术 benchmark 评测(如 AgentBench、GAIA) - 开源评估工具介绍(如 AgentEvalKit) - 特定场景评估实践(如淘宝 Agent 评估调研)
ADLC 的独特贡献是将评估定义为 Agent 开发生命周期的一等公民,而非事后补充。