AWS China 企业级智能体评估方法论 ADLC 系列¶

Ch04.395 AWS China 企业级智能体评估方法论 ADLC 系列¶

📊 Level ⭐⭐ | 6.2KB | entities/aws-china-enterprise-agent-evaluation-adlc.md

AWS China 企业级智能体评估方法论 ADLC 系列¶

Background：本文基于 AWS China Blog 2026 年 6 月发布的三篇系列文章综合提炼。系列主题是企业级 AI Agent 从原型到生产的评估方法论，核心框架为 ADLC（Agent Development Lifecycle）。三篇分别覆盖：为什么评估是起点（Part 1）、评估维度与方法论（Part 2）、工程化落地与工具支持（Part 3）。

核心命题：为什么 Agent 评估不同于传统 QA¶

Agent 与传统软件有三个本质差异，导致传统 QA 框架系统性失效：

非确定性 — 同样的输入今天跑出一个结果，明天换了模型版本行为悄悄变了，没有任何报警
Prompt 即源代码 — 传统 assert 语句无法验证多步推理过程的正确性
依赖会自己动 — 外部 API、知识库、工具接口随时变化，Agent 的行为边界是动态的

传统 LLM benchmark 评的是孤立 prompt 上的模型表现，而 Agent 是一个会自主追逐目标、跨多轮交互做多步推理、调用工具、动态决策的完整系统。benchmark 只看最终输出对不对——能告诉你"结果错了"，却无法告诉你"为什么错"。

ADLC：Agent Development Lifecycle¶

AWS 提出的六环节飞轮，核心原则是"定义'好'排在动手构建之前"：

定义评估标准 — 在写第一行 Prompt 之前，先明确"好"的定义
原型验证 — 用最小可行 Agent 快速验证核心能力
评估驱动迭代 — 每次改动都有评估基线对照
生产就绪验证 — 从安全性、可靠性、成本三维度 gate
生产监控 — 持续评估线上 Agent 表现
反馈闭环 — 线上问题驱动下一轮迭代

ADLC 的关键洞察：评估不是上线前的"最后一关"，而是贯穿整个生命周期的工程纪律。

评估方法论框架：两根支柱¶

支柱一：评什么（维度体系）¶

按智能体形态选指标，而不是堆指标：

维度	适用场景	核心问题
正确性	所有 Agent	最终结果是否正确？
有用性	对话型 Agent	回答是否对用户有帮助？
工具使用	工具调用型 Agent	工具选择和参数是否正确？
推理链路	多步推理 Agent	中间推理步骤是否合理？
安全性	生产 Agent	是否越权、泄露、产生有害输出？
延迟/成本	生产 Agent	响应时间和 token 消耗是否可控？
人机协作	HITL 场景	何时需要人工介入？介入是否有效？
多Agent协调	多Agent系统	Agent间通信和任务分配是否合理？

支柱二：怎么评（方法矩阵）¶

方法	优势	局限
LLM-as-Judge	可规模化、可定制评估维度	评估器自身有偏差，需人工校准
Human-in-the-Loop	高质量 ground truth	成本高、不可规模化
Trace-driven 评估	可定位具体失败环节	需要完善的 trace 基础设施
Agent-based Evaluation	用 Agent 评 Agent，专家级评审规模化	复杂度高、成本递增

Trace-driven 评估工作流（四步自动化）： 1. 收集 trace（完整调用链路） 2. 定义评估点（每个工具调用、每个推理步骤） 3. 运行评估器（LLM-as-Judge + 规则检查） 4. 生成报告（通过率、失败模式分布）

工程化落地：评估嵌入开发流程¶

评估数据集管理¶

Golden Dataset — 专家标注的 ground truth，定期更新
Regression Dataset — 历史失败案例集合，防止退化
Adversarial Dataset — 对抗性测试用例，验证边界情况

数据集质量是评估质量的上限。没有好的数据集，再精巧的评估器也只是"garbage in, garbage out"。

工程纪律¶

评估必须嵌入开发流程，而非上线前跑一次：

CI/CD 集成 — 每次 Prompt 变更触发评估
评估基线 — 每个版本的评估结果作为下一次对照
失败模式分析 — 不只看通过率，还要分类失败原因
成本监控 — token 消耗和延迟作为评估维度

AgentCore Evaluations 工具¶

AWS 提供的评估工具链： - 内置评估器（正确性、有用性等） - 自定义评估器（业务特定需求） - Trace 可视化和分析 - 与 AgentCore 运行时集成

与现有 Agent 评估实体差异化¶

本系列聚焦企业级生产部署视角的评估方法论（ADLC 六环节 + 两根支柱 + 工程纪律），而非： - 学术 benchmark 评测（如 AgentBench、GAIA） - 开源评估工具介绍（如 AgentEvalKit） - 特定场景评估实践（如淘宝 Agent 评估调研）

ADLC 的独特贡献是将评估定义为 Agent 开发生命周期的一等公民，而非事后补充。

AWS China 企业级智能体评估方法论 ADLC 系列¶

Ch04.395 AWS China 企业级智能体评估方法论 ADLC 系列¶

AWS China 企业级智能体评估方法论 ADLC 系列¶

核心命题：为什么 Agent 评估不同于传统 QA¶

ADLC：Agent Development Lifecycle¶

评估方法论框架：两根支柱¶

支柱一：评什么（维度体系）¶

支柱二：怎么评（方法矩阵）¶

工程化落地：评估嵌入开发流程¶

评估数据集管理¶

工程纪律¶

AgentCore Evaluations 工具¶

与现有 Agent 评估实体差异化¶

来源¶