Amazon Bedrock AgentCore 为部署可信人工智能代理增加了质量评估和策略控制 | 亚马逊AWS官方博客¶

Ch11.043 Amazon Bedrock AgentCore 为部署可信人工智能代理增加了质量评估和策略控制 | 亚马逊AWS官方博客¶

📊 Level ⭐⭐ | 13.4KB | entities/amazon-bedrock-agentcore-adds-quality-evaluations-and-policy-controls-for-deploying-trusted-ai-agents.md

概述¶

Amazon Bedrock AgentCore 为部署可信人工智能代理增加了质量评估和策略控制 by Danilo Poccia on 02 12月 2025 in Amazon Bedrock , Amazon Machine Learning , Announcements , Artificial Intelligence , AWS re:Invent , Generative AI , Launch , News Permalink Share 今天，我们隆重宣布推出 Amazon Bedrock AgentCore 中的多项新功能，以进一步消除阻碍人工智能代理进行生产的障碍。各行各业的组织已经在 AgentCore 上构建各种解决方案，AgentCore 是最先进的平台，可以安全地构建、部署和运行任何规模的功能强大的代理。在自预览版推出以来的短短 5 个月内， AgentCore SDK 的下载量已超过 200 万次。例如： PGA TOUR 是体育领域的先驱和创新领导者，该公司已经建立一个多代理内容生成系统，为其数字平台撰写文章。构建于 AgentCore 基础上的全新解决方案通过将内容写作速度提高 1000%，同时将成本降低 95%，让 PGA TOUR 能够为该领域的每位运动员提供全面报道。像 Workday 这样的独立软件供应商（ISV）正在 AgentCore 上开发未来的软件。AgentCore 代码解释器为 Workday 规划代理提供安全数据保护和用于财务数据探索的基本功能。用户可以通过自然语言查询分析财务和运营数据，使财务规划变得直观易懂、自主可控。此功能将花费在例行规划分析上的时间减少了 30%，每月可节省大约 100 个小时。巴西分销商和零售商 Grupo Elfa 依靠 AgentCore 可观测性，实现了对其代理的完整审计可追溯性和实时指标监控，将被动流程转变为主动运营。借助这个统一平台，他们的销售团队每天可以处理成千上万次的报价，同时组织仍能全面了解代理决策，帮助对代理决策和互动实现 100% 的可追溯性，并将问题解决时间缩短 50%。随着组织扩大代理部署规模，他们在实施正确的边界和质量检查以从容部署代理方面面临挑战。使代理变得强大的自主权也使他们难以从容地进行大规模部署，因为他们可能会不当访问敏感数据、作出未经授权的决策或采取意想不到的行动。开发团队必须在以下方面取得平衡：实现代理自主权的同时，确保他们在可接受的边界内运作，还必须达到将代理置于客户和员工面前所需的优异品质。如今提供的各项新功能使这一过程无需猜测，可帮助您从容地构建和部署可信的人工智能代理： AgentCore 中的策略（预览版）：使用具有细粒度权限的策略，在 AgentCore 网关工具调用运行之前拦截这些调用，从而为代理操作定义明确的界限。 AgentCore 评估（预览版）：根据实际行为，使用内置评估器（针对正确性和有用性等维度）和自定义评估器（针对业务特定要求），监控代理的质量。我们还推出了扩展代理可执行之操作的功能： AgentCore 内存中的情节性功能：一项新的长期策略，可帮助代理从经验中学习并在类似情况下调整解决方案，以提高在未来类似任务中的一致性和性能。 AgentCore 运行时中的双向流式传输：部署语音代理，其中的用户和代理都可以按照自然对话流程同时讲话。

核心技术¶

Amazon Bedrock AgentCore、Strands Agent SDK、OpenClaw、MCP Server、Cedar 策略语言

来源¶

AWS China Blog 原文

深度分析¶

1. 代理可信部署的核心矛盾：自主性与安全性的平衡¶

文章揭示了企业在 AI 代理大规模部署时面临的核心挑战——代理的强大自主权与其安全可控运行之间的根本矛盾。代理可能不当访问敏感数据、作出未经授权的决策或采取意想不到的行动，这使得开发团队必须在实现代理自主权的同时，确保其在可接受的边界内运作。这一矛盾的本质在于：传统软件的安全模型基于确定性规则，而 AI 代理的行为具有涌现性和不确定性，需要新的治理范式。 AgentCore 的策略机制将代理视为"自主行为者"，其决策在获得工具、系统或数据之前需要进行验证——这是一种"外部化"的安全控制思路，与代理自身的推理循环解耦。这种设计理念使安全边界定义与代理实现解耦，从而支持跨模型、跨架构的一致性治理。

2. Cedar 策略语言：自然语言与形式化授权的融合¶

AgentCore 策略支持两种创建方式：自然语言描述和直接使用 Cedar 策略语言。Cedar 是 AWS 开源的可执行策略语言，提供细粒度权限控制。这一设计的巧妙之处在于：自然语言策略生成并非简单的 LLM 翻译，而是理解工具结构后生成语法正确且语义一致的策略，并能自动识别过于宽松、过于严格或无法满足的条件。从工程实践角度看，这种"自然语言 → Cedar 自动推理验证"的工作流显著降低了策略编写门槛，使开发、安全与合规团队可以协作创建和审计规则，而无需专门的 Cedar 专业知识。策略引擎与 AgentCore 网关集成，可在工具调用发生时进行拦截，在保持操作速度的同时处理请求——这是将安全控制嵌入数据平面的低延迟方案。

3. AgentCore Evaluations：数据驱动的连续质量监控¶

AgentCore Evaluations 提供了完全托管的持续评估能力，基于实际行为监控代理性能。内置评估器覆盖正确性、有用性、工具选择准确性、安全性、目标成功率、上下文相关性等维度；自定义评估器允许基于业务需求定制评分标准。这一设计的核心价值在于将质量评估从"测试阶段"延伸到"生产阶段"，形成连续监控闭环。评估结果与 CloudWatch 集成，支持设置警报和自动化响应。当质量指标降至阈值以下时（如客户服务代理满意度下降或礼貌分数在 8 小时内下降超过 10%），系统可立即触发警报。这实现了从被动发现到主动监控的范式转变。

4. 情节性记忆：从事件记录到经验学习的跃迁¶

AgentCore 内存新增的情节性（Episodic）功能代表了 AI 代理记忆能力的质变。传统记忆系统仅记录历史交互上下文，而情节性记忆会捕获结构化情节——包括代理互动的上下文信息、推理过程、已采取行动及结果——并由反射代理分析这些情节以提取更广泛的洞察和模式。这种设计的实际效果体现在：代理可以识别用户的长期行为模式（如出差时倾向选择较晚航班），并在未来相似任务中主动适配（如主动建议灵活的退货选项）。通过在上下文中仅包含完成任务所需的特定知识而非罗列所有建议，减少了对自定义指令的依赖，提高了代理的自主适应能力。

5. 双向流式传输：重新定义人机对话范式¶

AgentCore 运行时双向流式传输打破了传统回合制交互的限制，实现了真正的自然对话体验。语音代理可以在用户说话时进行监听和调整，支持打断和即时上下文调整，用户无需等待代理完成当前输出。这一能力的技术复杂度在于：代理需在生成输出的同时处理输入，优雅处理中断并在整个动态对话转移过程中保持上下文关联。基础设施层面的同步通信流程由 AgentCore 运行时管理，使开发者可以专注于业务逻辑而非底层同步问题。

实践启示¶

1. 建立代理治理的第一道防线：策略优先于开发¶

在构建任何 AI 代理之前，首先设计策略引擎和控制边界。将"策略即代码"纳入开发流程，使用自然语言策略生成初稿，再通过 Cedar 的自动推理验证确保策略的完整性和一致性。利用日志模式在生产前测试策略，避免过度限制或过度宽松的规则导致业务风险或安全隐患。

2. 构建评估驱动的质量闭环：将监控嵌入部署生命周期¶

不要将质量评估视为一次性测试活动，而应建立持续评估机制。使用内置评估器建立基线指标，通过自定义评估器定义业务特定的质量维度，并将评估结果与 CloudWatch 告警集成，实现质量异常的主动发现和响应。建议在 CI/CD 流程中嵌入评估关卡，当质量指标低于阈值时阻止代理部署到生产环境。

3. 利用 MCP 协议实现开发工作流集成¶

AgentCore 可作为 MCP 服务器使用，这意味着策略编写和验证可以直接集成到首选的 AI 辅助编码环境中。充分利用这一特性，在日常开发工具链中建立策略编写、验证和调试的无缝工作流，缩短上手时间并提高规则质量。

4. 挖掘情节性记忆的业务价值：个性化与效率的平衡¶

评估情节性记忆功能如何应用于具体业务场景。关键在于识别高频、重复性的业务流程（如差旅预订、费用报销、客户服务查询），代理可通过学习历史模式主动提供个性化建议，减少用户的重复输入和决策负担。同时确保情节数据的隐私合规，遵循数据最小化原则。

5. 框架无关性策略：构建可移植的代理治理能力¶

AgentCore 支持任何开源框架（CrewAI、LangGraph、LlamaIndex、Strands Agents）和任何基础模型。在设计策略和评估体系时，应保持框架无关性，使治理能力可跨项目复用。这一设计选择意味着组织可以先在试点项目验证治理框架的有效性，再逐步推广到其他代理应用，避免重复建设。