跳转至

Amazon Bedrock AgentCore 为部署可信人工智能代理增加了质量评估和策略控制 | 亚马逊AWS官方博客

Ch11.043 Amazon Bedrock AgentCore 为部署可信人工智能代理增加了质量评估和策略控制 | 亚马逊AWS官方博客

📊 Level ⭐⭐ | 13.4KB | entities/amazon-bedrock-agentcore-adds-quality-evaluations-and-policy-controls-for-deploying-trusted-ai-agents.md

概述

Amazon Bedrock AgentCore 为部署可信人工智能代理增加了质量评估和策略控制 by Danilo Poccia on 02 12月 2025 in Amazon Bedrock , Amazon Machine Learning , Announcements , Artificial Intelligence , AWS re:Invent , Generative AI , Launch , News Permalink Share 今天,我们隆重宣布推出 Amazon Bedrock AgentCore 中的多项新功能,以进一步消除阻碍人工智能代理进行生产的障碍。各行各业的组织已经在 AgentCore 上构建各种解决方案,AgentCore 是最先进的平台,可以安全地构建、部署和运行任何规模的功能强大的代理。在自预览版推出以来的短短 5 个月内, AgentCore SDK 的下载量已超过 200 万次。例如: PGA TOUR 是体育领域的先驱和创新领导者,该公司已经建立一个多代理内容生成系统,为其数字平台撰写文章。构建于 AgentCore 基础上的全新解决方案通过将内容写作速度提高 1000%,同时将成本降低 95%,让 PGA TOUR 能够为该领域的每位运动员提供全面报道。 像 Workday 这样的独立软件供应商(ISV)正在 AgentCore 上开发未来的软件。AgentCore 代码解释器为 Workday 规划代理提供安全数据保护和用于财务数据探索的基本功能。用户可以通过自然语言查询分析财务和运营数据,使财务规划变得直观易懂、自主可控。此功能将花费在例行规划分析上的时间减少了 30%,每月可节省大约 100 个小时。 巴西分销商和零售商 Grupo Elfa 依靠 AgentCore 可观测性,实现了对其代理的完整审计可追溯性和实时指标监控,将被动流程转变为主动运营。借助这个统一平台,他们的销售团队每天可以处理成千上万次的报价,同时组织仍能全面了解代理决策,帮助对代理决策和互动实现 100% 的可追溯性,并将问题解决时间缩短 50%。 随着组织扩大代理部署规模,他们在实施正确的边界和质量检查以从容部署代理方面面临挑战。使代理变得强大的自主权也使他们难以从容地进行大规模部署,因为他们可能会不当访问敏感数据、作出未经授权的决策或采取意想不到的行动。开发团队必须在以下方面取得平衡:实现代理自主权的同时,确保他们在可接受的边界内运作,还必须达到将代理置于客户和员工面前所需的优异品质。 如今提供的各项新功能使这一过程无需猜测,可帮助您从容地构建和部署可信的人工智能代理: AgentCore 中的策略 (预览版):使用具有细粒度权限的策略,在 AgentCore 网关工具调用运行之前拦截这些调用,从而为代理操作定义明确的界限。 AgentCore 评估 (预览版):根据实际行为,使用内置评估器(针对正确性和有用性等维度)和自定义评估器(针对业务特定要求),监控代理的质量。 我们还推出了扩展代理可执行之操作的功能: AgentCore 内存中的情节性功能 :一项新的长期策略,可帮助代理从经验中学习并在类似情况下调整解决方案,以提高在未来类似任务中的一致性和性能。 AgentCore 运行时中的双向流式传输 :部署语音代理,其中的用户和代理都可以按照自然对话流程同时讲话。

核心技术

Amazon Bedrock AgentCore、Strands Agent SDK、OpenClaw、MCP Server、Cedar 策略语言

来源

AWS China Blog 原文

深度分析

1. 代理可信部署的核心矛盾:自主性与安全性的平衡

文章揭示了企业在 AI 代理大规模部署时面临的核心挑战——代理的强大自主权与其安全可控运行之间的根本矛盾 。代理可能不当访问敏感数据、作出未经授权的决策或采取意想不到的行动,这使得开发团队必须在实现代理自主权的同时,确保其在可接受的边界内运作。这一矛盾的本质在于:传统软件的安全模型基于确定性规则,而 AI 代理的行为具有涌现性和不确定性,需要新的治理范式。 AgentCore 的策略机制将代理视为"自主行为者",其决策在获得工具、系统或数据之前需要进行验证——这是一种"外部化"的安全控制思路,与代理自身的推理循环解耦 。这种设计理念使安全边界定义与代理实现解耦,从而支持跨模型、跨架构的一致性治理。

2. Cedar 策略语言:自然语言与形式化授权的融合

AgentCore 策略支持两种创建方式:自然语言描述和直接使用 Cedar 策略语言 。Cedar 是 AWS 开源的可执行策略语言,提供细粒度权限控制。这一设计的巧妙之处在于:自然语言策略生成并非简单的 LLM 翻译,而是理解工具结构后生成语法正确且语义一致的策略,并能自动识别过于宽松、过于严格或无法满足的条件。 从工程实践角度看,这种"自然语言 → Cedar 自动推理验证"的工作流显著降低了策略编写门槛,使开发、安全与合规团队可以协作创建和审计规则,而无需专门的 Cedar 专业知识 。策略引擎与 AgentCore 网关集成,可在工具调用发生时进行拦截,在保持操作速度的同时处理请求——这是将安全控制嵌入数据平面的低延迟方案。

3. AgentCore Evaluations:数据驱动的连续质量监控

AgentCore Evaluations 提供了完全托管的持续评估能力,基于实际行为监控代理性能 。内置评估器覆盖正确性、有用性、工具选择准确性、安全性、目标成功率、上下文相关性等维度;自定义评估器允许基于业务需求定制评分标准。 这一设计的核心价值在于将质量评估从"测试阶段"延伸到"生产阶段",形成连续监控闭环。评估结果与 CloudWatch 集成,支持设置警报和自动化响应。当质量指标降至阈值以下时(如客户服务代理满意度下降或礼貌分数在 8 小时内下降超过 10%),系统可立即触发警报 。这实现了从被动发现到主动监控的范式转变。

4. 情节性记忆:从事件记录到经验学习的跃迁

AgentCore 内存新增的情节性(Episodic)功能代表了 AI 代理记忆能力的质变 。传统记忆系统仅记录历史交互上下文,而情节性记忆会捕获结构化情节——包括代理互动的上下文信息、推理过程、已采取行动及结果——并由反射代理分析这些情节以提取更广泛的洞察和模式。 这种设计的实际效果体现在:代理可以识别用户的长期行为模式(如出差时倾向选择较晚航班),并在未来相似任务中主动适配(如主动建议灵活的退货选项)。通过在上下文中仅包含完成任务所需的特定知识而非罗列所有建议,减少了对自定义指令的依赖,提高了代理的自主适应能力。

5. 双向流式传输:重新定义人机对话范式

AgentCore 运行时双向流式传输打破了传统回合制交互的限制,实现了真正的自然对话体验 。语音代理可以在用户说话时进行监听和调整,支持打断和即时上下文调整,用户无需等待代理完成当前输出。 这一能力的技术复杂度在于:代理需在生成输出的同时处理输入,优雅处理中断并在整个动态对话转移过程中保持上下文关联。基础设施层面的同步通信流程由 AgentCore 运行时管理,使开发者可以专注于业务逻辑而非底层同步问题 。

实践启示

1. 建立代理治理的第一道防线:策略优先于开发

在构建任何 AI 代理之前,首先设计策略引擎和控制边界。将"策略即代码"纳入开发流程,使用自然语言策略生成初稿,再通过 Cedar 的自动推理验证确保策略的完整性和一致性 。利用日志模式在生产前测试策略,避免过度限制或过度宽松的规则导致业务风险或安全隐患。

2. 构建评估驱动的质量闭环:将监控嵌入部署生命周期

不要将质量评估视为一次性测试活动,而应建立持续评估机制。使用内置评估器建立基线指标,通过自定义评估器定义业务特定的质量维度,并将评估结果与 CloudWatch 告警集成,实现质量异常的主动发现和响应 。建议在 CI/CD 流程中嵌入评估关卡,当质量指标低于阈值时阻止代理部署到生产环境。

3. 利用 MCP 协议实现开发工作流集成

AgentCore 可作为 MCP 服务器使用,这意味着策略编写和验证可以直接集成到首选的 AI 辅助编码环境中 。充分利用这一特性,在日常开发工具链中建立策略编写、验证和调试的无缝工作流,缩短上手时间并提高规则质量。

4. 挖掘情节性记忆的业务价值:个性化与效率的平衡

评估情节性记忆功能如何应用于具体业务场景。关键在于识别高频、重复性的业务流程(如差旅预订、费用报销、客户服务查询),代理可通过学习历史模式主动提供个性化建议,减少用户的重复输入和决策负担 。同时确保情节数据的隐私合规,遵循数据最小化原则。

5. 框架无关性策略:构建可移植的代理治理能力

AgentCore 支持任何开源框架(CrewAI、LangGraph、LlamaIndex、Strands Agents)和任何基础模型 。在设计策略和评估体系时,应保持框架无关性,使治理能力可跨项目复用。这一设计选择意味着组织可以先在试点项目验证治理框架的有效性,再逐步推广到其他代理应用,避免重复建设。

相关实体