Anthropic Claude Managed Agents 平台正式发布¶

Ch01.181 Anthropic Claude Managed Agents 平台正式发布¶

📊 Level ⭐⭐ | 23.0KB | entities/anthropic-claude-managed-agents-platform-2026.md

概述¶

本文介绍 Anthropic 正式开放 Claude Managed Agents 平台，系统性拆解其四大新功能模块：Managed Agents（四核心抽象）、Multiagent Sessions（多 Agent 协作）、Outcomes Loop（结果驱动自我评估）、Webhooks（异步通知）、Dreams（记忆整理）。Anthropic 的战略意图是将 Claude 从"调用模型"转变为"能代你把事情做完的系统"。

四大新功能¶

1. Managed Agents 四核心概念¶

概念	含义
Agent	定义的角色——用哪个模型、系统提示、能用哪些工具和 MCP 服务器
Environment	运行容器——预装 Python/Node.js/Go，配置好网络访问规则
Session	一次具体的任务执行实例
Events	应用与 Agent 之间互发的消息流
定位对比：Messages API 直接调模型（精细控制），Managed Agents 是预建好的 Agent 运行框架（长时间异步任务）。

2. Multiagent Sessions（多 Agent 协作）¶

协调者 Agent 将子任务分配给专门的执行者 Agent
各自独立上下文窗口（互不干扰），共享同一文件系统（可以读写对方产出）
线程机制：主线程是协调者事件流；子线程在委派时动态创建并保持上下文持久化——协调者可以随时与之前召唤过的子 Agent 继续聊
一层委派限制：协调者可调用子 Agent，但子 Agent 不能再调用其他 Agent（研究预览阶段的合理安全边界）
本质：智能体编排终于做成了

3. Outcomes Loop（结果驱动自我评估）¶

解决根本问题：Agent 怎么知道任务做好了？

用户提供 Rubric 评分标准（如：收入预测用5年历史数据、增长率假设明确说明、产出 xlsx 等）
Agent 完成后，召唤独立的评分者 Agent 打分（执行者与评分者用独立上下文窗口隔离，防止自欺）
评估结果：satisfied（达标，结束）/ needs_revision（需修改，继续迭代）/ max_iterations_reached（达最大迭代次数）
本质："计划-执行-评估-修正"闭环，默认 max_iterations=3，最多可设20次

4. Webhooks（异步通知机制）¶

配置 HTTPS 回调地址，任务完成后推送通知
支持多种事件类型：session.status_idled（任务完成）、session.outcome_evaluation_ended（评估结束）等
每次推送含事件类型+ID，再 GET 拉取完整数据（防止重试导致过期数据）
签名验证：X-Webhook-Signature 头，超过5分钟 payload 被拒绝
意义：Agent 从"工具"（需一直握着）向"服务"（委托出去等结果）进化

5. Dreams（记忆整理）¶

背景：Session 积累后记忆库会产生重复、过时、矛盾的内容
异步任务：让 Claude 后台读取多个历史 Session 记录，对记忆库做整理（合并重复、用新覆盖旧、提炼新模式）
非破坏性：输出全新的整理后的记忆库，原记忆库不被修改，可先审查再决定是否采纳
模拟人类睡眠时的记忆整理过程
单次最多支持100个 Session，目前支持 claude-opus-4.7 和 claude-sonnet-4.6
战略意义：在 Agent 应用层面实现持续优化，不依赖模型重新训练

战略判断¶

"Anthropic 不只是在卖模型能力，而是在构建一套 Agent 运行的基础设施。" | 维度 | 从"调用"到"托管" | |------|----------------| | 计算环境 | Anthropic 接管 | | 工具执行 | Anthropic 接管 | | 上下文管理 | Anthropic 接管 | | 开发者职责 | 只定义 Agent"职责" |

Outcomes Loop：让 Agent 输出质量有可量化度量，是从"实验品"变"可信任工作流节点"的关键
Multiagent：让 AI 有"组织结构"，是从单个 AI 向 AI 工作流系统跨越
Dreams：让 Agent 从静态执行系统变成会随使用越来越好的系统

技术细节¶

Webhook 签名验证机制（X-Webhook-Signature，超过5分钟拒绝）
Multiagent 目前只支持一层委派（安全边界）
Outcomes Loop 评分者与执行者上下文窗口刻意隔离
Dreams 非破坏性输出，可审查后再采纳
Multiagent Sessions、Outcomes、Dreams 均处于研究预览阶段，需单独申请权限

深度分析¶

平台定位：从"模型供应商"到"Agent 基础设施运营商"¶

Anthropic 此次发布的意义远超功能迭代。从战略层面看，这是 Anthropic 第一次明确将自己定位为 Agent 基础设施提供商，而非单纯的模型供应商。Messages API 仍然面向需要精细控制的开发者，而 Managed Agents 则面向希望将 AI 能力快速产品化的团队。这一转变意味着 Anthropic 在与 OpenAI、Google 的竞争中，选择了一条"垂直整合 + 平台化"的路径——不只是卖模型，而是卖一整套能让 AI Agent 真正落地的运行时环境。

核心创新：Outcomes Loop 的质量保证机制¶

Outcomes Loop 是本次发布中最具护城河潜力的功能。传统的 AI 工作流依赖 Prompt 工程来保证输出质量，结果不可预测且难以量化。Outcomes Loop 通过引入独立的评分者 Agent + Rubric 评分标准，将输出质量的评估从主观变成了可配置、可复现的自动化流程。这对于将 AI 集成到企业级业务流程至关重要——企业需要的是确定性，而非"AI 偶尔能做好"的赌博。评分者与执行者之间上下文窗口的刻意隔离，是防止自评自夸的关键设计，这种工程上的细节处理体现了对实际应用场景的深度理解。

Multiagent Sessions：智能体编排终于有标准答案¶

多 Agent 协作一直是行业难题，大多数实现停留在"共享上下文"阶段，而 Claude Managed Agents 的解决方案更加成熟：通过 Thread 机制实现上下文持久化，使得协调者可以随时与之前召唤过的子 Agent 继续对话；同时通过文件系统共享实现产出互通。这比 LangChain Agents 的早期探索前进了一大步。"一层委派限制"看似保守，实际上是在安全性和功能性之间取得的合理平衡。

Dreams：持续优化的差异化路径¶

Dreams 功能模拟人类睡眠时的记忆整理过程，将多个历史 Session 的内容进行整合优化。这是业界首次将持续学习概念引入 Agent 层面的产品设计中。与其依赖模型重新训练来提升能力，不如通过记忆整理让 Agent 在使用过程中越来越聪明。这种设计思路的巧妙之处在于：非破坏性输出确保了安全性（可以先审查再采纳），而可配置的 Session 上限（100个）则控制了计算成本。

战略意图：打造闭环的 Agent 生态系统¶

从整体架构看，Managed Agents（执行环境）+ Multiagent（协作层）+ Outcomes Loop（质量层）+ Webhooks（通知层）+ Dreams（优化层）构成了一套完整的 Agent 生命周期管理方案。Anthropic 的目标是让开发者只需定义"做什么"（Agent 职责），而将"怎么做"（环境配置、上下文管理、任务协调、质量评估）全部下沉到平台层。这与 AWS Lambda 对服务器运维的革命性改变如出一辙——Anthropic 正在做的是 AI 版本的"无服务器化"。

实践启示¶

1. 评估你的工作流是否适合迁移到 Managed Agents¶

适合迁移的场景：长时间运行的异步任务、多步骤复杂任务、需要确定性输出的业务场景（如财务建模、代码审查、数据分析pipeline）。不适合的场景：需要实时交互的对话、精细控制模型行为的场景、简单的一次性任务。评估标准：如果你的任务需要自己写一套"框架代码"来管理上下文窗口、执行环境、轮询逻辑，那么 Managed Agents 很可能能替你省掉这些工作。

2. 设计好你的 Rubric 是使用 Outcomes Loop 的关键¶

Outcomes Loop 的效果直接取决于 Rubric 的质量。建议Rubric 设计遵循以下原则：具体可量化（而非模糊描述）、覆盖核心需求和边界情况、明确输出格式要求。以 DCF 财务模型为例，Rubric 应具体说明：收入预测需使用过去5年历史数据、增长率假设需要明确说明、产出必须是 xlsx 格式且包含特定sheet。Rubric 越清晰，评分者 Agent 的评估越准确，迭代修正的效率越高。

3. 从单 Agent 场景开始，逐步引入 Multiagent 协作¶

Multiagent Sessions 功能强大但复杂度也高。建议从单 Agent 开始：先定义好 Agent 的角色、Environment 配置、系统提示，然后跑通基础任务。在此基础上，再考虑将任务分解给多个专门的执行者 Agent。分解的原则是：高内聚低耦合——每个子 Agent 应该有明确且独立的职责，Agent 之间通过文件系统共享产出而非直接调用。这种设计能避免多 Agent 场景下的上下文污染和调试困难。

4. 利用 Webhooks 构建事件驱动的 AI 工作流¶

Webhook 机制是实现"委托-等待"模式的关键。你的应用可以将任务委托给 Managed Agents，然后通过 Webhook 回调来接收完成通知，而不是一直保持连接轮询。这种模式特别适合：后台批处理任务、长时运行的 AI 流程、需要与其他系统集成的场景。在实现时，记得验证 X-Webhook-Signature 签名，并且设计好幂等处理逻辑（因为重试可能推送多次）。

5. 将 Dreams 作为长期记忆管理的补充手段¶

在高频使用 Agent 的场景下，Session 积累会导致记忆库出现重复、过时、矛盾的内容。Dreams 功能可以定期帮你整理这些记忆。建议的使用节奏：每周或每两周运行一次 Dreams，整理最近一周的 Session 记忆。由于输出是非破坏性的，可以先审查整理结果，确认无误后再采纳。同时注意单次最多支持100个 Session，所以对于高频场景，可能需要分批处理。

6. 关注研究预览阶段的限制，合理规划技术路径¶

Multiagent Sessions、Outcomes、Dreams 目前均处于研究预览阶段，需要单独申请权限。在生产环境中使用这些功能时，需要考虑：权限申请的不确定性、功能可能变化的兼容性维护、备用方案的准备。建议将预览阶段的功能用于非关键路径，或者设计成可降级方案（如 Outcomes Loop 暂时用人工评估替代）。同时关注官方文档的更新，及时跟进正式发布后的变化。

第 2 来源：VibeCoder「脑手分离」架构视角（2026-06-11）¶

VibeCoder 对 Claude Managed Agents 更新（scheduled deployments + vault env vars）的架构解读，提出「脑手分离」四层模型，并给出落地设计路径。原文：VibeCoder 原文存档

核心创新 / 关键数据¶

脑手分离四层架构：Agent(脑) / Sandbox(手) / Vault(身份证) / Session+Memory(状态层)——将生产 Agent 最容易纠缠的四个维度（谁在思考、动作在哪执行、用哪个身份访问、哪些状态要留下）解耦
Vault 占位值机制：sandbox 里 CLI 读到的只是 placeholder，真实 key 在网络边界才附到请求上，安全边界从进程内变量变成网络请求边界——比普通 env var（env 可见）安全一个层级
Schedule = Session Factory：deployment 绑定 cron + timezone + agent + environment + 初始 message，时间到创建 deployment run → 启动 session；成功关联 session_id，失败记录错误类型
状态分层设计：短期中间产物 → sandbox / 一次任务过程 → session event stream / 跨任务偏好+规范+摘要 → memory store / 业务权威数据 → 外部系统（DB/SaaS/仓库）
Memory store 文件系统形态：挂载 /mnt/memory/，用 read/write/edit/grep 普通文件工具维护，「能 grep 的记忆比黑盒向量库更可控」

对照表：第 1 来源 vs 第 2 来源¶

维度	第 1 来源（平台首发）	第 2 来源（VibeCoder 脑手分离）
核心叙事	Managed Agents 四模块首发（Agent/Env/Session/Events + Multiagent/Outcomes/Webhooks/Dreams）	更新解读：schedule + vault env vars 补齐长期运行和安全接入
架构框架	四核心概念（Agent/Environment/Session/Events）	脑手分离四层（脑/手/身份证/状态层）——更偏工程边界划分
安全机制	Outcomes Loop 隔离评估者/执行者上下文	Vault 占位值 + 网络边界附着——secret 不在进程环境
状态管理	未展开跨 session 状态策略	四层状态分层（sandbox/session/memory/外部系统）
Schedule	未覆盖	Session Factory 模式 + 状态分层影响
与 Codex 对比	未涉及	Codex: setup scripts 期解密 → agent phase 前移除 vs Managed Agents: 运行期网络边界附着
CLI 集成	未覆盖	vault env vars 让现有 CLI 安全调用，无需写 MCP server
落地建议	从单 Agent 开始 → Multiagent	先画状态表 → 低风险流程试 → 保留人工确认点
publish_time	2026-05-08	2026-06-11
媒体立场	中性偏分析	工程实践导向，更尖锐（「生产 Agent 竞争点从模型回答转向运行系统」）

与第 1 来源呼应¶

第 1 来源覆盖平台首发四模块（Managed Agents / Multiagent / Outcomes / Webhooks / Dreams），侧重功能介绍和战略分析。第 2 来源聚焦 更新功能（schedule + vault env vars），并通过「脑手分离」框架将已有概念重新组织为工程边界视角。两者互补：第 1 来源是「有什么」，第 2 来源是「怎么拼」——特别在安全边界（vault 占位值 vs 进程内变量）和状态管理（四层分层 vs 未展开）上，第 2 来源补全了第 1 来源缺失的工程细节。

实践启示¶

先画状态表再选流程：Agent config(行为) / Environment(依赖) / Vault(身份) / Session(一次运行) / Memory(跨运行知识) / 外部系统(业务事实)——六个位置各有归属，不要把跨天状态塞进 sandbox 临时文件
vault env vars 的 CLI 优先策略：很多企业系统先有 CLI 再有 SDK，让 Agent 安全调用现有 CLI 比每个系统重写 MCP server 更轻量
强事务写路径暂不适用：自动退款/改账/删数据等需要额外 approval + 幂等 + 回滚 + 审计，Managed Agents 给了执行层但业务控制不能省
低风险验证流程：日报 Agent（读指标→查 Sentry→生成摘要→发 Slack/Notion）→ 验证四个边界（schedule 触发/sandbox 工具/vault 访问/memory 记忆）→ 稳定后再推高价值流程
不要做低价值 ablation：反复验证不用 vault 会否泄密或十种 schedule 粒度不影响架构判断

上线状态 / 链接¶

Anthropic 更新博客：https://claude.com/blog/whats-new-in-claude-managed-agents
Managed Agents Overview：https://platform.claude.com/docs/en/managed-agents/overview
Vaults 文档：https://platform.claude.com/docs/en/managed-agents/vaults
Memory 文档：https://platform.claude.com/docs/en/managed-agents/memory

→ 第 2 原文存档

Anthropic Claude Managed Agents 平台正式发布¶

Ch01.181 Anthropic Claude Managed Agents 平台正式发布¶

概述¶

四大新功能¶

1. Managed Agents 四核心概念¶

2. Multiagent Sessions（多 Agent 协作）¶

3. Outcomes Loop（结果驱动自我评估）¶

4. Webhooks（异步通知机制）¶

5. Dreams（记忆整理）¶

战略判断¶

技术细节¶

深度分析¶

平台定位：从"模型供应商"到"Agent 基础设施运营商"¶

核心创新：Outcomes Loop 的质量保证机制¶

Multiagent Sessions：智能体编排终于有标准答案¶

Dreams：持续优化的差异化路径¶

战略意图：打造闭环的 Agent 生态系统¶

实践启示¶

1. 评估你的工作流是否适合迁移到 Managed Agents¶

2. 设计好你的 Rubric 是使用 Outcomes Loop 的关键¶

3. 从单 Agent 场景开始，逐步引入 Multiagent 协作¶

4. 利用 Webhooks 构建事件驱动的 AI 工作流¶

5. 将 Dreams 作为长期记忆管理的补充手段¶

6. 关注研究预览阶段的限制，合理规划技术路径¶

相关产品/人物¶

相关实体¶

第 2 来源：VibeCoder「脑手分离」架构视角（2026-06-11）¶

核心创新 / 关键数据¶

对照表：第 1 来源 vs 第 2 来源¶

与第 1 来源呼应¶

实践启示¶

上线状态 / 链接¶