跳转至

CI&T基于 Amazon Bedrock AgentCore 与 OpenClaw 的企业级智能运维最佳实践 | 亚马逊AWS官方博客

Ch11.056 CI&T基于 Amazon Bedrock AgentCore 与 OpenClaw 的企业级智能运维最佳实践 | 亚马逊AWS官方博客

📊 Level ⭐⭐ | 11.7KB | entities/ci-t-based-on-amazon-bedrock-agentcore-openclaw-enterprise-intelligent-operations-best-practices.md

概述

CI T基于 Amazon Bedrock AgentCore 与 OpenClaw 的企业级智能运维最佳实践 by awschina on 17 4月 2026 in DevOps Permalink Share 摘要:CI T联合AWS打造的智能运维解决方案,针对全球IoT业务面临的跨区域运维复杂性挑战,采用Multi-Agent协作架构设计。通过Supervisor Agent统筹调度五大专业Agent(FinOps、Platform Ops、Security Ops、Connectivity Ops、BizOps),结合Skills技能化封装和自动巡检体系,基于Amazon Bedrock AgentCore的Serverless部署,实现从”被动响应”到”主动发现”的智能化运维转型,显著提升运维效率并降低成本。 目录 01 一、引言:全球化业务下的运维挑战 02 二、解决方案:基于 OpenClaw 的 Multi-Agent 协作架构 03 三、关键设计:运维能力“Skills 化” 04 四、自动巡检体系:从“人找事”到“事找人” 05 五、基于Amazon Bedrock AgentCore企业级部署 06 六、总结与实践心得 一、引言:全球化业务下的运维挑战 在智能家居与IoT领域,构建一个能够支撑全球业务的云原生平台已成为企业的核心竞争力。CI T为一家全球领先的家居环境健康公司提供解决方案,其业务遍布全球,为了支撑海量设备的跨地域实时接入,我们构建了以 AWS IoT Core 为核心的全球化多区域部署架构,并深度集成了 AWS Lambda 、存储及各类数据分析服务,形成了完整的数据处理链路。 [图1] 然而,随着系统规模的持续演进和业务边界的不断扩张,传统的运维模式开始面临严峻挑战: 跨区域复杂性:运维数据、成本数据分散在不同区域的独立账号中,故障定位需要频繁切换上下文 。 专家经验难以规模化:深度的日志分析和成本优化高度依赖经验丰富的工程师,面对全球规模的系统,人工操作不仅低效且容易出错 。 巡检滞后:依赖手动查询 Dashboard,往往只能在问题发生后进行被动响应 。 二、解决方案:基于 OpenClaw 的 Multi-Agent 协作架构 我们构建了一套可编排的 AI Agent 系统,将复杂的运维能力转化为系统化的自动流 。该架构的核心在于专业分工与层级调度: 任务调度中心:Supervisor Agent 作为整个体系的“大脑”,Supervisor Agent 负责全局任务的拆分、子 Agent 的调度以及最终分析结果的汇总 。它确保了即便面对跨领域的复杂运维请求,AI也能逻辑清晰地给出完整回复。 领域专家团:专项子智能体 我们根据运维场景定义了5个领域的 Agent,每个 Agent 专注其特定领域的深度分析: FinOps Agent (成本专家):负责成本趋势分析、服务/区域维度的异常检测,并提供针对性的优化建议 。 Platform Ops Agent (平台专家):深挖系统日志,进行异常检测与服务健康状态评估 。 Security Ops Agent (安全专家):专注于权限控制分析、凭证检查及各类安全风险识别 。 Connectivity Ops Agent (网络专家):监控网络延迟、流量异常及 SSL 证书有效性,确保全球连接的稳定性 。 BizOps Agent(业务指标专家):通过分析用户行为趋势和业务指标,让运维数据能够直接服务于业务决策 。 三、关键设计:运维能力“Skills 化” 在该架构中,我们使用了一个关键概念:Skills(技能)。Agent 不再直接硬编码调用底层云服务 API,而是通过调用封装好的标准化技能来实现目标 。 为什么需要 Skills 层? 封装复杂逻辑:将复杂的 AWS CLI 或 API 调用封装为可复用的原子能力 。 解耦底层依赖:降低了对具体工具或 API 的依赖,提供了统一的接口 。 能力沉淀:所有的运维经验通过 Skill 转化为系统资产,而非仅存在于工程师的头脑中 。 [图2] 以成本分析 Skill 为例,它整合了AWS MCP服务中的 Cost Explorer 的数据查询、Pricing 的价格估算辅助分析 。Agent 只需发出“分析最近三个月的AWS成本”的指令,Skill 即可自动完成多维度的数据调取与初步处理,最终生成成本分析报告 。 [图3] 四、自动巡检体系:从“人找事”到“事找人” 通过 OpenClaw 驱动的自动巡检,我们将运维从“被动响应”转变为“主动发现”。 巡检流程 定期触发:由 Supervisor 周期性发起巡检任务 。 并行分析:各子 Agent 协同工作,分别执行成本分析、日志检查、安... [truncated]

核心技术

Amazon Bedrock AgentCore、Strands Agent SDK、OpenClaw、MCP Server、OpenClaw、Amazon Bedrock

来源

AWS China Blog 原文

相关实体

深度分析

Multi-Agent 协作架构的核心设计逻辑

CI&T 的解决方案采用了典型的 Supervisor-MultiAgent 架构模式,这是一种经过验证的复杂任务分解方法。Supervisor Agent 承担全局任务编排职责,将复杂运维请求拆解为子任务并分发给专业的子 Agent,体现了"专业的事交给专业的人做"的设计哲学。

Skills 层的设计价值

Skills 层是该架构的关键抽象层。传统的 Agent 设计中,LLM 直接调用云服务 API,这种方式存在三个问题:1) API 复杂性高,LLM 容易调用错误;2) 工具描述的 token 消耗大;3) 运维经验无法有效沉淀。Skills 层通过封装复杂逻辑、解耦底层依赖、沉淀运维经验三个维度系统性解决了这些问题。以成本分析 Skill 为例,它整合了 Cost Explorer 和 Pricing MCP 服务,Agent 只需发出高层指令即可获得分析结果。

从"被动响应"到"主动发现"的关键转变

传统的运维模式依赖人工巡检和 Dashboard 被动发现问题,而该方案通过定时触发机制实现了主动运维。Supervisor Agent 周期性发起巡检任务,各子 Agent 并行执行分析,最后汇总生成统一报告。这种模式的核心价值不是"能查数据",而是"持续执行与智能分析",极大解放了人力。

Amazon Bedrock AgentCore 的 Serverless 部署优势

该方案选择 AgentCore Serverless 部署而非直接运行 OpenClaw,主要基于以下考量:安全隔离(独立沙箱+自动伸缩)、企业治理(快速实现预设规则)、成本优化(按需付费更适合定期执行任务)、以及可观测性。这些优势完美契合企业级运维场景的需求。

实践启示

架构设计层面

  1. 采用分层 Agent 架构:将复杂运维能力按领域划分为专业 Agent(FinOps、Platform Ops、Security Ops、Connectivity Ops、BizOps),通过 Supervisor Agent 统一调度。这种设计既保持了 Agent 的专业深度,又通过层级调度解决了单一 Agent 难以覆盖全栈的问题。 ^[https://aws.amazon.com/cn/blogs/china/ci-t-based-on-amazon-bedrock-agentcore-openclaw-enterprise-intelligent-operations-best-practices/]
  2. 构建 Skills 抽象层:运维能力应通过 Skills 层标准化,而非硬编码到 Agent 逻辑中。这使得运维经验得以系统化沉淀,同时降低了 Agent 与底层云服务的耦合度。 ^[https://aws.amazon.com/cn/blogs/china/ci-t-based-on-amazon-bedrock-agentcore-openclaw-enterprise-intelligent-operations-best-practices/]
  3. 设计自动巡检闭环:从"人找事"转变为"事找人",通过定时触发+并行分析+智能汇总的机制,实现持续性主动运维。 ^[https://aws.amazon.com/cn/blogs/china/ci-t-based-on-amazon-bedrock-agentcore-openclaw-enterprise-intelligent-operations-best-practices/]

技术选型层面

  1. MCP Server 的标准化集成:利用 MCP(Model Context Protocol)实现 Agent 与云服务的标准化连接,Cost Explorer、Pricing 等服务通过 MCP 封装为可复用能力。 ^[https://aws.amazon.com/cn/blogs/china/ci-t-based-on-amazon-bedrock-agentcore-openclaw-enterprise-intelligent-operations-best-practices/]
  2. AgentCore Serverless 部署:对于定期执行的企业运维任务,AgentCore 的 Serverless 模式在成本和安全隔离方面具有明显优势。 ^[https://aws.amazon.com/cn/blogs/china/ci-t-based-on-amazon-bedrock-agentcore-openclaw-enterprise-intelligent-operations-best-practices/]

原文存档

组织流程层面

  1. 运维能力的资产化转化:将工程师的运维经验通过 Skill 转化为系统资产,避免经验依赖个人、难以复制的问题。
  2. 数据驱动的业务决策:BizOps Agent 打通了运维数据与业务指标之间的壁垒,让运维工作直接服务于业务优化。 → 原文存档