跳转至

OpenClaw 与 Claude Code 的 Agent Loop 设计范式

Ch04.237 OpenClaw 与 Claude Code 的 Agent Loop 设计范式

📊 Level ⭐⭐ | 10.0KB | entities/openclaw-agent-loop-design-patterns.md

原文归档:原文归档

OpenClaw 创始人 Peter Steinberger 与 Claude Code 创始人 Boris Cherny 都进入了"用循环设计取代手动提示"的编程阶段。这种范式的核心是:工程师不再直接给 LLM 下达指令,而是编写“循环”——一个小程序持续运行,读取 Agent 输出、判断完成状态、决定下一步操作。模型变成了循环内的一个子程序。

五级跃迁史:从 While 循环到多 Agent 编排

AI Coding 中的"循环"概念经历了五个阶段的演进,每一阶段都在前一阶段的基础上解决了新的问题,也引入了新的能力。

第一阶段:学术界 While 循环 (2022)

2022 年的 ReAct 论文 对此进行了形式化描述:模型进行推理,调用工具,读取结果,循环往复直至完成。这是最简单的模式:一个模型、一个循环、一个人在旁注视。

第二阶段:AutoGPT (2023)

AutoGPT 被赋予了目标并允许自行生成提示词,却因一直处于"空转状态"而闻名。这一失败埋下了"智能体是玩具"这一观点的种子,并延续了数年。

第三阶段:Ralph 循环 (2025)

Geoffrey Huntley 于 2025 年 7 月提出的 Ralph 循环,简单得令人不快——只是一行 Bash 命令,将同一个提示文件一遍又一遍地通过管道传入代理。

其真正的创新在于纪律性:每次迭代都会将上下文重置为一组固定的锚定文件,而不是让对话不断扩展。Huntley 仅花费约 297 美元,就用它构建了一整套编程语言。

第四阶段:产品化循环 (2026 春季)

2026 年春季,CodexClaude Code 均推出了 /goal 命令,该命令会持续运行 Ralph 循环,直至一个小型验证模型确认任务完成为止。这标志着循环从工具进化为产品功能。

第五阶段:多 Agent 编排循环 (2026)

Boris 和 Steinberger 所指的"循环"是真正全新的,不仅仅是改了名字。有四点发生了变化:

  1. 循环成为工作单元,而非任务。循环开始同时并行地、按计划地监督其他循环。
  2. 计划调度取代人工启动,循环的运行依赖于基础设施的时间,而非你的注意力。
  3. 持久性变得显式化,基于 Git 的状态管理(git-backed state)和崩溃恢复机制能够在重启后仍然正常运行。
  4. 终端假设改变:Ralph 假设你的终端始终保持打开状态,而 2026 版本则假设终端不会保持打开状态。

单 Agent 的 Ralph 循环已经过时了,而构建在其之上的多 Agent 编排循环才是新事物。

Boris Cherny 的循环实操指南

Boris 提出了 5 条让 Opus 系统自动运行数小时或数天的技巧:

  1. 使用 auto mode来处理权限问题,这样 Claude 就不会请求批准。
  2. 使用动态工作流让 Claude 协调数百或数千个 Agent 来完成任务。
  3. 使用 /goal 或 /loop推动 Claude 持续执行直至任务完成。
  4. 在云端使用 Claude Code,这样就可以合上笔记本电脑。
  5. 确保 Claude 能够对工作进行端到端的自我验证

其中第 5 点被特别强调——一个循环结构的可靠性,完全取决于它自我检验的能力。

与已有实体的关联

核心论点

从 Token 到循环管控

一旦模型编写代码几乎不花费什么,成本就转移到了运行它的循环上。Uber 在四个月内就耗尽年度 AI 预算,不得不对 Claude Code 和 Cursor 进行限制(每位工程师每月每使用一个工具只能花费 1500 美元)。

2026 年所有关于循环的严肃论述都指向三个共同的硬性限制:

  • 最大迭代次数
  • 无进展检测
  • Token 或资金预算上限

循环的浪漫版本是:你编写好循环,一千个智能体就能在一夜之间帮你建立公司。现实版本则是:大部分工作都花在确保它们及时停止上。

循环 vs Cron:决策机制的差异

Cron 任务只是运行一个固定的脚本。而循环则运行一个模型:该模型会观察当前状态,决定下一步该做什么,执行该操作,检查是否成功,并决定是否继续运行。

决策权在于 Agent 本身,而非你,也非写死的分支逻辑。将这些循环堆叠起来,让一个循环负责调度并监督其他循环,赋予它们持久的共享状态,便拥有了 Cron 无法实现的功能。

可复用技能:循环的核心资产

Steinberger 的观点与循环配对:如果你做某件事超过一次,就将其转化为自动化技能;如果你做某件困难的事,事后将其转化为技能,这样下次做起来就更轻松。

循环是管道机制,而所谓的资产是它所调用的技能。一个内部没有可复用技能的循环,不过是一个"空转"的 while-true 循环。一个能够调用被打磨过、经过测试且命名明确的技能库的循环,则是一个能够产生复合效益的系统。

三大核心新逻辑

Matt Van Horn 总结了这次研究发现的重要模式:

  1. 一个循环其实相当于 Cron 加上一个决策机制:每个时间点上,都是模型来决定下一步该执行什么操作,而不是通过硬编码的方式来指定。
  2. 最昂贵的资源从 Token 转移到了循环管理上:需要限制迭代次数、检测无进展情况,并设定预算上限。
  3. 循环中的可复用单元是技能,而不是提示词。循环调用明确命名的技能会产生复合效益;而重新生成一切的只是燃烧金钱。

深度分析

1. Agent Loop:AI agent 的核心执行模式

OpenClaw 的 agent loop 设计模式总结了 AI agent 执行任务的核心循环:感知→推理→行动→观察。不同 loop 模式(单步、多步、递归、并行)适用于不同场景。

2. 与 Claude Code loop 的对比

Claude Code 的 agent loop 遵循"tool call → observation → reasoning → next tool call"模式,与 OpenClaw 的设计模式有相同基础但增加了 task boundary 检测和自动压缩。

3. 递归 loop 的风险

递归 loop(agent 调用自身)存在无限循环风险——需要设置递归深度限制和超时机制。与 Agent Security Three Step Sequence Harness Governance Identity Crewai 的 harness 约束对齐。

实践启示

1. 选择 loop 模式匹配任务复杂度

简单任务用单步 loop,复杂任务用多步 loop,需要子任务分解时用递归 loop。

2. 所有 loop 必须有退出条件

每个 agent loop 都应设置最大迭代次数、超时和成本上限——防止无限循环。

3. Loop 中的状态管理

多步 loop 需要维护跨步骤的状态——使用 working set / scratchpad 模式,避免上下文溢出。

相关实体