OpenClaw 与 Claude Code 的 Agent Loop 设计范式¶

Ch04.237 OpenClaw 与 Claude Code 的 Agent Loop 设计范式¶

📊 Level ⭐⭐ | 10.0KB | entities/openclaw-agent-loop-design-patterns.md

原文归档：原文归档

OpenClaw 创始人 Peter Steinberger 与 Claude Code 创始人 Boris Cherny 都进入了"用循环设计取代手动提示"的编程阶段。这种范式的核心是：工程师不再直接给 LLM 下达指令，而是编写“循环”——一个小程序持续运行，读取 Agent 输出、判断完成状态、决定下一步操作。模型变成了循环内的一个子程序。

五级跃迁史：从 While 循环到多 Agent 编排¶

AI Coding 中的"循环"概念经历了五个阶段的演进，每一阶段都在前一阶段的基础上解决了新的问题，也引入了新的能力。

第一阶段：学术界 While 循环 (2022)¶

2022 年的 ReAct 论文 对此进行了形式化描述：模型进行推理，调用工具，读取结果，循环往复直至完成。这是最简单的模式：一个模型、一个循环、一个人在旁注视。

第二阶段：AutoGPT (2023)¶

AutoGPT 被赋予了目标并允许自行生成提示词，却因一直处于"空转状态"而闻名。这一失败埋下了"智能体是玩具"这一观点的种子，并延续了数年。

第三阶段：Ralph 循环 (2025)¶

Geoffrey Huntley 于 2025 年 7 月提出的 Ralph 循环，简单得令人不快——只是一行 Bash 命令，将同一个提示文件一遍又一遍地通过管道传入代理。

其真正的创新在于纪律性：每次迭代都会将上下文重置为一组固定的锚定文件，而不是让对话不断扩展。Huntley 仅花费约 297 美元，就用它构建了一整套编程语言。

第四阶段：产品化循环 (2026 春季)¶

2026 年春季，Codex 和 Claude Code 均推出了 /goal 命令，该命令会持续运行 Ralph 循环，直至一个小型验证模型确认任务完成为止。这标志着循环从工具进化为产品功能。

第五阶段：多 Agent 编排循环 (2026)¶

Boris 和 Steinberger 所指的"循环"是真正全新的，不仅仅是改了名字。有四点发生了变化：

循环成为工作单元，而非任务。循环开始同时并行地、按计划地监督其他循环。
计划调度取代人工启动，循环的运行依赖于基础设施的时间，而非你的注意力。
持久性变得显式化，基于 Git 的状态管理（git-backed state）和崩溃恢复机制能够在重启后仍然正常运行。
终端假设改变：Ralph 假设你的终端始终保持打开状态，而 2026 版本则假设终端不会保持打开状态。

单 Agent 的 Ralph 循环已经过时了，而构建在其之上的多 Agent 编排循环才是新事物。

Boris Cherny 的循环实操指南¶

Boris 提出了 5 条让 Opus 系统自动运行数小时或数天的技巧：

使用 auto mode来处理权限问题，这样 Claude 就不会请求批准。
使用动态工作流让 Claude 协调数百或数千个 Agent 来完成任务。
使用 /goal 或 /loop推动 Claude 持续执行直至任务完成。
在云端使用 Claude Code，这样就可以合上笔记本电脑。
确保 Claude 能够对工作进行端到端的自我验证。

其中第 5 点被特别强调——一个循环结构的可靠性，完全取决于它自我检验的能力。

与已有实体的关联¶

OpenClaw 技术架构分析 — 本文补充了设计哲学层面的循环范式
Agent 架构演进 — 可作为循环阶段的系统性补充
Hermes Agent 0.14 架构 — 具体实现层面的循环机制

核心论点¶

从 Token 到循环管控¶

一旦模型编写代码几乎不花费什么，成本就转移到了运行它的循环上。Uber 在四个月内就耗尽年度 AI 预算，不得不对 Claude Code 和 Cursor 进行限制（每位工程师每月每使用一个工具只能花费 1500 美元）。

2026 年所有关于循环的严肃论述都指向三个共同的硬性限制：

最大迭代次数
无进展检测
Token 或资金预算上限

循环的浪漫版本是：你编写好循环，一千个智能体就能在一夜之间帮你建立公司。现实版本则是：大部分工作都花在确保它们及时停止上。

循环 vs Cron：决策机制的差异¶

Cron 任务只是运行一个固定的脚本。而循环则运行一个模型：该模型会观察当前状态，决定下一步该做什么，执行该操作，检查是否成功，并决定是否继续运行。

决策权在于 Agent 本身，而非你，也非写死的分支逻辑。将这些循环堆叠起来，让一个循环负责调度并监督其他循环，赋予它们持久的共享状态，便拥有了 Cron 无法实现的功能。

可复用技能：循环的核心资产¶

Steinberger 的观点与循环配对：如果你做某件事超过一次，就将其转化为自动化技能；如果你做某件困难的事，事后将其转化为技能，这样下次做起来就更轻松。

循环是管道机制，而所谓的资产是它所调用的技能。一个内部没有可复用技能的循环，不过是一个"空转"的 while-true 循环。一个能够调用被打磨过、经过测试且命名明确的技能库的循环，则是一个能够产生复合效益的系统。

三大核心新逻辑¶

Matt Van Horn 总结了这次研究发现的重要模式：

一个循环其实相当于 Cron 加上一个决策机制：每个时间点上，都是模型来决定下一步该执行什么操作，而不是通过硬编码的方式来指定。
最昂贵的资源从 Token 转移到了循环管理上：需要限制迭代次数、检测无进展情况，并设定预算上限。
循环中的可复用单元是技能，而不是提示词。循环调用明确命名的技能会产生复合效益；而重新生成一切的只是燃烧金钱。

深度分析¶

1. Agent Loop：AI agent 的核心执行模式¶

OpenClaw 的 agent loop 设计模式总结了 AI agent 执行任务的核心循环：感知→推理→行动→观察。不同 loop 模式（单步、多步、递归、并行）适用于不同场景。

2. 与 Claude Code loop 的对比¶

Claude Code 的 agent loop 遵循"tool call → observation → reasoning → next tool call"模式，与 OpenClaw 的设计模式有相同基础但增加了 task boundary 检测和自动压缩。

3. 递归 loop 的风险¶

递归 loop（agent 调用自身）存在无限循环风险——需要设置递归深度限制和超时机制。与 Agent Security Three Step Sequence Harness Governance Identity Crewai 的 harness 约束对齐。

实践启示¶

1. 选择 loop 模式匹配任务复杂度¶

简单任务用单步 loop，复杂任务用多步 loop，需要子任务分解时用递归 loop。

2. 所有 loop 必须有退出条件¶

每个 agent loop 都应设置最大迭代次数、超时和成本上限——防止无限循环。

3. Loop 中的状态管理¶

多步 loop 需要维护跨步骤的状态——使用 working set / scratchpad 模式，避免上下文溢出。