OpenClaw 与 Claude Code 的 Agent Loop 设计范式¶
Ch04.237 OpenClaw 与 Claude Code 的 Agent Loop 设计范式¶
📊 Level ⭐⭐ | 10.0KB |
entities/openclaw-agent-loop-design-patterns.md原文归档:原文归档
OpenClaw 创始人 Peter Steinberger 与 Claude Code 创始人 Boris Cherny 都进入了"用循环设计取代手动提示"的编程阶段。这种范式的核心是:工程师不再直接给 LLM 下达指令,而是编写“循环”——一个小程序持续运行,读取 Agent 输出、判断完成状态、决定下一步操作。模型变成了循环内的一个子程序。
五级跃迁史:从 While 循环到多 Agent 编排¶
AI Coding 中的"循环"概念经历了五个阶段的演进,每一阶段都在前一阶段的基础上解决了新的问题,也引入了新的能力。
第一阶段:学术界 While 循环 (2022)¶
2022 年的 ReAct 论文 对此进行了形式化描述:模型进行推理,调用工具,读取结果,循环往复直至完成。这是最简单的模式:一个模型、一个循环、一个人在旁注视。
第二阶段:AutoGPT (2023)¶
AutoGPT 被赋予了目标并允许自行生成提示词,却因一直处于"空转状态"而闻名。这一失败埋下了"智能体是玩具"这一观点的种子,并延续了数年。
第三阶段:Ralph 循环 (2025)¶
Geoffrey Huntley 于 2025 年 7 月提出的 Ralph 循环,简单得令人不快——只是一行 Bash 命令,将同一个提示文件一遍又一遍地通过管道传入代理。
其真正的创新在于纪律性:每次迭代都会将上下文重置为一组固定的锚定文件,而不是让对话不断扩展。Huntley 仅花费约 297 美元,就用它构建了一整套编程语言。
第四阶段:产品化循环 (2026 春季)¶
2026 年春季,Codex 和 Claude Code 均推出了 /goal 命令,该命令会持续运行 Ralph 循环,直至一个小型验证模型确认任务完成为止。这标志着循环从工具进化为产品功能。
第五阶段:多 Agent 编排循环 (2026)¶
Boris 和 Steinberger 所指的"循环"是真正全新的,不仅仅是改了名字。有四点发生了变化:
- 循环成为工作单元,而非任务。循环开始同时并行地、按计划地监督其他循环。
- 计划调度取代人工启动,循环的运行依赖于基础设施的时间,而非你的注意力。
- 持久性变得显式化,基于 Git 的状态管理(git-backed state)和崩溃恢复机制能够在重启后仍然正常运行。
- 终端假设改变:Ralph 假设你的终端始终保持打开状态,而 2026 版本则假设终端不会保持打开状态。
单 Agent 的 Ralph 循环已经过时了,而构建在其之上的多 Agent 编排循环才是新事物。
Boris Cherny 的循环实操指南¶
Boris 提出了 5 条让 Opus 系统自动运行数小时或数天的技巧:
- 使用 auto mode来处理权限问题,这样 Claude 就不会请求批准。
- 使用动态工作流让 Claude 协调数百或数千个 Agent 来完成任务。
- 使用 /goal 或 /loop推动 Claude 持续执行直至任务完成。
- 在云端使用 Claude Code,这样就可以合上笔记本电脑。
- 确保 Claude 能够对工作进行端到端的自我验证。
其中第 5 点被特别强调——一个循环结构的可靠性,完全取决于它自我检验的能力。
与已有实体的关联¶
- OpenClaw 技术架构分析 — 本文补充了设计哲学层面的循环范式
- Agent 架构演进 — 可作为循环阶段的系统性补充
- Hermes Agent 0.14 架构 — 具体实现层面的循环机制
核心论点¶
从 Token 到循环管控¶
一旦模型编写代码几乎不花费什么,成本就转移到了运行它的循环上。Uber 在四个月内就耗尽年度 AI 预算,不得不对 Claude Code 和 Cursor 进行限制(每位工程师每月每使用一个工具只能花费 1500 美元)。
2026 年所有关于循环的严肃论述都指向三个共同的硬性限制:
- 最大迭代次数
- 无进展检测
- Token 或资金预算上限
循环的浪漫版本是:你编写好循环,一千个智能体就能在一夜之间帮你建立公司。现实版本则是:大部分工作都花在确保它们及时停止上。
循环 vs Cron:决策机制的差异¶
Cron 任务只是运行一个固定的脚本。而循环则运行一个模型:该模型会观察当前状态,决定下一步该做什么,执行该操作,检查是否成功,并决定是否继续运行。
决策权在于 Agent 本身,而非你,也非写死的分支逻辑。将这些循环堆叠起来,让一个循环负责调度并监督其他循环,赋予它们持久的共享状态,便拥有了 Cron 无法实现的功能。
可复用技能:循环的核心资产¶
Steinberger 的观点与循环配对:如果你做某件事超过一次,就将其转化为自动化技能;如果你做某件困难的事,事后将其转化为技能,这样下次做起来就更轻松。
循环是管道机制,而所谓的资产是它所调用的技能。一个内部没有可复用技能的循环,不过是一个"空转"的 while-true 循环。一个能够调用被打磨过、经过测试且命名明确的技能库的循环,则是一个能够产生复合效益的系统。
三大核心新逻辑¶
Matt Van Horn 总结了这次研究发现的重要模式:
- 一个循环其实相当于 Cron 加上一个决策机制:每个时间点上,都是模型来决定下一步该执行什么操作,而不是通过硬编码的方式来指定。
- 最昂贵的资源从 Token 转移到了循环管理上:需要限制迭代次数、检测无进展情况,并设定预算上限。
- 循环中的可复用单元是技能,而不是提示词。循环调用明确命名的技能会产生复合效益;而重新生成一切的只是燃烧金钱。
深度分析¶
1. Agent Loop:AI agent 的核心执行模式¶
OpenClaw 的 agent loop 设计模式总结了 AI agent 执行任务的核心循环:感知→推理→行动→观察。不同 loop 模式(单步、多步、递归、并行)适用于不同场景。
2. 与 Claude Code loop 的对比¶
Claude Code 的 agent loop 遵循"tool call → observation → reasoning → next tool call"模式,与 OpenClaw 的设计模式有相同基础但增加了 task boundary 检测和自动压缩。
3. 递归 loop 的风险¶
递归 loop(agent 调用自身)存在无限循环风险——需要设置递归深度限制和超时机制。与 Agent Security Three Step Sequence Harness Governance Identity Crewai 的 harness 约束对齐。
实践启示¶
1. 选择 loop 模式匹配任务复杂度¶
简单任务用单步 loop,复杂任务用多步 loop,需要子任务分解时用递归 loop。
2. 所有 loop 必须有退出条件¶
每个 agent loop 都应设置最大迭代次数、超时和成本上限——防止无限循环。
3. Loop 中的状态管理¶
多步 loop 需要维护跨步骤的状态——使用 working set / scratchpad 模式,避免上下文溢出。