Loop Engineering:不再写提示词,而是设计替你写提示词的循环——先写刹车再写循环(13 来源深度合并:Addy Osmani / Boris Cherny+Peter Steinberger / 教科书 / 若飞 工程现场 / TechFarrari 批判 / 若飞 实用指南 / 爱范儿 科普批判 / AllenTang Karpathy 尺子 / winty 7架构中文主流视角 / AutoResearch 5 决策 / 三层结构 + 三款产品对比 + Ralph Loop + 准备度总表 / Shubham Saboo PM 视角)¶
Ch05.002 Loop Engineering:不再写提示词,而是设计替你写提示词的循环——先写刹车再写循环(13 来源深度合并:Addy Osmani / Boris Cherny+Peter Steinberger / 教科书 / 若飞 工程现场 / TechFarrari 批判 / 若飞 实用指南 / 爱范儿 科普批判 / AllenTang Karpathy 尺子 / winty 7架构中文主流视角 / AutoResearch 5 决策 / 三层结构 + 三款产品对比 + Ralph Loop + 准备度总表 / Shubham Saboo PM 视角)¶
📊 Level ⭐⭐ | 111.3KB |
entities/loop-engineering-addy-osmani-challengehub.md
created: 2026-06-10 updated: 2026-06-24 review_value: 10 review_confidence: 9 review_recommendation: strong provenance_state: merged sources: [raw/articles/loop-engineering-addy-osmani-challengehub, raw/articles/loop-engineering-infoq-boris-cherny-peter-steinberger, raw/articles/loop-engineering-peter-steinberger-boris-cherny, raw/articles/loop-engineering-工程现场-ruofei, raw/articles/loop-engineering-techferrari-prompt-is-dead-2026, raw/articles/loop-engineering-practical-guide-brakes-first-ruofei-2026-06-15, raw/articles/loop-engineering-14-step-roadmap-aitechliwen-2026-06-16, raw/articles/loop-engineering-ifanr-popular-science-critique-2026-06-16, raw/articles/loop-engineering-karpathy-autoresearch-eval-ruler-allentang-2026-06-16, raw/articles/7-agent-architectures-loop-engineering-winty-2026-06-18, raw/articles/loop-engineering-autoresearch-claude-code-five-decisions-2026-06-18, raw/articles/loop-engineering-three-layers-decision-framework-product-comparison-ralph-2026-06-18, raw/articles/loop-engineering-pm-shubham-saboo-2026]---
原文存档:原文存档
Loop Engineering:比 Harness 更高一层的编程范式¶
Addy Osmani 提出 Loop Engineering——比 Agent Harness Engineering 再高一层的抽象:不再是人给智能体写提示词,而是设计一套系统替你写提示词。Peter Steinberger 和 Claude Code 负责人 Boris Cherny 均已实践此模式。
核心定义¶
循环 = 递归式目标:你定义目的,AI 不断迭代直到完成。与 Harness 的关系:Harness 是给单个智能体打造运行环境;Loop 是定时跑的框架,会自己派生子智能体、自己喂自己。Loop > Harness > Prompt。
五模块 + 记忆(Codex / Claude Code 通用)¶
| 零件 | 作用 | Codex | Claude Code |
|---|---|---|---|
| 自动化任务 | 心跳:定时发现+分类 | Automations 标签页、/goal | cron、/loop、/goal、hooks |
| 工作树 | 并行隔离 | 线程内置 | git worktree、isolation: worktree |
| 技能 | 项目知识固化 | SKILL.md、$name | SKILL.md |
| 插件/连接器 | 接真实工具 | MCP 连接器 + 插件 | MCP 服务器 + 插件 |
| 子智能体 | 干活+检查分离 | .codex/agents/ TOML | .claude/agents/ + 团队 |
| 记忆 | 跨会话状态 | Markdown / Linear | AGENTS.md / MCP→Linear |
关键洞察:两个产品形态完全一致——一旦发现零件相同,就不再纠结工具选择,只管设计循环。
/goal 的验证者分离设计¶
/goal 不是干活的模型自己判断完成——而是独立小模型验证。这是"干活和检查分开"直接套用到停止条件上。
深度分析¶
Loop vs Harness:层级关系而非替代¶
Loop Engineering 不是 Harness 的替代品,而是 Harness 之上的编排层。Harness 解决单个 Agent 的环境约束(CLAUDE.md、hooks、权限);Loop 解决多个 Agent + 自动化 + 状态追踪的系统级编排。映射到已有 wiki 概念:Harness = 单 Agent 约束系统;Loop = 多 Agent + cron + 状态 + 自驱动。
技能的"复利效应"¶
没有技能的循环 = 每轮冷启动,从零推导项目约定;有技能的循环 = 知识写在 SKILL.md 里,每轮自动读取,形成认知复利。这与 Intent Debt(意图债)概念对应:技能就是把意图外化到磁盘,避免每轮重新猜测。
三个循环搞不定的问题¶
- 验证仍在人头上:"做完了"是声明不是证明——Agent 可靠性的核心挑战
- 理解债(Comprehension Debt):循环越快交付你没写的代码,"真实存在"和"你实际搞懂"的鸿沟越大
- 认知投降(Cognitive Surrender):最舒服的姿势恰最危险——循环给啥收啥。设计循环带判断力=解药;为逃避思考=助燃剂
实践启示¶
- 先用
/loop跑低风险自动化(issue 分类、CI 汇总),验证稳定后再扩大范围 - 状态文件是脊梁骨:记试过什么、什么过了、什么还开着,明天从今天停下处继续
- 技能描述要"紧凑无聊"而非"花哨"——精准匹配触发比华丽文案更重要
相关实体¶
→ 原文存档
第 2 来源:InfoQ 褚杏娟「AI编程又变天了」(2026-06-09)¶
InfoQ 对同一 Loop Engineering 事件的深度报道,侧重工程实现细节、社区争议和生产落地痛点。与第 1 来源(Addy Osmani 概念框架)互补,本来源提供了 Claude Code Loops 的完整技术规格和 Anthropic 内部前沿架构。
核心创新 / 关键数据¶
- Claude Code Loops 技术规格:
/loop命令创建循环,/loops查看活跃循环,/stop [ID]终止;最小间隔 1 分钟,最长 3 天自动停止;绑定当前会话(非持久化),关闭终端即停止;Loops 保留上下文窗口、工具权限和 MCP 连接(vs 外部 cron 冷启动) - Boris Cherny 工作流:夜间运行"几千个"AI Agent,通过 Claude App 管理;Loops(本地 cron 触发)+ Routines(服务器端周期性任务)
- 生成器—评估器—规划器结构(Anthropic 内部前沿):借鉴 GAN 思想,评估器拥有独立上下文 + 用 Playwright 真实测试(非读 diff);"品味"量规化——设计/原创性/工艺/功能性四维评分,随模型能力调整权重
- Token 成本量化:1 分钟间隔 × 8 小时 = 480 次 API 调用;Opus 循环 vs Haiku 循环的成本差异
对照表:两篇来源维度对比¶
| 维度 | 第 1 来源(ChallengeHub/Addy Osmani) | 第 2 来源(InfoQ/褚杏娟) |
|---|---|---|
| 核心叙事 | Loop Engineering 概念框架 + 五模块对照 | Loop Engineering 社区事件 + 工程实现 |
| Claude Code Loops 技术 | cron + /loop + /goal 简述 | 完整命令规格 + 会话绑定机制 + 安全限制 |
| Codex 对比 | Automations 标签页 | 无原生循环命令(vs Claude Code /loop//loops//stop) |
| Token 成本 | 未涉及 | 480 次/8h 量化 + Opus vs Haiku 循环 + $20 套餐不够 |
| 生产痛点 | 理解债 + 认知投降(概念层) | 47 轮状态机调试难 10 倍 + 迁移陷阱(实战层) |
| Anthropic 内部架构 | 未涉及 | 生成器-评估器-规划器 + "品味"量规 + Playwright 验证 |
| 长时间运行演进 | 未涉及 | 20 分钟→数天 + 上下文腐烂 + 新会话→长会话+压缩 |
| 社区反应 | 未涉及 | Garry Tan "非富士康" + "金字塔骗局" + 迁移后悔 |
| 反馈机制 | 概念提及 | SPEC 文件 + 测试/类型检查/真实错误说"不" |
与已有 source 呼应¶
- 生成器—评估器—规划器结构(第 2 来源独有)与第 1 来源"验证者分离设计"深度呼应:
/goal的独立小模型验证是生产级实例,而 GAN 式对抗架构是更通用的理论框架——两者都指向"干活和检查分开"的核心原则。 - Claude Code Loops 会话绑定机制(第 2 来源独有)补全了第 1 来源"五模块对照表"中缺少的关键技术细节:Loops 保留上下文窗口、工具权限和 MCP 连接——这不是简单的 cron 封装,而是有状态持续会话。
- Token 成本量化(第 2 来源独有)为第 1 来源"三个搞不定的问题"增加了经济维度:理解债和认知投降的前提是"有 token 烧",但 $20 套餐 + 480 次/8h = 大多数团队的实际约束。
实践启示¶
- Loops 从低风险自动化开始:issue 分类、CI 汇总,验证稳定后再扩大——与第 1 来源一致但更具体
- 47 轮状态机调试比 prompt 难 10 倍:大多数人连可靠的一次性 prompt 都写不好,先别急着上 Loop
- SPEC 文件作为 Loop 的"说不了"机制:Peter Steinberger 的实践——设计 loop 只完成一半,另一半是放入能说"不"的机制
- 评估器用 Playwright 而非读 diff:真实打开网页、点击、截图——比代码级自查更可靠
- "品味"可评分:设计/原创性/工艺/功能性四维,随模型能力调整权重——Opus 4.6 功能性已强,评估侧重设计和原创性
→ 第2原文存档
第3 来源:微信公众号「ps. Harness Engineering还没熟,Loop Engineering 又要来了」(2026-06-10)¶
微信端的 Loop Engineering 系统梳理文章,侧重完整的5阶段骨架、开放 vs封闭循环的区分、Fleet循环架构、6 构建模块体系化、以及 token经济学深度量化。与第1 来源(Addy Osmani概念框架)+ 第2 来源(InfoQ事件报道)互补,本来源提供了教科书式的结构化梳理——把 Boris Cherny 和 Peter Steinberger 的"loop"主张扩展为可教学的工程范式。
核心创新 /关键数据¶
- 5阶段循环骨架:发现 →规划 →执行 →验证 →迭代(通过验证就交付,未通过就继续循环)——这是 Loop Engineering 最底层的循环结构,前2 来源都未明确给出
- 单 Agent循环 vs Fleet循环:单 Agent是一个人反复修改草稿,Fleet是编排者 →专家 Agent → 子 Agent 的整棵树协同——为 AHE 的多 Agent进化框架提供了非进化的"实例"对照
- 2026 年最重要的区分:开放 vs封闭循环:开放循环 token消耗巨大(每周数百万),适合探索;封闭循环有边界 +评估门禁 +停止点,适合生产。没有质量门禁 AI 会漂移,有了质量门禁 AI 会改进——这是与第2 来源"三个搞不定的问题"中"验证仍在人头上"的工程答案
- 6 构建模块体系化:Automations(心跳)、Worktree(隔离)、Skills(项目知识)、Plugins/Connectors(落地)、Subagents(验证诚实)、Memory(持久性)——与第1 来源"五模块对照表"对照,本来源多出"Worktree"作为独立模块,且明确定义每个模块对应5阶段中的哪个
- Token经济学深度量化:单 Agent5-20万 /任务;Fleet50-200万 /任务;每天早上定时跑 →每周数百万 token;认真做一周 Loop工程的成本可超过月预算——为第2 来源"Opus vs Haiku成本差异"提供了更系统的总账
- Prompt工程师 vs Loop工程师对比表:从语言能力 →软件工程能力,从单次输出 →持续验证,从人当反馈循环 →系统当反馈循环——这是 Boris Cherny "我的工作就是写循环"的具体能力映射
- AI 工程四次重心演进:Prompt Engineering → Context Engineering → Harness Engineering → Loop Engineering——补全了 Harness Engineering框架 中"三次重心演进"的最新第四阶段
- 低成本模型战略价值:DeepSeek、Kimi、MiniMax 等让 Agent循环在经济上变得可行——百万上下文 + 低 token定价是 Loop Engineering普及的物质基础
三来源维度对比表¶
| 维度 | 第1 来源(Addy Osmani) | 第2 来源(InfoQ) | 第3 来源(微信公众号) |
|---|---|---|---|
| 核心定位 | 概念框架 +5 模块对照 | 事件报道 + 工程实现细节 | 系统梳理 +教科书式分类法 |
| 5阶段骨架 | 隐含(验证者分离) | 未明示 | 明确列出:发现→规划→执行→验证→迭代 |
| 单 Agent vs Fleet | 未涉及 | 未涉及 | 明确二分:单 Agent 像个人改草稿,Fleet 像团队端到端 |
| 开放 vs封闭循环 | 未涉及 | 未涉及 | 2026 年最重要的区分:开放消耗大、封闭可控 |
| 6 构建模块 | 5 模块(少 Worktree) | 技术规格细节 | 6 模块 + Worktree独立 + 对应5阶段 |
| Token经济学 | 未量化 | 480次/8h + Opus vs Haiku | 系统量化:5-20万/50-200万/数百万/周 + 月预算门槛 |
| AI 工程演进谱系 | Loop > Harness > Prompt | 未涉及 | 4阶段谱系:Prompt → Context → Harness → Loop |
| 低成本模型价值 | 未涉及 | 未涉及 | 战略意义:DeepSeek/Kimi/MiniMax 是循环经济物质基础 |
| 生产痛点 | 理解债 +认知投降 | 47轮状态机难调试 | 从封闭循环开始:先质量门禁,再逐步放开 |
与已有 source呼应¶
- 5阶段骨架(第3 来源独有)为前两来源的模块设计提供了底层解释:为什么需要"验证者分离"——因为5阶段中的验证是独立阶段;为什么需要"记忆"——因为下一次发现的输入是上一次的输出。5阶段骨架是其他所有模块设计的理论根基
- 封闭循环 +质量门禁(第3 来源独有)与第2 来源"理解债/认知投降"形成完整闭环:理解债是封闭循环失控的产物,质量门禁是封闭循环的安全阀——两者结合起来给出"先封闭 →评估门禁 →再开放"的工程实施顺序
- 6 构建模块(第3 来源独有)补全第1 来源"五模块"中 Worktree 的缺位:Worktree 是隔离并行执行的关键,对应"执行"阶段——在 Fleet循环中尤其关键(多个子 Agent 同时编辑时)
- Token经济学系统量化(第3 来源独有)把第2 来源"Opus vs Haiku"和"480次/8h"的具体数字串联为完整成本结构:单 Agent → Fleet →定时循环的三级成本递增,为循环经济门槛提供了预算决策框架
- AI 工程4阶段演进谱系(第3 来源独有)补全了 Harness Engineering框架 的"3阶段演进"——Loop Engineering 是 Harness 之上的第4 层抽象,与 AHE 共同构成 Harness 的两个延伸方向(AHE = 自动进化 Harness;Loop = 设计自驱 Harness)
- 低成本模型战略意义(第3 来源独有)解释了2026 年开源模型崛起的部分原因:不是模型能力突破,而是循环经济的可负担性——为 harness缩小开源闭源 bug-finding gap 提供了经济学视角
实践启示¶
- 设计循环先于写 prompt:任何"我希望 Agent持续做这件事"的需求,先问自己能否设计为封闭循环——先搭框架(goal + verify + iterate),再考虑开放
- 从封闭循环开始:不要一开始就构建开放循环——token成本会失控;先用质量门禁 +评估器约束住行为空间
- 6 模块缺一不可:不要试图用"一个 LLM + 一个 prompt"搭建循环——6 模块是 Claude Code / Codex验证的最小必要集
- 检查者与制作者必须分离:让生成代码的模型验证自己的产出几乎必然失败;让不同 Agent(甚至不同模型)做 evaluator
- 记忆是循环的脊柱:第 N 次循环要知道前 N-1 次已尝试过什么——这是24h Agent 工作流的最小必要条件
- 成本可负担性是隐形门槛:设计循环时考虑 (a)上下文窗口 (b) 单次循环 token 上限 (c)每周总预算;国产低成本模型 +百万上下文是2026 年最优组合
- Loop工程师 = Harness工程师 + 系统思维:从"设计一次任务的执行边界"升级到"设计跨多次任务的反馈机制"——工具一致,视角升级
Loop Engineering关键结论(合并4 来源)¶
- 范式已转移:手动 prompt → Harness → Loop,下一站是 Loop Engineering
- 5阶段骨架 +6 构建模块 是循环工程的最小必要集
- 封闭循环先行——质量门禁是 AI 不漂移的唯一保障
- Fleet循环 = 多 Agent嵌套——编排者 →专家 → 子 Agent,每层都跑完整循环
- 检查者 ≠ 制作者——evaluator必须是不同的 Agent(甚至不同的模型)
- 记忆是脊柱——第 N 次循环知道前 N-1 次已尝试过什么
- Token 经济是隐形门槛——低成本模型 +百万上下文让循环经济可行
- Loop工程师 = Harness工程师的下一个版本——核心差异是"持续性"而非"单次稳定性"
- AI 工程4阶段谱系:Prompt → Context → Harness → Loop,Loop Engineering 是当前最新抽象
- 一个可靠的循环,胜过一千个完美的提示——这是 Loop Engineering 的最终宣言
- 5 项准入表 + 5 条保守原则(若飞独家):用 5 行 × 2 列的工程检查项决定能否上 loop;用 5 条保守原则(先只读/先低风险/先小频率/先人工/先写停止条件)保住系统不漂移
- plan.md 状态记忆模板(若飞独家):当前目标 / 已尝试 / 已验证 / 禁止事项 / 下一步——对话之外的"工程继续"载体
→ 第3原文存档
第 4 来源:微信公众号「架构师 JiaGouX」若飞「Loop Engineering 详解:把反馈循环放进工程现场」(2026-06-11)¶
若飞是「架构师」公众号主笔,长期写 Harness Engineering 系列(前文《长周期 Agent 详解》《5 张卡治理框架》《再看 Harness Engineering》三篇已合并入 Long Running Agent Ralph Loop Handover Harness Ruofei,这是他 Loop Engineering 主题的首篇完整论述)。本来源侧重工程落地视角:5 项准入表、5 条保守原则、7 天试点模板、plan.md 状态记忆——是前 3 来源(Addy Osmani 概念 + InfoQ 事件 + 微信公众号教科书)都未涉及的实操层。
核心创新 / 关键数据¶
- 核心命题:"提示词解决的是'下一句话怎么说',loop 解决的是'这件事怎么持续做、怎么知道做对、什么时候停'"——这是 Loop Engineering 一句话定位,前 3 来源都未给出
- 5 样必备 + 1 条状态记忆:自动触发 / 隔离工作区 / 过程资产 / 外部连接 / 独立验证 + 状态记忆(plan.md / issue / 看板 / 日志)——是 6 模块体系(第 3 来源)的最简化版本,便于团队快速记忆
- Addy Osmani 5 模块 → 6 工程问题翻译(若飞独家):把 5 模块细化为 6 个具体工程问题(什么时候启动 / 在哪里改 / 按什么规则做 / 能连到哪里 / 谁来复核 / 怎么接上下一轮),每个问题对应"对应能力 + 解决的风险"——这是 Loop 工程化的实操转换层,前 3 来源都未给出
- 4 个架构口(若飞独家):把 6 问题聚合成 4 个"架构口"——触发入口 / 执行沙箱 / 验收出口 / 状态账本——是 Loop 系统设计的4 类必选模块
- 5 项准入表(第 1 个核心原创):输入稳定 / 输出可分类 / 验证可自动化 / 权限可隔离 / 停止条件可写——"五项里只要有两项落在右边,我一般会先补测试、补状态、补边界,再考虑自动 loop"——前 3 来源都未给出
- 任务卡模板(与 5 张卡治理互补):循环名称 / 触发频率 / 输入范围 / 最大运行 / 最大分支 / 权限 / 验证 / 停止条件 / 交付物——9 项单次 loop 边界卡片,前 3 来源都未给出
- plan.md 状态记忆模板(第 2 个核心原创):当前目标 / 已尝试 / 已验证 / 禁止事项 / 下一步——5 段式状态文件,让下一轮 loop 接上前一轮;"没有状态记忆,loop 就会变成一串断开的 prompt。看起来连续,实际上每轮都在重新开始。"
- 5 条保守原则(第 3 个核心原创):先只读 / 后写入 / 先低风险 / 后核心路径 / 先小频率 / 后高频率 / 先人工确认 / 后自动合并 / 先写停止条件 / 再写继续条件——"很多自动化出问题,不是因为不会继续,而是因为不知道什么时候停"
- 7 天试点模板(第 4 个核心原创):选场景 → 写任务卡 → 做 Skill → 接状态记忆 → 跑一次手动 loop → 加自动触发 → 复盘——是 Loop 团队落地的最小可执行路径,前 3 来源都未给出
- 复盘 5 指标(第 5 个核心原创):命中率 / 误报率 / 回滚率 / 成本 / 证据——"人能在 5 分钟内复核一轮"作为证据指标门槛,呼应第 2 来源"评估器必须能说'不'"
- 成熟 loop 的"诚实回答"清单:"我没有足够证据继续 / 这次修改超过了授权范围 / 预算已经到达 / 验证结果不稳定 / 需要人做产品判断"——比起"我继续试试",这种回答更接近工程系统——这是把"停止条件"具体化的可操作话术,前 3 来源都未给出
- 人在场的位置:"Loop 越强,人的判断越要提前出现"——若飞反驳"loop = 人拿掉"误读,把"目标、边界、预算、证据、停止条件"前置为规则 / 模板 / 权限 / 预算 / 停止条件——前 3 来源都未涉及
四来源维度对比表¶
| 维度 | 第 1 来源(Addy Osmani) | 第 2 来源(InfoQ) | 第 3 来源(微信公众号) | 第 4 来源(若飞 架构师 JiaGouX) |
|---|---|---|---|---|
| 核心定位 | 概念框架 + 5 模块对照 | 事件报道 + 工程实现细节 | 系统梳理 + 教科书式分类法 | 工程落地 + 实操模板 + 试点方法论 |
| 5 阶段骨架 | 隐含(验证者分离) | 未明示 | 明确列出:发现→规划→执行→验证→迭代 | 未涉及 5 阶段,但加 4 架构口(触发入口/执行沙箱/验收出口/状态账本) |
| 模块体系 | 5 模块(少 Worktree) | 技术规格细节 | 6 模块 + Worktree 独立 | 5 样必备 + 1 状态记忆(最简化版) |
| 工程问题翻译 | 未涉及 | 未涉及 | 未涉及 | Addy 5 模块 → 6 工程问题(含"对应能力 + 解决的风险") |
| Token 经济学 | 未量化 | 480 次/8h + Opus vs Haiku | 5-20 万/50-200 万/数百万/周 | 任务卡含"最大运行 30 分钟 / 最大 5 失败簇 / 默认只读"——具体边界 |
| AI 工程演进谱系 | Loop > Harness > Prompt | 未涉及 | 4 阶段谱系:Prompt → Context → Harness → Loop | Loop > Harness > Prompt(与第 1 来源同,但加 3 层关系图) |
| 开放 vs 封闭循环 | 未涉及 | 未涉及 | 2026 年最重要的区分 | 闭环先行、开环后置(强倾向,呼应第 3 来源) |
| 准入判断 | 未涉及 | Loops 从低风险自动化开始 | 从封闭循环开始 | 5 项准入表(5 行 × 2 列:输入/输出/验证/权限/停止) |
| 状态记忆 | 概念提及 | SPEC 文件 | 记忆是脊柱 | plan.md 5 段式模板(当前目标/已尝试/已验证/禁止/下一步) |
| 人在场 | 验证仍在人头上 | SPEC 文件 + 测试说"不" | 封闭循环 + 质量门禁 | 5 条保守原则 + 成熟 loop 的"诚实回答"清单 |
| 试点方法论 | 未涉及 | 47 轮状态机调试难 10 倍 | 设计循环先于写 prompt | 7 天试点模板(选场景/写任务卡/做 Skill/接状态/手动/自动触发/复盘) |
| 复盘指标 | 未涉及 | 社区反应:48 轮后悔 | 从封闭循环开始 | 复盘 5 指标(命中率/误报率/回滚率/成本/证据) |
| 同作者系列衔接 | N/A | N/A | N/A | 衔接 Long Running Agent Ralph Loop Handover Harness Ruofei(若飞 Harness 系列 3 篇) |
与已有 source 呼应¶
- 5 项准入表(第 4 来源独家)与第 3 来源"封闭循环 + 质量门禁"形成工程实施桥梁:封闭循环是原则,5 项准入表是落地检查清单——"五项里只要两项落在右边,先补测试、补状态、补边界"是封闭循环原则的可操作版本
- plan.md 状态记忆模板(第 4 来源独家)补全了第 2 来源"SPEC 文件"和第 3 来源"记忆是脊柱"的实操形态:第 2/3 来源只说"记忆重要",第 4 来源给具体 5 段式 Markdown 模板——可直接拷贝到项目里
- 5 条保守原则(第 4 来源独家)是第 1/2/3 来源"高质量门禁"思想的具体化:第 1 来源说"质量门禁是 AI 不漂移的唯一保障"是结论,第 4 来源给出 5 条可执行的"如何保证门禁不被绕过"原则
- 7 天试点模板(第 4 来源独家)补全了第 3 来源"设计循环先于写 prompt"和第 2 来源"Loops 从低风险自动化开始"——前 2 来源是原则(先设计 / 先低风险),第 4 来源给具体 7 天时间表
- Loop > Harness > Prompt 三层关系图(第 4 来源独家 图 2)与 Long Running Agent Ralph Loop Handover Harness Ruofei 的 5 层架构(Model / Tool / Skill / Sub-agent / Harness)直接衔接——若飞把 Harness 定位为"这一次任务怎么跑",Loop 定位为"这类任务怎么持续发生"——这是同作者体系内最自然的延伸,前 3 来源都未给具体关系图
- 任务卡 9 项模板(第 4 来源独家)与 Long Running Agent Ralph Loop Handover Harness Ruofei 的 5 张卡治理框架(身份/项目/记忆/Skill/运行)正交互补——5 张卡是工作流的 5 个角色层,任务卡是单次 loop 运行的 9 项边界——后者放在 5 张卡的"运行卡"内执行
- 成熟 loop 的"诚实回答"清单(第 4 来源独家)把第 3 来源"Loop 工程师 = Harness 工程师的下一个版本"具体化——Harness 工程师需要能写"评估器",Loop 工程师需要能写"诚实拒绝"——这是职业能力升级
- Gergely Orosz / Garry Tan / Graham Neubig / AlphaSignal 反方观点(若飞独家整合)——若飞主动把反方观点纳入分析:Gergely "团队没有无限 token"、Garry Tan "不要把 Agent 做成机械重复工厂"、Graham Neubig "人先过一遍任务清单"、AlphaSignal "大多数开发者还不急着把 Agent 放进 loop"——这与第 1/2/3 来源的"乐观叙事"形成对照,若飞本文的最大价值之一是平衡呈现反方声音
- 事实核验 / CI 分流 / 文档检查 / 重复故障归类 / 依赖升级预检查 5 类试点场景(若飞独家)——具体到任务类型的"哪些场景适合先入 loop"清单——前 3 来源都未具体到任务级
实践启示¶
- 用 5 项准入表过滤:"五项里只要两项落在右边,先补测试、补状态、补边界"——这是 loop 团队决策的最快路径
- 用 plan.md 5 段式模板:"当前目标 / 已尝试 / 已验证 / 禁止事项 / 下一步"——直接复制到项目根目录
plan.md,每周复盘一次 - 用 5 条保守原则顺序启动:"先只读 → 后写入;先低风险 → 后核心路径;先小频率 → 后高频率;先人工确认 → 后自动合并;先写停止条件 → 再写继续条件"——按此顺序逐步放开 loop
- 用 7 天试点时间表落地:"第 1 天选场景 → 第 2 天写任务卡 → 第 3 天做 Skill → 第 4 天接状态记忆 → 第 5 天手动 loop → 第 6 天加自动触发 → 第 7 天复盘"——是 loop 团队试点的最小可执行路径
- 用 5 指标复盘:"命中率 / 误报率 / 回滚率 / 成本 / 证据"——前 4 项是经济维度,第 5 项是工程伦理("人能在 5 分钟内复核一轮"是证据指标门槛)
- 用"诚实回答"清单训练 loop:"我没有足够证据继续 / 这次修改超过了授权范围 / 预算已经到达"——把"停止条件"具体化为可触发话术,让 loop 能自我暂停
- Loop 与 Harness 同等重要,不互相替代:"写 Harness 时,我们聊的是状态边界和失败闭环;写 Loop Engineering,我们换了一个说法:工作现场能不能定期醒来"——若飞本文最大启示是 Harness + Loop 是同一体系的两层,不应分开看
→ 第4原文存档
第 5 来源:微信公众号「TechFarrari」"当 AI 圈开始聊 Loop:提示词工程已死,但杀死它的不是新技术" (2026-06-15)¶
TechFarrari 公众号 2026-06-15 10:30 发布的独立解读,作者是 TechFarrari 本人。与前 4 来源(Addy Osmani / InfoQ / 微信公众号教科书 / 若飞 架构师)的最大差异是:
- 前 4 来源 都是"如何设计 loop"的正面叙事(加模块、加工具、加方法论)
- 第 5 来源 是"为什么 loop 不能盲信"的批判视角 + 跨域应用案例 + 生命周期短预言
本文侧重 5 个独特贡献: ① 范式迁移叙事 (prompt→context→harness→loop) ② 6 问工程化翻译 ③ 责任批判视角 ④ 跨域应用(内容选题 loop / 数字主编) ⑤ 生命周期短预言(Loop Engineering 大概率撑不过年底)。
核心创新 / 关键数据¶
- 范式迁移叙事 4 阶段谱系(第 5 来源独家叙事架构):
- 2023 Prompt Engineering → 2024 Context Engineering → 2026 初 Harness Engineering → June 2026 Loop Engineering
- 这是对前 4 来源"Loop > Harness > Prompt"层级关系的时间维度补全——前 4 来源给"层级",第 5 来源给"演进时间线"
- 关键金句:"过去两年 AI 圈的名词变迁史,本身就是一部'人的位置怎么被一步步往后推'的历史"
-
与第 1 来源(Addy)同判:Loop 取代 Harness 主导地位,但第 5 来源加了"半年观察期"
-
6 问工程化翻译(第 5 来源 vs 第 1 来源 Addy 5 模块):
- Addy 给"5 块积木 + 1 记忆" — 第 5 来源翻译为"6 个问题"
- 6 问 = 谁来叫醒(调度) / 多 Agent 怎么不打架(隔离) / AI 怎么知道你们平时怎么干活(规则) / 能碰到本地外吗(连接) / 谁来看它做得好不好(验证) / 怎么记住昨天做到哪了(记忆)
- 与第 4 来源(若飞)6 工程问题翻译完全一致——若飞 + TechFarrari 独立给出了相同的 6 问翻译,这是模式收敛信号:6 问框架是 Addy 5 模块的"自然工程化映射"
-
第 5 来源金句:"不会自己启动的,不叫 loop,顶多算你'设定时的定时任务'""大部分人的 loop 之所以失败了也没人知道,就是因为只布置了任务,没布置起床闹钟"
-
"难的不是技术,是责任没跟着走"批判视角(第 5 来源独家):
- 47 轮 loop 状态空间回溯崩溃(对比第 2 来源 InfoQ 47 轮状态机难调试 + 第 3 来源"47 轮 loop 出了事你不敢想")
- 责任迁移的 3 层分析:成本 / 隐蔽代价 / 商业动机
- 商业动机金句:"AI 圈现在这批造词的人,同时也是卖工具的人。 他们告诉你用 loop 就能省时间、解放生产力。但每次循环多跑一圈,就意味着多花一份 token 钱。你省下来的时间,本质上是用更多 compute 换的。这个账,他们算过,但不会主动告诉你。"
- 责任迁移警告:"你从'写 prompt 的人'变成了'设计系统的人',听起来是升职了,实际上是你活变多了,责任变大了,但没人给你加工资。"
-
与前 4 来源对比: 前 4 来源没有一篇对 loop 提出成本/责任/商业动机的批判,全部都是"如何更好设计"的正面叙事
-
跨域应用案例:内容选题 loop / 数字主编(第 5 来源独家实战):
- 案例:"每天凌晨 4 点,Bot 开始抓取前一天的行业新闻,跑一遍摘要,对比 3 家竞品的动态,早上 8 点前出选题会 agenda"
- 7 步流程:清晨定时扫新闻源 → 挑出值得看的 → 补上来源 → 摘核心观点 → 标争议点 → 资料不够的标红 → 串成选题清单
- 价值: "一个编辑不再花 60% 的时间在'找',而是用那 60% 的时间在'判断'"
- 跨域通用条件(第 5 来源总结):任务会重复 / 流程相对稳定 / 结果有一部分能自动检查
-
跨域应用清单(原文):内容选题 / 运营 / 客服 / 产品分析
-
生命周期短预言(第 5 来源独家元评论):
- "Loop Engineering 这个词大概率撑不过年底的。"
- 类比: Prompt / Context / Harness 都已被更热词替代
- 但 Boris + Addy 共识不会过时:"人和它的协作方式,必须从一轮一轮的对话,升级成一个能自己运转的闭环"
- 工程师分流预言:"你可以做那个始终在场、理解每一行代码在发生什么的工程师。也可以做那个只负责按开始键、然后看着代码越堆越多的人。选哪个,没有标准答案。但得知道自己选的是哪个。"
五来源维度对比表¶
| 维度 | 第 1 来源(Addy Osmani) | 第 2 来源(InfoQ) | 第 3 来源(微信公众号教科书) | 第 4 来源(若飞 架构师) | 第 5 来源(TechFarrari) |
|---|---|---|---|---|---|
| 核心定位 | 概念框架 + 5 模块对照 | 事件报道 + 工程实现细节 | 系统梳理 + 教科书式分类法 | 工程落地 + 实操模板 + 试点方法论 | 批判视角 + 跨域应用 + 生命周期短预言 |
| 范式叙事 | 隐含(Loop > Harness > Prompt) | 未涉及 | 4 阶段谱系:Prompt → Context → Harness → Loop | Loop > Harness > Prompt(3 层关系图) | 4 阶段时间线叙事(2023→2024→2026 初→June 2026) |
| 6 问翻译 | 未涉及(原 5 模块) | 未涉及 | 未涉及 | 6 工程问题(独家) | 6 问翻译(与第 4 独立收敛) |
| 责任批判 | 隐含(质量门禁是 AI 不漂移的唯一保障) | 47 轮状态机难调试 10 倍 | Loops 从低风险自动化开始 | 5 条保守原则 / 诚实回答清单 | 47 轮 loop 状态空间崩溃 + 商业动机批判(独家) |
| 成本量化 | 未量化 | 480 次/8h + Opus vs Haiku | 5-20 万/50-200 万/数百万/周 | 任务卡含"最大运行 30 分钟" | "原来 1 块钱干一件事,现在 1 块钱建个机器干十件事"(定性比喻) |
| 跨域应用 | 未涉及 | 未涉及 | 未涉及 | 5 类试点场景(事实核验/CI 分流/...) | 内容选题 loop / 数字主编 + 跨域 3 条件(独家) |
| 生命周期 | 未涉及 | 未涉及 | 未涉及 | 未涉及 | "Loop Engineering 撑不过年底"预言 + 半年观察期(独家) |
| 人在场 | 验证仍在人头上 | SPEC 文件 + 测试说"不" | 封闭循环 + 质量门禁 | 5 条保守原则 + 诚实回答 | 工程师分流预言(始终在场 vs 按开始键,独家) |
| 7 天试点 | 未涉及 | Loops 从低风险自动化开始 | 设计循环先于写 prompt | 7 天试点模板(选场景/写任务卡/...) | 未涉及 7 天,加 5 类跨域场景分类 |
与已有 source 呼应¶
- 6 问翻译的"模式收敛"(第 5 来源 + 第 4 来源若飞 独立给出): Addy 5 模块的 6 工程化翻译,被两个独立公众号(架构师 + TechFarrari)同时给出,强烈信号这是 Loop Engineering 的"自然认知映射"——非偶然。这与 Harness Engineering Framework 的"3 阶段演进谱系"被 4+ 个 entity 独立复述的模式一致
- 责任批判补全了前 4 来源的"乐观叙事"(第 5 来源独家视角): 前 4 来源(Addy / InfoQ / 微信公众号教科书 / 若飞)都集中在"如何设计更好 loop",没有一篇对 loop 提出成本/责任/商业动机的批判——第 5 来源填补了"loop 局限性的诚实讨论"维度。这是 Loop Engineering 主题"五维分析"(概念 / 工程 / 落地 / 批判 / 跨域)的最后一块拼图
- 跨域应用案例(第 5 来源独家): 与 Harness Engineering 在 SaaS / DevOps / 客服 / 编程 的多领域应用模式相同,Loop Engineering 也已扩展到内容选题。这是 Loop 工具链成熟的标志——"凌晨 4 点 bot → 8 点选题会 agenda"是 24h Agent 工作流在内容产业的真实落地
- 范式迁移叙事 4 阶段时间线(第 5 来源独家): 与前 4 来源的"Loop > Harness > Prompt"层级关系互为表里——前 4 来源给"层级",第 5 来源给"时间线",合起来是"Loop 演化的完整画像"
- 生命周期短预言(第 5 来源独家): 与 Anthropic 缓存 Token 经济 等 raw 中对"AI 圈造词速度"的批评态度一致——"每过几个月就有个新词,每个新词都宣称自己要杀死上一个"——但保持冷静的"造词速度观察期"是工程师理性态度
- 商业动机批判(第 5 来源独家): 与 纳德拉「Token 资本」论 的"前沿模型 ≠ 价值"警告同源——都反对"造词 = 价值"的偷换;与 Fable 5 Runtime Contract 的"系统能不能跑完任务"判断同源——都强调工程责任换形态
实践启示¶
- 加 5 维度判断后再用 loop: 把第 5 来源的"6 问 + 5 类跨域场景 + 责任批判"和第 4 来源的"5 项准入表"叠在一起,得到完整的"loop 成熟度自检清单"
- 警惕 47 轮崩溃: 第 2 / 3 / 5 来源都独立提到"47 轮 loop 状态空间崩溃" — 这是 Loop Engineering 当前最大的工程瓶颈,不是单元问题
- 跨域复制前看"3 条件": 任务会重复 / 流程相对稳定 / 结果可自动检查 — 满足这 3 条,loop 就有落地空间
- 造词速度观察期: 任何新概念,先等半年 — 第 5 来源的"造词速度"批评可以推广为"AI 圈新概念评估标准"
- 永远做"始终在场的工程师": 哪怕 loop 帮你省了 60% 时间,那 60% 也应投入"理解每一行代码在发生什么" — 这是工程师身份的核心,不能让位给"按开始键"角色
→ 第5原文存档
第 6 来源 — 若飞 (架构师 JiaGouX 2026-06-15)¶
Source: 原文存档 Author: 若飞 (架构师 JiaGouX) Date: 2026-06-15
这是若飞 6 月 11 日《Loop Engineering 工程现场》(第 4 来源) 4 天后的续作——把工程现场的"试点方法论"推进到"实用指南级"的 6 部件最小结构 + 3 类型 Loop + 18 字段设计表 + 双实战模板(CI 分流/写作核验) + 4 预算上限 + 8 项暂停清单。
核心金句:"先写刹车,再写循环"。
互补角度¶
- 6 部件最小结构(核心贡献):触发器 / 隔离空间 / 过程资产 / 执行器 / Evaluator / State——比 Addy Osmani 5 模块 + 记忆位置更"团队语言化"的拆解,并把 Evaluator 和 State 明确为最易忽略的 2 个部件。没有 Evaluator = 自写自审;没有 State = 每天入职的新同事。这是前 5 来源都没明确点出的"双盲点"。
- 三类 Loop 路径(核心贡献):提醒型 → 修复型 → 演进型——明确给出入门路线和"普通团队不要从演进型开始"的警告。前 5 来源都集中在工程实现,没有清晰的"loop 类型分级 + 推进顺序"。
- CI 分流 Loop 实战模板:完整 6 段(目标/输入/允许动作/禁止动作/验证/停止)——可直接复制的第一版 loop。第 4 来源若飞已给过 7 天试点框架,第 6 来源给"试点后第一个具体 loop 长什么样"。
- 写作核验 Loop 实战模板:对技术稿的"事实断言核验"——这是前 5 来源都没涉及的应用场景。把"线索归线索、观点归观点"做成可工程化的核验 loop。价值:逼着把"看到的说法"和"自己的判断"分开。
- 4 个预算上限(核心贡献):最大运行时长 / 最大迭代轮数 / 最大 token 或金额 / 最大无进展轮数(最重要的一个)。"连续两轮没有新增证据、没有缩小失败范围、没有通过任何新增验证"就停止——这是无进展检测的硬规则。第 4 来源若飞给过"任务卡含最大运行 30 分钟",第 6 来源把预算字段系统化为 4 项硬上限。
- Reviewer Agent 防自写自审(核心贡献):明确"验证者如果一边批判一边改,角色又混回去了"——验证者不允许直接修复。reviewer prompt 不要写"看看有没有问题",要写成 6 项检查表(SPEC/未验证声明/扩大权限/跳过测试/不可回滚变更/需要人工决策)。这是前 5 来源都没明确指出的执行者-验证者边界。
- 8 项暂停清单(核心贡献):目标每天变 / 验证只能靠感觉 / 需要生产写权限 / 依赖口头背景 / 预算没上限 / 团队没人读结果 / 一次性任务。前 5 来源没给出"什么时候别用 loop"的明确清单。
- 18 字段 Loop 设计表(核心贡献):Loop 名称 / 业务目标 / 触发方式 / 输入来源 / 信任等级(哪类来源可信)/ 可读范围 / 可写范围 / 隔离方式 / 过程资产 / 执行动作 / 验证方式 / 状态账本 / 成本上限 / 停止条件 / 人工升级 / 回滚方式 / 复盘入口——填不完的地方,通常就是系统还没准备好的地方。这是前 5 来源都没给出的"完整 loop 自检清单"。
- prompt 位置的工程化转移:从"对模型说一句话" → "给一个持续系统写运行协议"。第 4 来源若飞讲 /goal 时给过类似判断,第 6 来源在 loop 层面再次点出。
- 与 cron / workflow / harness 的对比澄清:cron 解决"什么时候醒来" / workflow 解决"步骤怎么排" / harness 解决"模型运行在什么环境里" / loop 关心的是"这一轮做完以后,系统如何根据反馈进入下一轮,或者停止"。前 5 来源都把 loop 与 harness 混着讲,第 6 来源首次明确 4 者的层次关系。
与已有 5 来源的关系¶
- 第 1 来源(Addy Osmani 2026-06-07):概念框架 + 5 模块 — 回答"loop 是什么"
- 第 2 来源(InfoQ Boris+Peter 2026-06-02):事件报道 + 工程实现细节 — 回答"Claude Code 怎么落地"
- 第 3 来源(微信公众号教科书):4 阶段谱系 — 回答"loop 在演化谱系中的位置"
- 第 4 来源(若飞 6/11 架构师 工程现场):7 天试点 + 5 项准入表 — 回答"试点方法论"
- 第 5 来源(TechFarrari 2026-06):批判视角 + 跨域应用 + 生命周期预言 — 回答"loop 的局限性与诚实讨论"
- 第 6 来源(若飞 6/15 架构师 实用指南,本篇):6 部件最小结构 + 3 类型 + 18 字段设计表 + 双实战模板 + 4 预算 + 8 暂停 + reviewer agent — 回答"loop 第一行代码怎么写"
第 4 + 第 6 来源是若飞本人在 4 天内的演进:第 4 来源(6/11)讲"如何试点 loop",第 6 来源(6/15)讲"试点后第一个具体 loop 长什么样"。合起来 = 完整的"试点 → 落地"两步走。
与其他实体的关系¶
- CI 分流 Loop 模板与 高德 Harness/SDD 体系的"ATDD 测试闭环"互补:高德讲 SDD 主链路 CI 反馈,本文给"AI 自主修复 CI"的 loop 模板
- Evaluator 部件与 Harness 架构的"验证层"同源——Loop 把 Harness 验证层拉成独立部件
- State 部件与 Hermes Loop 架构的状态管理同源——本文的 State = Hermes 的 LoopState/HandoffRecord
- reviewer agent 不允许直接修复与 Agent 编排范式的"生成器-验证器分离"模式一致
- 18 字段设计表与 agent-harness 12 components 7 decisions的"Harness 完整部件清单"互补——Harness 是"环境内规则",Loop 是"环境外循环节奏"
关键独到判断¶
"Loop 不是一句 prompt,也不是一个 cron。它是'触发、执行、验证、记录、继续或停止'的小系统。"
"最危险的 loop 往往不是跑不起来,而是跑得太顺,顺到没人知道它为什么继续。"
"prompt 从'对模型说一句话',变成了'给一个持续系统写运行协议'。"
"如果连续两轮没有新增证据、没有缩小失败范围、没有通过任何新增验证,停止并交还给人。这比'继续优化'有用得多。"
"验证者如果一边批判一边改,角色又混回去了。"
"填不完的地方,通常就是系统还没准备好的地方。"
"这不是降低工程要求。这是把工程要求提前了。"
→ 第6原文存档
第 7 来源:微信公众号「AI技术立文」"14 步路线图:从 Prompt 工程师到 Loop 架构师" (2026-06-16)¶
Source: 原文存档 Author: AI技术立文 Date: 2026-06-16 12:31
本篇是 Loop Engineering 主题的第 7 来源——前 6 来源分布在不同深度(Addy 概念 / InfoQ 事件 / 教科书 4 阶段 / 若飞 7 天试点 / TechFarrari 批判 / 若飞 6 部件实用指南),本文的最大价值是把现有洞见按学习顺序重新组织为 14 步渐进路线图——是 Loop Engineering 的"教学化导读"。
核心贡献¶
- 14 步 = 3 层级渐进路线(核心教学价值):
- 第一部分(01-04):先判断你是否真的需要循环——4 条件测试 + 谁赢谁输 + 30 秒检查清单
- 第二部分(05-09):再学习 5 个核心模块——自动化(心跳)/ 工作区(隔离)/ 验证(说"不")/ 记忆(plan.md)/ 调度(管道)
- 第三部分(10-14):最后构建最小可用循环——5 步搭建法
- 4 条件测试 = 入门版准入判断(与若飞 5 项准入表对照):任务重复 / 验证可自动化 / Token 预算 / Agent 有高级工程师工具链——比若飞的 5 项少"权限可隔离"一项,更适合新手判断
- 30 秒循环检查清单 = 5 条任一不过 = 继续手写 prompt(5 项准入的"快速版"):每周发生 / 自动否决 / 能跑自己改的代码 / 硬性终止条件 / 合并前有人审核——把"什么不该做"从"反方批判"变成"5 条可勾选检查项"
- "谁赢谁输"段落 = 经济学筛选(新增独立板块):消费级套餐独立开发者跳过 / 缺乏自动验证的代码库跳过 / 瓶颈在 code review 的团队跳过——前 6 来源都未给出这种经济学维度的明确分流
- 好的第一个循环 5 类清单:CI 失败分诊 / 依赖升级 PR / Lint 修复 / Flaky 测试复现 / Issue 转 PR 草稿——与若飞第 4 来源的"5 类试点场景"完全对应(事实核验/CI 分流/文档检查/重复故障归类/依赖升级预检查),这是模式收敛信号:好的第一个循环的 5 类清单被两个独立作者独立给出
- 5 个核心模块对照表:与第 1 来源 Addy 5 模块 + 记忆 / 第 3 来源 6 模块(加 Worktree)/ 第 6 来源 6 部件最小结构(加 Evaluator + State)有轻微差异——本文的 5 核心模块 = 自动化 / 工作区 / 验证 / 记忆 / 调度(少了"规则/连接器",多了"调度")——"调度"是前 6 来源没作为独立模块的概念(Addy 把调度合并入"自动化")
七来源维度对比表¶
| 维度 | 第 1(Addy) | 第 2(InfoQ) | 第 3(教科书) | 第 4(若飞 6/11) | 第 5(TechFarrari) | 第 6(若飞 6/15) | 第 7(AI技术立文 14 步) |
|---|---|---|---|---|---|---|---|
| 核心定位 | 概念框架 | 事件报道 | 4 阶段谱系 | 试点方法论 | 批判视角 | 实用指南 | 教学地图 + 14 步渐进路线 |
| 模块数 | 5+1 记忆 | 技术规格 | 6 模块 | 5 样+1 状态 | 5 模块 | 6 部件 | 5 核心模块(少规则,多调度) |
| 准入判断 | 未涉及 | Loops 低风险开始 | 封闭循环先行 | 5 项准入表 | 不盲信 | 8 项暂停清单 | 4 条件测试 + 30 秒检查清单 |
| 学习路径 | 隐含 | 未涉及 | 4 阶段时间线 | 7 天试点 | 未涉及 | 试点后第一行代码 | 14 步渐进路线(从 0 到 1) |
| 新手友好 | 中 | 低 | 中 | 中 | 中 | 中 | 高(教学化导读) |
| 创新贡献 | 高(首提 5 模块) | 高(Claude Code Loops) | 中(教科书化) | 高(5 项准入 + 7 天) | 高(批判+跨域) | 高(6 部件+18 字段) | 低(重新组织,不新洞见) |
| 教学价值 | 中 | 低 | 中 | 中 | 低 | 中 | 高(导读地图) |
| 反方声音 | 未涉及 | 47 轮崩溃 | 47 轮崩溃 | 整合反方观点 | 商业动机批判 | 8 项暂停 | 30 秒检查清单 = 反方建议的可操作化 |
与已有 6 来源的关系¶
- 教学地图价值:前 6 来源各自深度独立,第 7 来源是"把它们按学习顺序串成路线"——这是 Loop Engineering 主题的教学化整合,新人入门可从第 7 来源开始,再按需深入其他 6 来源
- 4 条件测试 vs 5 项准入表:若飞的 5 项 = 4 条件 + "权限可隔离"——本文的 4 条件更适合新手(少一项记忆负担),若飞的 5 项更适合工程现场(多一项工程纪律)
- 30 秒检查清单是 5 项准入的快速版:把"什么不该做"从"反方批判"(第 5 来源 TechFarrari)变成"5 条可勾选检查项"——这是反方建议的可操作化转化
- 好的第一个循环 5 类清单与若飞 5 类试点场景(事实核验 / CI 分流 / 文档检查 / 重复故障归类 / 依赖升级预检查)完全对应——模式收敛信号:好的第一个 loop 的 5 类清单被两个独立作者独立给出
- 5 核心模块的"调度"模块(前 6 来源没作为独立模块):Addy 把调度合并入"自动化",本文把"调度"独立为 5 个核心模块之一——这是教学化重组,无新洞见但便于学习
- Anthropic 自承数据夸大:本文引用"Anthropic 工程师每天合并代码量 8×"但未批判这数字——这与第 5 来源 TechFarrari 的"商业动机批判"形成对照,本文没有 5 来源的反方批判维度
反方警示(本文未涉及的反方视角)¶
- 47 轮 loop 状态空间崩溃(第 2/3/5 来源独立提及)——本文未涉及(这是 5 类试点场景应警惕的最大工程瓶颈)
- Token 成本量化(第 3 来源 5-20 万 / 50-200 万 / 数百万/周,第 6 来源 4 预算上限)——本文的"Token 预算扛得住浪费"只是定性判断,未给具体数字
- Anthropic 8× 数字的批判(第 5 来源)——本文未批判,直接引用
关键独到判断¶
- 14 步路线图 = 入门版 Loop Engineering 教学:前 6 来源分布在不同深度,第 7 来源是按学习顺序的渐进路线——这是 Loop Engineering 主题的"教学化整合"
- 30 秒检查清单 = 工程伦理的可操作化:把"什么不该做"从"反方批判"变成"5 条可勾选检查项"——这与第 5 来源 TechFarrari 的"商业动机批判"是互补关系(批判 vs 可操作)
- 4 条件测试 vs 5 项准入表:若飞 5 项 = 4 条件 + "权限可隔离"——本文的 4 条件更适合新手判断,若飞的 5 项更适合工程现场
- 教学价值 > 创新价值:本文价值在导读与渐进,不在新洞见——可直接作为新人入门 Loop Engineering 的"导读地图"
实践启示¶
- 给新人读第 7 来源入门:14 步路线图是 Loop Engineering 主题的"导读地图",按学习顺序渐进;深度使用应回到第 4 / 6 来源(若飞)
- 4 条件测试 vs 5 项准入表选择:新手判断用 4 条件测试(少一项记忆负担);工程现场用 5 项准入表(多"权限可隔离")
- 30 秒检查清单作为反方建议的可操作版本:把"什么不该做"从"反方批判"转成"5 条可勾选检查项"——是 Loop 团队落地的最快判断工具
- 好的第一个循环 5 类清单:CI 失败分诊 / 依赖升级 PR / Lint 修复 / Flaky 测试复现 / Issue 转 PR 草稿——与若飞 5 类试点场景模式收敛,新人起步的最佳任务
- 直接引用 Anthropic 8× 数据时加 caveat:本文的引用是 "Anthropic 工程师每天合并 8× 代码",但Anthropic 自己承认"几乎肯定夸大"——任何引用此数据的文档都应加 caveat
→ 第7原文存档
第 8 来源:爱范儿「提示词过时了?AI 最新的玩法是「无限流」」(2026-06-16 18:00)¶
Source: 第8原文存档 Author: 爱范儿 (发现明日产品的知名科技媒体) Date: 2026-06-16 18:00
本来源是 Loop Engineering 主题的第 8 来源 —— 前 7 来源都集中在工程/学术/批判视角(Addy Osmani / InfoQ / 教科书 / 若飞 工程现场 / TechFarrari 批判 / 若飞 实用指南 / AI技术立文 教学路线),本来源是主流科技媒体的产品资讯视角 + "新瓶装旧酒"质疑视角 —— 填补了"公众/非工程受众如何理解 loop + 造词反思"的视角空白。
核心贡献¶
- AI 圈造词史时间线(本来源独家视角): 提示词工程 → Harness 工程 → Loop Engineering —— "人从一次对话变成一个完整回路"
- KOL 集体站台 (本来源独家清单):
- 龙虾之父(X 发文): "不要在 Coding Agent 类产品里面写提示词了,我们应该设计一些循环来使用这些 Agent"
- Tibo(Codex 负责人): 转发龙虾之父,问网友是否已经开始写嵌套循环了
- Boris Cherny(Claude Code 产品负责人): "不跟 Agent 对话,跟 loop 对话,让 loop 替我来 prompt"
- Cat Wu + Boris Cherny(Claude 官方回顾节目): 两人都表示很喜欢 loop,认为 Loop 是下一个 Leap
- Addy Osmani(Google Cloud AI 总监): X 发布循环工程文章
- 5 个核心问题(本来源独家提炼): 一个完整的 loop 至少要回答 5 个问题 —— AI 什么时候开始干活? / 能调用哪些工具? / 怎么知道做错了? / 结果记在哪里? / 什么时候必须停下来交给人?
- 5 积木 + 1 记事本(本来源对 Addy Osmani 体系的重述): 定时任务 / Worktree / Skill / 连接器 / 子 Agent + 状态文件 —— 并给出3 个主流产品的对照(Codex Automations / OpenClaw HEARTBEAT / Claude Cowork Scheduled)
- 跨场景应用(本来源独家清单): 内容工作(选题/资料/初稿/事实检查/标题优化/发布前检查) / 客服(读来信+判断类型+生成草稿+敏感投诉留人) / 产品运营(用户反馈/应用商店评论/社媒讨论/竞品更新) / 研究(追踪主题下新论文/报告/数据)
- Token 成本两极分化(本来源独家深度分析): 月付 20 美元跑两天达周限额 vs 龙虾之父/Claude Code 负责人/Google Cloud AI 总监无上限
- "时间成本→Money 成本"转移(本来源独家洞察): "Loop Engineering 不会让 AI 协作变得无成本,它只是把成本从「人一轮轮盯着」的时间成本,转移到「系统一轮轮运行」Money 成本"
- 4 条入门前提(本来源提炼): Token 管够 / 任务每周重复 / 自动验证 / Agent 高级工程师素养 —— 缺任一条成本可能高过回报
- "新瓶装旧酒"质疑(本来源独家反思视角): "AI 圈造词大师,新词不断但本质不变" —— loop 是不是新学科不重要,关键是分界线
与第 5 来源(TechFarrari)的对比¶
| 维度 | 本来源(爱范儿 2026-06-16) | 第 5 来源(TechFarrari) |
|---|---|---|
| 批判视角 | "新瓶装旧酒"质疑 + 造词反思 | 商业动机批判 + 责任迁移警告 |
| 批判强度 | 温和质疑(中立 + 反思) | 强批判(商业动机 + 责任) |
| 批判角度 | 造词学/术语学 | 经济学/伦理学 |
| 批判目标 | "是不是新概念" | "是不是有价值 / 谁赚钱" |
| 共识结论 | "loop 是不是新学科不重要,关键是分界线" | "loop 大概率撑不过年底" |
与其他 7 来源的关系¶
| 维度 | 本来源 | 第 1-7 来源 |
|---|---|---|
| 定位 | 主流科技媒体产品资讯+质疑 | 工程/学术/批判/教学 |
| 核心问题 | 是不是新瓶装旧酒? | loop 是什么/怎么落地/怎么试点 |
| 是否正面 | 质疑+中立 | 全部正面(除 TechFarrari) |
| Token 经济学 | 深度分析(月付 20 美元 vs 无上限) | 量化/未涉及/定性/预算字段 |
| 造词反思 | 明确提出 | 仅第 5 来源商业动机批判 |
| 跨场景 | 内容/客服/产品运营/研究 | 仅第 5 来源内容选题 |
关键独到判断(本来源独家)¶
- "新瓶装旧酒"质疑: AI 圈造词大师,新词不断但本质不变 —— 本来源的造词学反思
- Token 成本两极分化: 月付 20 美元 vs 无上限 → 循环经济是有预算人的常识
- "loop 是不是新学科不重要,关键是分界线"(本来源独家结论): 真正值得讨论的是哪些工作适合循环 / 哪些只需要一句好提示词
- 主流科技媒体视角: 与工程视角 / 学术视角 / 批判视角都不同,是从公众/产品用户视角看 loop
- "时间成本→Money 成本"转移(本来源独家洞察): 不变的是成本总量,变的是成本形式
- KOL 集体站台清单(本来源独家整理): 龙虾之父 + Tibo + Boris Cherny + Cat Wu + Addy Osmani —— 5 位 KOL 全部提及
实践启示(本来源补全)¶
- Token 预算是入门 Loop Engineering 的第一前提: 月付 20 美元套餐跑不了循环
- 任务每周重复: 一次性活不需要循环,直接写提示词更快
- 3 条入门标准: 自动验证 + Agent 高级工程师素养 + Token 管够
- 跨场景扩展: loop 不止编程 —— 内容/客服/产品运营/研究都可
- "分界线"思维(本来源独家): 不要被"循环工程"这个名词绑架,真正的问题是"哪些工作适合循环 / 哪些不需要"
- AI 圈造词观察期(本来源独家反思): 任何新概念,先等 6 个月看是否被淘汰 —— 可推广到所有 AI 圈新概念
→ 第8原文存档
第 9 来源 — AllenTang 架构师带你玩转 AI「一文搞懂 Loop 工程」(2026-06-16 20:34)¶
Source: 第9原文存档 Author: AllenTang (架构师带你玩转 AI) Date: 2026-06-16 20:34
本来源是 Loop Engineering 主题的第 9 来源 —— 用 Karpathy AutoResearch (2026-03-07) 真实故事拆解 Loop Engineering 的真相:循环本身(while)简单,真正值钱的是循环外面那把尺子 (eval)。本来源填补了其他 8 来源都没把"eval"作为 Loop Engineering 核心价值的视角空白。
Karpathy AutoResearch 完整故事(本来源独家)¶
时间线 (2026-03-07): - 3 月 7 日晚上,Karpathy 上传 630 行 Python 小程序到 GitHub → 去睡觉 - 第二天早上醒来,程序整夜没闲着: 自己改了模型的训练代码 → 跑了 50 次实验 → 找到了一个更好的参数 → 自动提交到代码库 - 整个过程:没有人在旁边盯着,没有一句人类指令插进去
两天最终结果: - 700 次实验(放开跑两天) - 模型训练时间从 2.02 小时压到 1.80 小时,提速 11% - 这些改进是人类维护者自己都没找到的 - GitHub 6.6 万+ 星
Shopify CEO 案例: - 让它优化自家的模型 - 一晚上跑了 37 个实验 - 性能提升 19%
Karpathy AutoResearch 朴素拆解(本来源独家)¶
"AI 整夜自主研究" 听起来吓人,落到工程上,就是一个会自己转很多圈、且没人值守的 while 循环。
朴素 while 循环:
AutoResearch 循环:
跟订机票那个圈,结构上一模一样。唯一的区别是:这个圈,它一晚上转了 50 遍、100 遍,没人管。
真正难的不是让它转,是让它停(本来源独家金句 1)¶
反直觉答案: 难在让它停下来,停在对的地方。
3 类典型翻车(本来源独家分类)¶
| 翻车类型 | 现象 | 后果 |
|---|---|---|
| 停早了 | 任务还没完,模型觉得"差不多了"就退出 | 留下半成品 |
| 停不下来 | 模型陷进死胡同,反复尝试根本行不通的方向 | 时间和钱都烧光(有人遇到过 Agent 卡在循环里,反复去搜压根不存在的资料) |
| 停错了地方(最隐蔽) | 它自以为成功,实际上结果是错的 | 信心满满地把错误结果交给你 |
Karpathy 的核心解法: 把"什么时候停、凭什么算成功"这件事,从模型手里拿走了。
值钱的不是循环,是循环外面那把"尺子"(本来源独家金句 2)¶
这是 Loop 工程最核心、也最被外行忽略的真相: 循环本身(让 Agent 转起来)很简单,谁都能写。 难的、值钱的,是循环外面那把判断好坏的尺子。 这把尺子在工程上有个名字,叫 eval(评估)。
Karpathy 的尺子:val_bpb(本来源独家代码细节)¶
核心做法: - 每圈结束时,不是问模型"你觉得变好了吗"(模型会骗自己,也会骗你) - 而是跑一个客观的、可测量的指标(val_bpb,一个数值) - 数字变好 → 保留 - 数字变差 → 用 git 一键撤销,回到上一步
模型在循环里负责"瞎想、瞎试",但"这次试得到底行不行"的最终裁决权,牢牢攥在循环外面那把尺子手里。
跟踪者的总结金句¶
"现在的瓶颈,已经从'怎么执行'变成了'怎么设计评估标准'。"
尺子正反案例¶
| 类型 | 例子 | 循环能跑起来? |
|---|---|---|
| 好尺子 | "训练损失这个数字,越低越好,5 分钟测一次" | ✅ 整夜自己迭代,越跑越好 |
| 没尺子 | "帮我写出更打动人的文案"——"打动人"无法量化 | ❌ 每圈结束都不知道自己是进步了还是退步 |
那个 40 行的小文件,才是真正的"程序"(本来源独家洞察)¶
Karpathy 的整个项目,真正值钱的不是那 630 行 Python。 真正值钱的是一个只有 40 行的小文件(通常叫
ruler.py或类似),里面是评估函数 —— 怎么打分、怎么判断、什么时候留、什么时候撤。 那个 40 行的小文件,才是真正的"程序"。
属性: - 没有调用任何大模型 - 没有"智能" - 就是一堆 if/else 和数字比较 - 但它决定了整个项目能不能跑、跑得对不对
与已有 8 来源的关系(本来源定位)¶
| 维度 | 本来源(AllenTang) | 第 1 (Addy) | 第 4 (若飞 工程现场) | 第 5 (TechFarrari) | 第 6 (若飞 实用指南) | 第 8 (爱范儿) |
|---|---|---|---|---|---|---|
| 核心定位 | Karpathy 案例 + eval 尺子哲学 | 概念框架 | 试点方法论 | 批判视角 | 实用指南 | 主流科技媒体 |
| 核心金句 | "值钱的不是循环,是尺子"(独家) | "Loop > Harness > Prompt" | "先写停止条件" | "Loop 大概率撑不过年底" | "先写刹车,再写循环" | "loop 是不是新学科不重要" |
| eval 视角 | 核心 (本来源独家) | 提及评估 | 评估门禁 | 商业动机批判 | Evaluator 部件 | 未涉及 |
| 停不下来痛点 | 3 类翻车分类 (本来源独家) | 未涉及 | 5 条保守原则 | 47 轮崩溃 | 4 预算上限 | 未涉及 |
| AutoResearch 案例 | 完整故事+数据 (本来源独家) | 未涉及 | 未涉及 | 未涉及 | 未涉及 | 提及 |
| 尺子具体例子 | val_bpb + git 撤销 (本来源独家代码细节) | 抽象 | 任务卡字段 | 未涉及 | 18 字段设计表 | 未涉及 |
关键独到判断(本来源独家)¶
- "值钱的不是循环,是循环外面那把尺子"(本来源独家金句 2): Loop Engineering 最被外行忽略的真相 —— 评估(eval)是核心价值,不是循环本身
- 3 类翻车分类(本来源独家): 停早了 / 停不下来 / 停错了地方 —— 比现有来源的"4 预算上限"或"5 条保守原则"更直观
- Karpathy AutoResearch 完整故事(本来源独家): 630 行 Python / 50/700 次实验 / 11% 提速 / 6.6 万星 / Shopify CEO 37 实验 19%
- 40 行 ruler.py 文件洞察(本来源独家): 真正值钱的不是 630 行 Python 主循环,是 40 行评估文件
- "难在让它停"(本来源独家金句 1): 反直觉但精准 —— 现有来源强调"开始",本来源强调"停止"
- Anthropic Agent 定义朴素化(本来源独家引用): "Agent,说白了就是大模型在一个循环里,根据环境给的反馈,反复使用工具"
实践启示(本来源补全)¶
- AI 能不能整夜干活,不取决于模型多聪明,取决于尺子: 你的 eval 函数决定了 Agent 能不能迭代
- 3 类翻车提前预案: 停早了 / 停不下来 / 停错了地方 —— 设计 stop conditions 时三类都要考虑
- 写 Loop 时 80% 时间应该花在 eval 函数上: 那 40 行 ruler.py 决定项目能不能跑、跑得对不对
- 尺子要硬邦邦,模型没法作弊: 不要问模型"你觉得变好了吗"——要可测量的客观指标
- git 一键撤销是好习惯: 每圈迭代都可逆,错了回到上一步
- Karpathy AutoResearch 是 Loop Engineering 的 Hello World: 630 行 Python + 40 行 ruler.py = 整夜自我研究
→ 第9原文存档
第 10 来源(winty 7 种架构 + Loop Engineering 中文主流视角,2026-06-18)¶
原文:第 10 原文存档 出处:前端 Q / winty 原创,2026-06-18 12:27 核心定位:7 种 Agent 架构的演进路径框架 + 中文公众号民间视角的 Boris Cherny 金句复用
本来源补充的核心维度¶
- "7 种架构不是 7 个选项,是一条从左到右的演进路径"(本来源独家框架):左边 = 单 Agent / ReAct(轻量灵活),中间 = Plan & Execute / 多 Agent(开始分工),右边 = Router / Blackboard / Graph(变成系统)。杀鸡用牛刀的告诫:别一上来就奔最右边的"最强架构"
- Boris Cherny 独家金句二次传播:"我现在已经不亲自给 Claude 写提示了。我有一堆循环在跑,是它们在提示 Claude、在决定下一步做什么。我的工作就是写这些循环。"——本来源把这一句作为整篇文章的杠杆点,与现有 9 个来源相互印证
- "三层楼" 框架的可视化(Prompt 工程 → Harness 工程 → Loop 工程):本来源用一张图把这三层清晰分开,比现有 9 个来源的文字描述更直观
- Graph/Workflow 代表工具的具体化(本来源独家列举):LangGraph、Temporal、Airflow、Prefect——把抽象的"DAG 架构"落地为生产级工具栈
- Router + Skill ⭐ 性价比最高的断言(本来源独家推荐):作者明确把这一架构标注为"图里被标了推荐⭐" + "我自己也觉得它是性价比最高的一种,尤其适合 AI Coding 这类场景"——与现有来源的"Meta-Controller 入口分诊"形成民间视角 vs 学术视角的对照
- Multi-Agent 41-86.7% 失败率研究(本来源独家硬数据):审计了 7 个主流多 Agent 框架的 1600 多条执行轨迹,失败率在 41% 到 86.7% 之间,最常见的失败是些很朴素的问题——没按任务要求做、角色搞混了、活还没干完就宣布成功。这是 Loop Engineering 反对"无脑上多 Agent"的硬支撑
- "循环最难的是让它停下来"(本来源与其他来源的相互印证):与第 9 来源 AllenTang 的"3 类翻车分类"和第 6 来源若飞实用指南的"4 预算上限"形成第 3 套停机闸框架——迭代次数上限 + 没进展就停的检查 + 花费上限(token 或美元) = 缺一不可
- "状态外置是 Loop Engineering 的核心动作"(本来源综合判断):把状态从模型脑子里挪到外面——进度写进 progress.txt、需求写进 prd.json、真相留在 git 里。每一轮让模型读一遍文件、干一件事、跑一遍测试、提交一次。这其实就是把 Graph/Workflow 那套"可回溯、可重试"的工程思想推到了极致
- "ReAct 是所有架构的地基"(本来源独家行动建议):作者建议前端/全栈同学别一上来研究最复杂的 Graph 架构,先把 ReAct 这个内循环吃透——理解"行动→观察→推理→重复"这个最小单元,再往上看任何架构都会有"哦,原来它只是在循环外面又包了一层"的通透感
与已有 9 来源的关系(本来源定位)¶
| 维度 | 本来源 (winty) | 第 1 (Addy) | 第 4 (若飞 工程现场) | 第 5 (TechFarrari) | 第 6 (若飞 实用指南) | 第 9 (AllenTang) |
|---|---|---|---|---|---|---|
| 核心定位 | 7 架构演进路径 + 中文主流视角 | 概念框架 | 试点方法论 | 批判视角 | 实用指南 | Karpathy 尺子哲学 |
| 核心金句 | "循环最难的是让它停下来" | "Loop > Harness > Prompt" | "先写停止条件" | "Loop 大概率撑不过年底" | "先写刹车,再写循环" | "值钱的不是循环,是尺子" |
| 架构框架 | 7 种演进路径 (本来源独家) | 提及零件 | 未涉及 | 未涉及 | 5 保守原则 | 提及 AutoResearch |
| 多 Agent 数据 | 41-86.7% 失败率研究 (本来源独家硬数据) | 未涉及 | 未涉及 | 商业动机批判 | 通信成本 | 提及 |
| 代表工具列举 | LangGraph/Temporal/Airflow/Prefect (本来源独家) | 未涉及 | 未涉及 | 未涉及 | 18 字段设计表 | 40 行 ruler.py |
| 民间视角 vs 学术 | 中文主流 AI Coding 公众号民间视角 | 英文主流 | 工程现场 | 批判性 | 实用 | Karpathy 案例 |
| Router+Skill 推荐 | ⭐ 性价比最高 (本来源独家断言) | Meta-Controller | 未涉及 | 未涉及 | 未涉及 | 未涉及 |
关键独到判断(本来源独家)¶
- "7 种架构是一条演进路径"(本来源独家框架):不是并列选项,是从单 Agent → ReAct → Plan & Execute → 多 Agent → Router/Blackboard/Graph 的从左到右的难度递增
- "多 Agent 41-86.7% 失败率"(本来源独家数据):7 个主流框架 + 1600 多条执行轨迹的审计,是 Loop Engineering 圈对"无脑上多 Agent"的最有力反证
- "Router + Skill 性价比最高"(本来源独家推荐):与现有 9 来源的"Meta-Controller 入口分诊"形成民间视角 vs 学术视角的对照,作者明确标注⭐
- "Boris Cherny 那一句话"作为整篇文章的杠杆点(本来源传播学角度的独特性):9 个来源里有 3 个提及 Boris Cherny,但本来源把这一金句放在文章正中央的图旁边,作为视觉锚点 + 概念锚点
- "三层楼"图示(Prompt → Harness → Loop):把抽象的三层概念可视化为一张图,是本来源对 Loop Engineering 概念传播的最大贡献
- "ReAct 是所有架构的地基"(本来源独家行动建议):从 7 架构的视角反向论证——所有架构都只是在 ReAct 外循环上面又包了一层
- "Graph 工具栈落地"(本来源独家列举):LangGraph、Temporal、Airflow、Prefect 把抽象的"图架构"映射到 4 个生产级工具,这是其他 9 个来源都没明确列举的
- "循环在更大尺度上是同一个问题"(本来源独家洞察):ReAct 设 maxIterations 是微观循环,loop engineering 设停机闸是宏观循环——本质上是同一个"如何让循环停下来"的问题在两个尺度上的重演
实践启示(本来源补全)¶
- 从左往右选架构:能用简单的就别上复杂的。大部分需求一个 ReAct 或 Router + Skill 就够了
- 多 Agent 是放大器不是默认选项:41-86.7% 失败率摆在那,先单循环跑通、加审查角色、最后才上编排者
- 三道硬闸缺一不可:迭代次数上限 + 没进展就停的检查 + 花费上限(token/美元)
- 状态外置是 Loop Engineering 的核心动作:进度 → progress.txt,需求 → prd.json,真相 → git。模型失忆不怕,系统的状态还在
- ReAct 是地基不是进阶:所有架构的本质都是 ReAct 外循环的包装。先把"行动→观察→推理→重复"吃透,再看任何架构都会有通透感
- 前端/全栈入手路径:不研究最复杂 Graph,先把 ReAct 内循环搞透——这是 80% 生产级 Agent 的默认内核
- "循环 = 产品本身"的范式转移:别再纠结"要不要让它循环",大方承认"循环就是产品",把全部精力放在设计好、验证好、停得住
- "模型只会越来越强,到时候真正卡住产出的,不是模型,而是设计循环那个人的判断力"——本来源收尾金句,与第 5 来源 TechFarrari 的批判性形成对照
→ 第10原文存档
第 11 来源:微信公众号「Loop Engineering:从 AutoResearch 到 Claude Code——循环设计的第一性原理」(2026-06-18)¶
Source: 第11原文存档 Date: 2026-06-18
本来源是 Loop Engineering 主题的第 11 来源——以 Karpathy AutoResearch 和 Claude Code queryLoop 为双案例,提炼循环设计的 5 个关键决策(终止条件/检查点/回退策略/粒度/子任务委派)和 3 个陷阱(验证困境/理解债/认知投降)。与前 10 来源的最大差异是:系统化的决策框架 + 可复用代码模板 + 独有数据源。
核心贡献¶
- 5 设计决策系统化(核心贡献):终止条件(4 类型:目标达成/资源耗尽/质量劣化/主动中断)/ 检查点(deny-first 渐进权限)/ 回退策略(ratchet/rollback/retry/branch 四选一)/ 循环粒度(细→粗的权衡)/ 子任务委派(3 条件:耗时>5min/独立上下文/无依赖可并行)——前 10 来源分散涉及各决策项,本文首次把 5 个决策系统化为一张决策表,可直接套用
- should_stop() 可复用模板(本来源独家代码):4 行 Python 代码模板(goal_achieved/budget_exceeded/quality_degrading/user_interrupted)——前 10 来源都只给原则,本文首次给可执行代码
- AutoResearch 3 文件极简结构(本来源首次在 Loop Engineering 语境详细拆解):prepare.py(🔒只读)/ train.py(🤖可改)/ program.md(👤人写)——与 Claude Code queryLoop() 1.6% 对比,两个独立工业级系统得出同一结论:循环决策逻辑 < 10%
- ratchet 机制深度分析(本来源独家在 Loop Engineering 语境):只前进不后退的回退策略——val_bpb 是明确标量时最激进也最安全;目标非标量(如"代码质量")时不适用。选择回退策略取决于目标函数的可量化程度
- 独有数据源(前 10 来源未引用):
- MSR 56.1%:AI agent commit 中 56.1% 降低了代码可维护性——比 TechFarrari(第5来源)的批判更硬的数据
- Shen & Tamkin 2026:AI 辅助下开发者代码理解力测试得分低 17%——Comprehension Debt 的量化证据
- He et al. 2025:807 个仓库因果分析,AI 编码工具后代码复杂度上升,速度提升 3 个月后消散至基线——最硬的纵向数据
- Anthropic 132 名工程师调查:过度依赖 AI 可能萎缩监督 AI 所需技能——"监督悖论"
- Claude Code 93% 权限批准率:人有惰性,"无脑点同意"的肌肉记忆——Harness 分层权限的必要性证据
- 三阶段跃迁模型(Prompt→Context→Loop):本文把 Addy Osmani 的层级关系明确为"不能跳级"的叠加依赖——没有好的 Context,循环每轮在垃圾信息里打转;没有好的 Prompt,循环每步执行质量不过关
- 作者原创思考(3 处):
- "Agent 中的 Loop 跟 SFT/RL 有些像,需要监督数据——可量化的目标是决定能否 Loop 的关键"——Loop 可行性 ≈ 目标函数可量化程度
- "Agent 进化像编译器'自举',冷启动后向自进化演进"——自举类比
- "claude code 运行中特定步骤的 prompt,是基于 context + 压缩/组合策略得到的"——Prompt 本身是 Context 的函数
与已有 10 来源的关系¶
| 维度 | 本来源(第11) | 前 10 来源覆盖度 |
|---|---|---|
| 5 设计决策系统化 | 首次完整决策表 | 分散涉及(第4/6来源有准入表/暂停清单) |
| should_stop() 代码模板 | 独家 | 无 |
| ratchet 回退策略 | 深度分析 | 仅第1来源概念提及 |
| 独有数据源(MSR 56.1%等) | 5 项新数据 | 无 |
| 三阶段不能跳级 | 明确化 | 第3来源有4阶段谱系但未强调依赖 |
| AutoResearch 3 文件结构 | 详细拆解 | 第10来源(AllenTang)有评测量规视角 |
| ETCLOVG 7 层框架 | 复述 | 第9来源(CMU/Yale/JHU survey)首发 |
关键独到判断(本来源独家)¶
- "Karpathy 没有在写提示词,他在设计一个循环系统"——一句话点明 Loop Engineering 的本质区别
- "循环决策逻辑应该占代码总量的 < 10%"——两个独立工业级系统(AutoResearch + Claude Code)的收敛结论
- "如果你说不清楚终止条件是什么,那就不要开始这个循环"——循环设计的第一原则
- "目标可衡量是决定能否 Loop 的关键"——Loop 可行性的判断标准
- "没有 harness 的 loop 就像没有刹车的跑车"——Loop + Harness 一体两面的最简表达
- "三个陷阱的对策不在循环逻辑内部,而在 harness 层"——ETCLOVG 框架的实践结论
实践启示(本来源补全)¶
- 用 5 决策表设计循环:先回答终止条件→检查点→回退→粒度→子任务,再动手写代码
- 用 should_stop() 模板作为循环入口:4 个条件是循环的"安全阀"
- 选择回退策略前先问"目标是否可量化":标量→ratchet;非标量→rollback/branch
- 循环粒度从细起步:先单工具调用,验证稳定后再放粗
- 子 Agent 只在"并行收益 > 协调成本"时派发:7× token 代价不低
- 每轮循环加"AI 必须解释为什么这样改"——对抗 Comprehension Debt
- 每周手动完成一次核心任务——对抗 Cognitive Surrender
→ 第11原文存档
第 12 来源:微信公众号「Loop Engineering 综合实战(三层结构 + 五要素 + 解剖 6 组件 + 4 模式 + 成本公式 + 三款产品 Loop 能力对比 + 组织准备度总表 + Ralph Loop 极简主义 + 三大风险)」(2026-06-18)¶
Source: 第12原文存档 Date: 2026-06-18
本来源是 Loop Engineering 主题的第 12 来源 — 60KB / 865 行史诗级综合解读,从直觉建立(第一层)→ 机制拆解(第二层)→ 决策框架(第三层) 三层结构展开。与前 11 来源最大差异:唯一覆盖"产品对比表 + Ralph Loop 极简主义 + 组织准备度总表 + 成本公式 + 三大风险"完整决策链。
核心贡献¶
- 三层结构方法论(本来源独家框架):第一层(直觉:四次抽象跃迁 + 手工作坊到自动化工厂类比)/ 第二层(机制:五要素 + 解剖 6 组件 + 4 模式 + 多 Agent 拓扑)/ 第三层(决策:产品对比 + 成本公式 + 三大风险 + 组织准备度 + 规模化陷阱)— 前 11 来源分散覆盖各零件,本文是唯一给出完整三层结构的综合解读
- 三款产品 Loop 能力 7 维度对比表(本来源独家硬数据):Claude Code / OpenAI Codex / OpenCode 在 Automations/Worktrees/Skills/Connectors/Sub-agents/Memory/Loop 开箱度 7 维度的逐项对比 + 5 类团队场景的选型决策表 — 前 11 来源零覆盖
- Ralph Loop 极简主义(本来源独家完整实现):while true + claude "Fix the next failing test" + npm test + sleep 5 — 一行 Bash 死循环证明 Loop Engineering 不等于复杂工程,"先跑起来,再优化"
- 成本公式 + 三场景月成本估算(本来源独家工程经济学):
单次 Loop 成本 = 迭代次数 × token × 单价 × 并行数+实际月成本 = 基础成本 × Thrashing 系数+ 简单 bug 修复 $5K-10K / 功能开发 $20K-50K / 架构重构 $50K-150K 月成本表 + 试点 vs 规模化分阶段策略 + 月均 API > $1K 是启动阈值 - 组织准备度总表(5 维度 × 3 档评级)(本来源独家):Token 预算 / Prompt Engineering / Context Engineering / Code Review / 质量卡口 / 组织文化 6 维度 × 暂缓/可以试点/就绪 3 档评级 + 判断规则 — 给管理者可直接套用的决策矩阵
- 三大风险系统化(本来源独家整理):Comprehension Debt(理解债务)/ Cognitive Surrender(认知投降)/ Verification Gap(验证缺口)— 含本质 / 你失去什么 / 最危险的信号 / 应对核心 4 维度表格化
- 6 组件运行时骨架(本来源独家):Goal / Tools / Context / Termination / Error Recovery / Guardrails — 与第 11 来源的 5 设计决策互补
- 4 种 Loop 模式对比(本来源独家):Retry / Plan-Execute-Verify / Explore-Narrow / Human-in-the-Loop 4 模式 + Thrashing / 过拟合 / 上下文漂移 / 认知投降 4 陷阱 + 4 安全网
- 资源类 vs 认知类护栏分类(本来源独家):资源类焊死不留开关;认知类可插拔独立层
- 辩论对抗陷阱(本来源独家硬数据):两个 Agent 互相说服越聊越自信,最后一致同意错误结论 — 多 Agent ≠ 多可靠
与已有 11 来源的关系¶
| 维度 | 本来源(第12) | 前 11 来源覆盖度 |
|---|---|---|
| 三层结构(直觉/机制/决策) | 独家完整框架 | 分散涉及 |
| 产品对比表(Claude Code/Codex/OpenCode) | 独家 7 维度对比 | 零覆盖 |
| Ralph Loop 极简主义 | 独家完整 Bash 实现 | 零覆盖 |
| 成本公式 + 月成本估算 | 独家工程经济学 | 散见提及 |
| 组织准备度总表 | 独家 5×3 评级矩阵 | 零覆盖 |
| 三大风险系统化 | 独家 4 维度表格 | 散落提及 |
| 6 组件运行时骨架 | 独家 | 第 11 来源有 5 设计决策但侧重设计 |
| 4 Loop 模式对比 | 独家 4 模式 + 4 陷阱 + 4 安全网 | 零散涉及 |
| 资源类/认知类护栏分类 | 独家 | 零覆盖 |
| 辩论对抗陷阱 | 独家硬数据 | 零覆盖 |
关键独到判断(本来源独家)¶
- "Loop Engineering 不是新瓶装旧酒,它是旧酒终于有了新瓶,而这个瓶子的形状,决定了未来所有人怎么喝这瓶酒"
- "模式本身比实现更重要"
- "Loop 是加速器,不是纠偏器" — Loop 不会解决"AI 写的代码质量不行"的问题,只会让问题更快地出现
- "审查 AI 代码需要的是'读懂陌生代码并判断其正确性'的能力,这比审查同事的代码要求更高"
- "Loop 的真实月成本 = 订阅费 + API 超额费 + 人力维护成本" — 三项加总才是你该看的数字
- "停下来不是失败。停下来是为了修复 Loop 的设计、补充 Skills、调整终止逻辑"
- "Build the loop. But build it like someone who intends to stay the engineer" — 收束金句
实践启示(本来源补全)¶
- 用 5×3 组织准备度总表自评:任一维度"暂缓"先解决;全部"可以试点"选最简场景;≥3 个"就绪"再规模化
- 选产品前看 7 维度对比表:Claude Code(最成熟+模型绑定)/ Codex(云端并行+数据风险)/ OpenCode(最自由+配置要求高)
- 用成本公式算账后再投入:月 API > $1K 启动试点;月成本 $20K 量级是 Loop 替代人工的临界点
- 从 Ralph Loop 起步:不要被五要素框架吓到,先跑极简版体验体感
- 资源类护栏写死,认知类护栏可插拔:两类混在一起,要么改不动要么忘了开
- 3 大风险对号入座:Comprehension Debt → 强制 Code Review;Cognitive Surrender → 结构化决策辅助;Verification Gap → 非功能性检查
- 场景扩展的步子要小:从 lint 修复 → 功能开发 → 架构重构 逐步推进
- 每周固定"代码审计日":对抗理解债务累积
- 团队工程规范明文写入:哪些决策 Loop 做、哪些决策人做
→ 第12原文存档
第 13 来源:AI技术立文「给产品经理的loop engineering」(2026-06-24,v×c=42 临界,PM 视角)¶
Source: 第13原文存档 Author: Shubham Saboo (Google PM), 译/改编: AI技术立文 Date: 2026-06-24
本来源是 Loop Engineering 主题的第 13 来源 — 唯一从产品经理视角系统阐述 Loop Engineering 的文章。前 12 来源均面向工程师/架构师,本文将循环工程的方法论移植到 PM 工作流(PRD 评审、客户研究、产品信号、发布检查清单)。v×c=42(临界),但 PM 视角在前 12 来源中零覆盖,且同作者 Shubham Saboo 已有 [Google Pm 2026 Five Developer Skills Shubham](../ch01-350-谷歌pm公开-2026开发者五大新技能-问题塑形-上下文设计-审美-编排-判断力) 实体,形成跨实体交叉。
核心贡献¶
- PM 循环五要素(与工程五要素同构但 PM 化):触发器(产品事件/周期)→ 动作(智能体执行)→ 证据(产品判断标准)→ 经验记忆(版本化规则)→ 停止条件("没有有意义变化"或"需要人决策")— 将 Addy Osmani 的工程循环映射到 PM 日常资产
- PM 工作资产走样诊断(本来源独家视角):CLAUDE.md 越来越长、PRD 评审规则越来越严格、研究工作流混入旧项目指令、发布清单膨胀到智能体忽略一半 — "模型没变差,是工作资产走样了,且没有监控机制" — 这是 PM 特有的 context rot 表现
- "品味需要证据"(本来源金句):PM 一直依赖品味判断 PRD 质量,但当品味写进可复用规则后,就需要评测来验证 — "修改 PRD 评审规则后怎么知道它真的变好了?" — 这是 PM 版的 Verification Gap
- 每周产品信号循环(本来源独家实践模板):周五自动读取客户访谈+支持工单+销售记录+实验更新 → 产品信号备忘录(区分反复信号 vs 孤立噪声 + 路线图假设验证)— PM 的第一个可落地循环
- PM 评测三件套(本来源独家低门槛方案):① 3 好+3 差 PRD 测评审规则 ② 5 次已知访谈测总结器 ③ 2 次发布(顺利+混乱)测发布准备度 — 用已知案例校准,不需要大规模基准
- GitHub 作为 PM 记忆层(本来源独家论述):PM 不需要变成工程师,但需要版本历史管理规则/模板/检查清单 — commit = 经验保存,diff = 变更追溯,回滚 = 决策可逆
- PM 循环边界(本来源独家安全规则):循环可以总结客户证据但不应独自决定战略,可以评审 PRD 但不应变成产品负责人,可以标记风险发布但不应在缺上下文时替你做权衡 — "可以建立循环,但产品经理不能离开决策位置"
- PM 角色进化(本来源独家洞察):PM 从"翻译者"(客户痛点→需求,业务目标→路线图)进化为"循环设计者"——设计让产品判断可重复的系统,沉淀规则并做版本管理
与已有 12 来源的关系¶
| 维度 | 本来源(第13 PM视角) | 前 12 来源覆盖度 |
|---|---|---|
| PM 工作资产走样诊断 | 独家(CLAUDE.md/PRD规则/检查清单膨胀) | 工程侧 context rot 已覆盖但未涉及 PM 资产 |
| 五要素 PM 化 | 同构映射到 PM 场景 | 工程侧五要素已有完整覆盖 |
| "品味需要证据" | 独家 PM 版 Verification Gap | Verification Gap 已有但面向代码质量 |
| 每周产品信号循环 | 独家实践模板 | 零覆盖 |
| PM 评测三件套 | 独家低门槛方案 | 工程侧评测已覆盖(AutoResearch 5 决策等) |
| GitHub 作为 PM 记忆层 | 独家 | 工程侧 Git/版本管理已覆盖 |
| 循环边界(人不离决策位) | 独家 PM 安全规则 | 部分提及 Human-in-the-Loop |
| PM 角色进化 | 独家 | 零覆盖 |
| 同作者交叉 | Shubham Saboo → google-pm-2026-five-developer-skills-shubham | 无同作者交叉 |
关键独到判断(本来源独家)¶
- "一个一次性的提示词,写错了还能承受。一个十个人都依赖的评审标准,就不能这样" — PM 资产的错误成本比工程 prompt 高得多
- "模型本身大概率没有变差。是这些工作资产已经走样,而且没有任何机制在监控它们" — PM 版 context rot 的精确描述
- "品味仍然重要,只是现在需要证据" — PM 版 Verification Gap 的一句话概括
- "可以建立循环,但产品经理不能离开决策位置" — 循环边界的最简表达
- "最好的产品经理,不会是拥有最长提示词库的人" — 从 prompt engineering 到 loop engineering 的范式迁移信号
实践启示(本来源补全)¶
- PM 第一个循环从"每周产品信号"开始:范围小、有证据、更需要一致性 — 不要从产品战略循环开始
- 用已知案例校准评测:3 好+3 差 PRD 测评审规则,不需要大规模基准
- PM 工作资产需要版本管理:GitHub commit = 经验保存,diff = 变更追溯
- 循环先赢得信任再提高自主度:从帮助决策的循环开始,不要从能改变战略的循环开始
- 跨实体关联:同作者
[Google Pm 2026 Five Developer Skills Shubham](../ch01-350-谷歌pm公开-2026开发者五大新技能-问题塑形-上下文设计-审美-编排-判断力)覆盖 PM 技能进化,本文覆盖 PM 循环工程,两者互补