Shubham Saboo PM 视角）¶

Ch05.002 Loop Engineering:不再写提示词,而是设计替你写提示词的循环——先写刹车再写循环（13 来源深度合并：Addy Osmani / Boris Cherny+Peter Steinberger / 教科书 / 若飞工程现场 / TechFarrari 批判 / 若飞实用指南 / 爱范儿科普批判 / AllenTang Karpathy 尺子 / winty 7架构中文主流视角 / AutoResearch 5 决策 / 三层结构 + 三款产品对比 + Ralph Loop + 准备度总表 / Shubham Saboo PM 视角）¶

📊 Level ⭐⭐ | 111.3KB | entities/loop-engineering-addy-osmani-challengehub.md

created: 2026-06-10 updated: 2026-06-24 review_value: 10 review_confidence: 9 review_recommendation: strong provenance_state: merged sources: [raw/articles/loop-engineering-addy-osmani-challengehub, raw/articles/loop-engineering-infoq-boris-cherny-peter-steinberger, raw/articles/loop-engineering-peter-steinberger-boris-cherny, raw/articles/loop-engineering-工程现场-ruofei, raw/articles/loop-engineering-techferrari-prompt-is-dead-2026, raw/articles/loop-engineering-practical-guide-brakes-first-ruofei-2026-06-15, raw/articles/loop-engineering-14-step-roadmap-aitechliwen-2026-06-16, raw/articles/loop-engineering-ifanr-popular-science-critique-2026-06-16, raw/articles/loop-engineering-karpathy-autoresearch-eval-ruler-allentang-2026-06-16, raw/articles/7-agent-architectures-loop-engineering-winty-2026-06-18, raw/articles/loop-engineering-autoresearch-claude-code-five-decisions-2026-06-18, raw/articles/loop-engineering-three-layers-decision-framework-product-comparison-ralph-2026-06-18, raw/articles/loop-engineering-pm-shubham-saboo-2026]---

原文存档：原文存档

Loop Engineering：比 Harness 更高一层的编程范式¶

Addy Osmani 提出 Loop Engineering——比 Agent Harness Engineering 再高一层的抽象：不再是人给智能体写提示词，而是设计一套系统替你写提示词。Peter Steinberger 和 Claude Code 负责人 Boris Cherny 均已实践此模式。

核心定义¶

循环 = 递归式目标：你定义目的，AI 不断迭代直到完成。与 Harness 的关系：Harness 是给单个智能体打造运行环境；Loop 是定时跑的框架，会自己派生子智能体、自己喂自己。Loop > Harness > Prompt。

五模块 + 记忆（Codex / Claude Code 通用）¶

零件	作用	Codex	Claude Code
自动化任务	心跳：定时发现+分类	Automations 标签页、`/goal`	cron、`/loop`、`/goal`、hooks
工作树	并行隔离	线程内置	`git worktree`、`isolation: worktree`
技能	项目知识固化	SKILL.md、`$name`	SKILL.md
插件/连接器	接真实工具	MCP 连接器 + 插件	MCP 服务器 + 插件
子智能体	干活+检查分离	`.codex/agents/` TOML	`.claude/agents/` + 团队
记忆	跨会话状态	Markdown / Linear	AGENTS.md / MCP→Linear

关键洞察：两个产品形态完全一致——一旦发现零件相同，就不再纠结工具选择，只管设计循环。

`/goal` 的验证者分离设计¶

/goal 不是干活的模型自己判断完成——而是独立小模型验证。这是"干活和检查分开"直接套用到停止条件上。

深度分析¶

Loop vs Harness：层级关系而非替代¶

Loop Engineering 不是 Harness 的替代品，而是 Harness 之上的编排层。Harness 解决单个 Agent 的环境约束（CLAUDE.md、hooks、权限）；Loop 解决多个 Agent + 自动化 + 状态追踪的系统级编排。映射到已有 wiki 概念：Harness = 单 Agent 约束系统；Loop = 多 Agent + cron + 状态 + 自驱动。

技能的"复利效应"¶

没有技能的循环 = 每轮冷启动，从零推导项目约定；有技能的循环 = 知识写在 SKILL.md 里，每轮自动读取，形成认知复利。这与 Intent Debt（意图债）概念对应：技能就是把意图外化到磁盘，避免每轮重新猜测。

三个循环搞不定的问题¶

验证仍在人头上："做完了"是声明不是证明——Agent 可靠性的核心挑战
理解债（Comprehension Debt）：循环越快交付你没写的代码，"真实存在"和"你实际搞懂"的鸿沟越大
认知投降（Cognitive Surrender）：最舒服的姿势恰最危险——循环给啥收啥。设计循环带判断力=解药；为逃避思考=助燃剂

实践启示¶

先用 /loop 跑低风险自动化（issue 分类、CI 汇总），验证稳定后再扩大范围
状态文件是脊梁骨：记试过什么、什么过了、什么还开着，明天从今天停下处继续
技能描述要"紧凑无聊"而非"花哨"——精准匹配触发比华丽文案更重要

第 2 来源：InfoQ 褚杏娟「AI编程又变天了」（2026-06-09）¶

InfoQ 对同一 Loop Engineering 事件的深度报道，侧重工程实现细节、社区争议和生产落地痛点。与第 1 来源（Addy Osmani 概念框架）互补，本来源提供了 Claude Code Loops 的完整技术规格和 Anthropic 内部前沿架构。

核心创新 / 关键数据¶

Claude Code Loops 技术规格：/loop 命令创建循环，/loops 查看活跃循环，/stop [ID] 终止；最小间隔 1 分钟，最长 3 天自动停止；绑定当前会话（非持久化），关闭终端即停止；Loops 保留上下文窗口、工具权限和 MCP 连接（vs 外部 cron 冷启动）
Boris Cherny 工作流：夜间运行"几千个"AI Agent，通过 Claude App 管理；Loops（本地 cron 触发）+ Routines（服务器端周期性任务）
生成器—评估器—规划器结构（Anthropic 内部前沿）：借鉴 GAN 思想，评估器拥有独立上下文 + 用 Playwright 真实测试（非读 diff）；"品味"量规化——设计/原创性/工艺/功能性四维评分，随模型能力调整权重
Token 成本量化：1 分钟间隔 × 8 小时 = 480 次 API 调用；Opus 循环 vs Haiku 循环的成本差异

对照表：两篇来源维度对比¶

维度	第 1 来源（ChallengeHub/Addy Osmani）	第 2 来源（InfoQ/褚杏娟）
核心叙事	Loop Engineering 概念框架 + 五模块对照	Loop Engineering 社区事件 + 工程实现
Claude Code Loops 技术	cron + `/loop` + `/goal` 简述	完整命令规格 + 会话绑定机制 + 安全限制
Codex 对比	Automations 标签页	无原生循环命令（vs Claude Code `/loop`/`/loops`/`/stop`）
Token 成本	未涉及	480 次/8h 量化 + Opus vs Haiku 循环 + $20 套餐不够
生产痛点	理解债 + 认知投降（概念层）	47 轮状态机调试难 10 倍 + 迁移陷阱（实战层）
Anthropic 内部架构	未涉及	生成器-评估器-规划器 + "品味"量规 + Playwright 验证
长时间运行演进	未涉及	20 分钟→数天 + 上下文腐烂 + 新会话→长会话+压缩
社区反应	未涉及	Garry Tan "非富士康" + "金字塔骗局" + 迁移后悔
反馈机制	概念提及	SPEC 文件 + 测试/类型检查/真实错误说"不"

与已有 source 呼应¶

生成器—评估器—规划器结构（第 2 来源独有）与第 1 来源"验证者分离设计"深度呼应：/goal 的独立小模型验证是生产级实例，而 GAN 式对抗架构是更通用的理论框架——两者都指向"干活和检查分开"的核心原则。
Claude Code Loops 会话绑定机制（第 2 来源独有）补全了第 1 来源"五模块对照表"中缺少的关键技术细节：Loops 保留上下文窗口、工具权限和 MCP 连接——这不是简单的 cron 封装，而是有状态持续会话。
Token 成本量化（第 2 来源独有）为第 1 来源"三个搞不定的问题"增加了经济维度：理解债和认知投降的前提是"有 token 烧"，但 $20 套餐 + 480 次/8h = 大多数团队的实际约束。

实践启示¶

Loops 从低风险自动化开始：issue 分类、CI 汇总，验证稳定后再扩大——与第 1 来源一致但更具体
47 轮状态机调试比 prompt 难 10 倍：大多数人连可靠的一次性 prompt 都写不好，先别急着上 Loop
SPEC 文件作为 Loop 的"说不了"机制：Peter Steinberger 的实践——设计 loop 只完成一半，另一半是放入能说"不"的机制
评估器用 Playwright 而非读 diff：真实打开网页、点击、截图——比代码级自查更可靠
"品味"可评分：设计/原创性/工艺/功能性四维，随模型能力调整权重——Opus 4.6 功能性已强，评估侧重设计和原创性

→ 第2原文存档

第3 来源：微信公众号「ps. Harness Engineering还没熟，Loop Engineering 又要来了」（2026-06-10）¶

微信端的 Loop Engineering 系统梳理文章，侧重完整的5阶段骨架、开放 vs封闭循环的区分、Fleet循环架构、6 构建模块体系化、以及 token经济学深度量化。与第1 来源（Addy Osmani概念框架）+ 第2 来源（InfoQ事件报道）互补，本来源提供了教科书式的结构化梳理——把 Boris Cherny 和 Peter Steinberger 的"loop"主张扩展为可教学的工程范式。

核心创新 /关键数据¶

5阶段循环骨架：发现 →规划 →执行 →验证 →迭代（通过验证就交付，未通过就继续循环）——这是 Loop Engineering 最底层的循环结构，前2 来源都未明确给出
单 Agent循环 vs Fleet循环：单 Agent是一个人反复修改草稿，Fleet是编排者 →专家 Agent → 子 Agent 的整棵树协同——为 AHE 的多 Agent进化框架提供了非进化的"实例"对照
2026 年最重要的区分：开放 vs封闭循环：开放循环 token消耗巨大（每周数百万），适合探索；封闭循环有边界 +评估门禁 +停止点，适合生产。没有质量门禁 AI 会漂移，有了质量门禁 AI 会改进——这是与第2 来源"三个搞不定的问题"中"验证仍在人头上"的工程答案
6 构建模块体系化：Automations（心跳）、Worktree（隔离）、Skills（项目知识）、Plugins/Connectors（落地）、Subagents（验证诚实）、Memory（持久性）——与第1 来源"五模块对照表"对照，本来源多出"Worktree"作为独立模块，且明确定义每个模块对应5阶段中的哪个
Token经济学深度量化：单 Agent5-20万 /任务；Fleet50-200万 /任务；每天早上定时跑 →每周数百万 token；认真做一周 Loop工程的成本可超过月预算——为第2 来源"Opus vs Haiku成本差异"提供了更系统的总账
Prompt工程师 vs Loop工程师对比表：从语言能力 →软件工程能力，从单次输出 →持续验证，从人当反馈循环 →系统当反馈循环——这是 Boris Cherny "我的工作就是写循环"的具体能力映射
AI 工程四次重心演进：Prompt Engineering → Context Engineering → Harness Engineering → Loop Engineering——补全了 Harness Engineering框架中"三次重心演进"的最新第四阶段
低成本模型战略价值：DeepSeek、Kimi、MiniMax 等让 Agent循环在经济上变得可行——百万上下文 + 低 token定价是 Loop Engineering普及的物质基础

三来源维度对比表¶

维度	第1 来源（Addy Osmani）	第2 来源（InfoQ）	第3 来源（微信公众号）
核心定位	概念框架 +5 模块对照	事件报道 + 工程实现细节	系统梳理 +教科书式分类法
5阶段骨架	隐含（验证者分离）	未明示	明确列出：发现→规划→执行→验证→迭代
单 Agent vs Fleet	未涉及	未涉及	明确二分：单 Agent 像个人改草稿，Fleet 像团队端到端
开放 vs封闭循环	未涉及	未涉及	2026 年最重要的区分：开放消耗大、封闭可控
6 构建模块	5 模块（少 Worktree）	技术规格细节	6 模块 + Worktree独立 + 对应5阶段
Token经济学	未量化	480次/8h + Opus vs Haiku	系统量化：5-20万/50-200万/数百万/周 + 月预算门槛
AI 工程演进谱系	Loop > Harness > Prompt	未涉及	4阶段谱系：Prompt → Context → Harness → Loop
低成本模型价值	未涉及	未涉及	战略意义：DeepSeek/Kimi/MiniMax 是循环经济物质基础
生产痛点	理解债 +认知投降	47轮状态机难调试	从封闭循环开始：先质量门禁，再逐步放开

与已有 source呼应¶

5阶段骨架（第3 来源独有）为前两来源的模块设计提供了底层解释：为什么需要"验证者分离"——因为5阶段中的验证是独立阶段；为什么需要"记忆"——因为下一次发现的输入是上一次的输出。5阶段骨架是其他所有模块设计的理论根基
封闭循环 +质量门禁（第3 来源独有）与第2 来源"理解债/认知投降"形成完整闭环：理解债是封闭循环失控的产物，质量门禁是封闭循环的安全阀——两者结合起来给出"先封闭 →评估门禁 →再开放"的工程实施顺序
6 构建模块（第3 来源独有）补全第1 来源"五模块"中 Worktree 的缺位：Worktree 是隔离并行执行的关键，对应"执行"阶段——在 Fleet循环中尤其关键（多个子 Agent 同时编辑时）
Token经济学系统量化（第3 来源独有）把第2 来源"Opus vs Haiku"和"480次/8h"的具体数字串联为完整成本结构：单 Agent → Fleet →定时循环的三级成本递增，为循环经济门槛提供了预算决策框架
AI 工程4阶段演进谱系（第3 来源独有）补全了 Harness Engineering框架的"3阶段演进"——Loop Engineering 是 Harness 之上的第4 层抽象，与 AHE 共同构成 Harness 的两个延伸方向（AHE = 自动进化 Harness；Loop = 设计自驱 Harness）
低成本模型战略意义（第3 来源独有）解释了2026 年开源模型崛起的部分原因：不是模型能力突破，而是循环经济的可负担性——为 harness缩小开源闭源 bug-finding gap 提供了经济学视角

实践启示¶

设计循环先于写 prompt：任何"我希望 Agent持续做这件事"的需求，先问自己能否设计为封闭循环——先搭框架（goal + verify + iterate），再考虑开放
从封闭循环开始：不要一开始就构建开放循环——token成本会失控；先用质量门禁 +评估器约束住行为空间
6 模块缺一不可：不要试图用"一个 LLM + 一个 prompt"搭建循环——6 模块是 Claude Code / Codex验证的最小必要集
检查者与制作者必须分离：让生成代码的模型验证自己的产出几乎必然失败；让不同 Agent（甚至不同模型）做 evaluator
记忆是循环的脊柱：第 N 次循环要知道前 N-1 次已尝试过什么——这是24h Agent 工作流的最小必要条件
成本可负担性是隐形门槛：设计循环时考虑 (a)上下文窗口 (b) 单次循环 token 上限 (c)每周总预算；国产低成本模型 +百万上下文是2026 年最优组合
Loop工程师 = Harness工程师 + 系统思维：从"设计一次任务的执行边界"升级到"设计跨多次任务的反馈机制"——工具一致，视角升级

Loop Engineering关键结论（合并4 来源）¶

范式已转移：手动 prompt → Harness → Loop，下一站是 Loop Engineering
5阶段骨架 +6 构建模块 是循环工程的最小必要集
封闭循环先行——质量门禁是 AI 不漂移的唯一保障
Fleet循环 = 多 Agent嵌套——编排者 →专家 → 子 Agent，每层都跑完整循环
检查者 ≠ 制作者——evaluator必须是不同的 Agent（甚至不同的模型）
记忆是脊柱——第 N 次循环知道前 N-1 次已尝试过什么
Token 经济是隐形门槛——低成本模型 +百万上下文让循环经济可行
Loop工程师 = Harness工程师的下一个版本——核心差异是"持续性"而非"单次稳定性"
AI 工程4阶段谱系：Prompt → Context → Harness → Loop，Loop Engineering 是当前最新抽象
一个可靠的循环，胜过一千个完美的提示——这是 Loop Engineering 的最终宣言
5 项准入表 + 5 条保守原则（若飞独家）：用 5 行 × 2 列的工程检查项决定能否上 loop；用 5 条保守原则（先只读/先低风险/先小频率/先人工/先写停止条件）保住系统不漂移
plan.md 状态记忆模板（若飞独家）：当前目标 / 已尝试 / 已验证 / 禁止事项 / 下一步——对话之外的"工程继续"载体

→ 第3原文存档

第 4 来源：微信公众号「架构师 JiaGouX」若飞「Loop Engineering 详解：把反馈循环放进工程现场」（2026-06-11）¶

若飞是「架构师」公众号主笔，长期写 Harness Engineering 系列（前文《长周期 Agent 详解》《5 张卡治理框架》《再看 Harness Engineering》三篇已合并入 Long Running Agent Ralph Loop Handover Harness Ruofei，这是他 Loop Engineering 主题的首篇完整论述）。本来源侧重工程落地视角：5 项准入表、5 条保守原则、7 天试点模板、plan.md 状态记忆——是前 3 来源（Addy Osmani 概念 + InfoQ 事件 + 微信公众号教科书）都未涉及的实操层。

核心创新 / 关键数据¶

核心命题："提示词解决的是'下一句话怎么说'，loop 解决的是'这件事怎么持续做、怎么知道做对、什么时候停'"——这是 Loop Engineering 一句话定位，前 3 来源都未给出
5 样必备 + 1 条状态记忆：自动触发 / 隔离工作区 / 过程资产 / 外部连接 / 独立验证 + 状态记忆（plan.md / issue / 看板 / 日志）——是 6 模块体系（第 3 来源）的最简化版本，便于团队快速记忆
Addy Osmani 5 模块 → 6 工程问题翻译（若飞独家）：把 5 模块细化为 6 个具体工程问题（什么时候启动 / 在哪里改 / 按什么规则做 / 能连到哪里 / 谁来复核 / 怎么接上下一轮），每个问题对应"对应能力 + 解决的风险"——这是 Loop 工程化的实操转换层，前 3 来源都未给出
4 个架构口（若飞独家）：把 6 问题聚合成 4 个"架构口"——触发入口 / 执行沙箱 / 验收出口 / 状态账本——是 Loop 系统设计的4 类必选模块
5 项准入表（第 1 个核心原创）：输入稳定 / 输出可分类 / 验证可自动化 / 权限可隔离 / 停止条件可写——"五项里只要有两项落在右边，我一般会先补测试、补状态、补边界，再考虑自动 loop"——前 3 来源都未给出
任务卡模板（与 5 张卡治理互补）：循环名称 / 触发频率 / 输入范围 / 最大运行 / 最大分支 / 权限 / 验证 / 停止条件 / 交付物——9 项单次 loop 边界卡片，前 3 来源都未给出
plan.md 状态记忆模板（第 2 个核心原创）：当前目标 / 已尝试 / 已验证 / 禁止事项 / 下一步——5 段式状态文件，让下一轮 loop 接上前一轮；"没有状态记忆，loop 就会变成一串断开的 prompt。看起来连续，实际上每轮都在重新开始。"
5 条保守原则（第 3 个核心原创）：先只读 / 后写入 / 先低风险 / 后核心路径 / 先小频率 / 后高频率 / 先人工确认 / 后自动合并 / 先写停止条件 / 再写继续条件——"很多自动化出问题，不是因为不会继续，而是因为不知道什么时候停"
7 天试点模板（第 4 个核心原创）：选场景 → 写任务卡 → 做 Skill → 接状态记忆 → 跑一次手动 loop → 加自动触发 → 复盘——是 Loop 团队落地的最小可执行路径，前 3 来源都未给出
复盘 5 指标（第 5 个核心原创）：命中率 / 误报率 / 回滚率 / 成本 / 证据——"人能在 5 分钟内复核一轮"作为证据指标门槛，呼应第 2 来源"评估器必须能说'不'"
成熟 loop 的"诚实回答"清单："我没有足够证据继续 / 这次修改超过了授权范围 / 预算已经到达 / 验证结果不稳定 / 需要人做产品判断"——比起"我继续试试"，这种回答更接近工程系统——这是把"停止条件"具体化的可操作话术，前 3 来源都未给出
人在场的位置："Loop 越强，人的判断越要提前出现"——若飞反驳"loop = 人拿掉"误读，把"目标、边界、预算、证据、停止条件"前置为规则 / 模板 / 权限 / 预算 / 停止条件——前 3 来源都未涉及

四来源维度对比表¶

维度	第 1 来源（Addy Osmani）	第 2 来源（InfoQ）	第 3 来源（微信公众号）	第 4 来源（若飞架构师 JiaGouX）
核心定位	概念框架 + 5 模块对照	事件报道 + 工程实现细节	系统梳理 + 教科书式分类法	工程落地 + 实操模板 + 试点方法论
5 阶段骨架	隐含（验证者分离）	未明示	明确列出：发现→规划→执行→验证→迭代	未涉及 5 阶段，但加 4 架构口（触发入口/执行沙箱/验收出口/状态账本）
模块体系	5 模块（少 Worktree）	技术规格细节	6 模块 + Worktree 独立	5 样必备 + 1 状态记忆（最简化版）
工程问题翻译	未涉及	未涉及	未涉及	Addy 5 模块 → 6 工程问题（含"对应能力 + 解决的风险"）
Token 经济学	未量化	480 次/8h + Opus vs Haiku	5-20 万/50-200 万/数百万/周	任务卡含"最大运行 30 分钟 / 最大 5 失败簇 / 默认只读"——具体边界
AI 工程演进谱系	Loop > Harness > Prompt	未涉及	4 阶段谱系：Prompt → Context → Harness → Loop	Loop > Harness > Prompt（与第 1 来源同，但加 3 层关系图）
开放 vs 封闭循环	未涉及	未涉及	2026 年最重要的区分	闭环先行、开环后置（强倾向，呼应第 3 来源）
准入判断	未涉及	Loops 从低风险自动化开始	从封闭循环开始	5 项准入表（5 行 × 2 列：输入/输出/验证/权限/停止）
状态记忆	概念提及	SPEC 文件	记忆是脊柱	plan.md 5 段式模板（当前目标/已尝试/已验证/禁止/下一步）
人在场	验证仍在人头上	SPEC 文件 + 测试说"不"	封闭循环 + 质量门禁	5 条保守原则 + 成熟 loop 的"诚实回答"清单
试点方法论	未涉及	47 轮状态机调试难 10 倍	设计循环先于写 prompt	7 天试点模板（选场景/写任务卡/做 Skill/接状态/手动/自动触发/复盘）
复盘指标	未涉及	社区反应：48 轮后悔	从封闭循环开始	复盘 5 指标（命中率/误报率/回滚率/成本/证据）
同作者系列衔接	N/A	N/A	N/A	衔接 Long Running Agent Ralph Loop Handover Harness Ruofei（若飞 Harness 系列 3 篇）

与已有 source 呼应¶

5 项准入表（第 4 来源独家）与第 3 来源"封闭循环 + 质量门禁"形成工程实施桥梁：封闭循环是原则，5 项准入表是落地检查清单——"五项里只要两项落在右边，先补测试、补状态、补边界"是封闭循环原则的可操作版本
plan.md 状态记忆模板（第 4 来源独家）补全了第 2 来源"SPEC 文件"和第 3 来源"记忆是脊柱"的实操形态：第 2/3 来源只说"记忆重要"，第 4 来源给具体 5 段式 Markdown 模板——可直接拷贝到项目里
5 条保守原则（第 4 来源独家）是第 1/2/3 来源"高质量门禁"思想的具体化：第 1 来源说"质量门禁是 AI 不漂移的唯一保障"是结论，第 4 来源给出 5 条可执行的"如何保证门禁不被绕过"原则
7 天试点模板（第 4 来源独家）补全了第 3 来源"设计循环先于写 prompt"和第 2 来源"Loops 从低风险自动化开始"——前 2 来源是原则（先设计 / 先低风险），第 4 来源给具体 7 天时间表
Loop > Harness > Prompt 三层关系图（第 4 来源独家图 2）与 Long Running Agent Ralph Loop Handover Harness Ruofei 的 5 层架构（Model / Tool / Skill / Sub-agent / Harness）直接衔接——若飞把 Harness 定位为"这一次任务怎么跑"，Loop 定位为"这类任务怎么持续发生"——这是同作者体系内最自然的延伸，前 3 来源都未给具体关系图
任务卡 9 项模板（第 4 来源独家）与 Long Running Agent Ralph Loop Handover Harness Ruofei 的 5 张卡治理框架（身份/项目/记忆/Skill/运行）正交互补——5 张卡是工作流的 5 个角色层，任务卡是单次 loop 运行的 9 项边界——后者放在 5 张卡的"运行卡"内执行
成熟 loop 的"诚实回答"清单（第 4 来源独家）把第 3 来源"Loop 工程师 = Harness 工程师的下一个版本"具体化——Harness 工程师需要能写"评估器"，Loop 工程师需要能写"诚实拒绝"——这是职业能力升级
Gergely Orosz / Garry Tan / Graham Neubig / AlphaSignal 反方观点（若飞独家整合）——若飞主动把反方观点纳入分析：Gergely "团队没有无限 token"、Garry Tan "不要把 Agent 做成机械重复工厂"、Graham Neubig "人先过一遍任务清单"、AlphaSignal "大多数开发者还不急着把 Agent 放进 loop"——这与第 1/2/3 来源的"乐观叙事"形成对照，若飞本文的最大价值之一是平衡呈现反方声音
事实核验 / CI 分流 / 文档检查 / 重复故障归类 / 依赖升级预检查 5 类试点场景（若飞独家）——具体到任务类型的"哪些场景适合先入 loop"清单——前 3 来源都未具体到任务级

实践启示¶

用 5 项准入表过滤："五项里只要两项落在右边，先补测试、补状态、补边界"——这是 loop 团队决策的最快路径
用 plan.md 5 段式模板："当前目标 / 已尝试 / 已验证 / 禁止事项 / 下一步"——直接复制到项目根目录 plan.md，每周复盘一次
用 5 条保守原则顺序启动："先只读 → 后写入；先低风险 → 后核心路径；先小频率 → 后高频率；先人工确认 → 后自动合并；先写停止条件 → 再写继续条件"——按此顺序逐步放开 loop
用 7 天试点时间表落地："第 1 天选场景 → 第 2 天写任务卡 → 第 3 天做 Skill → 第 4 天接状态记忆 → 第 5 天手动 loop → 第 6 天加自动触发 → 第 7 天复盘"——是 loop 团队试点的最小可执行路径
用 5 指标复盘："命中率 / 误报率 / 回滚率 / 成本 / 证据"——前 4 项是经济维度，第 5 项是工程伦理（"人能在 5 分钟内复核一轮"是证据指标门槛）
用"诚实回答"清单训练 loop："我没有足够证据继续 / 这次修改超过了授权范围 / 预算已经到达"——把"停止条件"具体化为可触发话术，让 loop 能自我暂停
Loop 与 Harness 同等重要，不互相替代："写 Harness 时，我们聊的是状态边界和失败闭环；写 Loop Engineering，我们换了一个说法：工作现场能不能定期醒来"——若飞本文最大启示是 Harness + Loop 是同一体系的两层，不应分开看

→ 第4原文存档

第 5 来源:微信公众号「TechFarrari」"当 AI 圈开始聊 Loop:提示词工程已死,但杀死它的不是新技术" (2026-06-15)¶

TechFarrari 公众号 2026-06-15 10:30 发布的独立解读,作者是 TechFarrari 本人。与前 4 来源(Addy Osmani / InfoQ / 微信公众号教科书 / 若飞架构师)的最大差异是:

前 4 来源 都是"如何设计 loop"的正面叙事(加模块、加工具、加方法论)
第 5 来源 是"为什么 loop 不能盲信"的批判视角 + 跨域应用案例 + 生命周期短预言

本文侧重 5 个独特贡献: ① 范式迁移叙事 (prompt→context→harness→loop) ② 6 问工程化翻译 ③ 责任批判视角 ④ 跨域应用(内容选题 loop / 数字主编) ⑤ 生命周期短预言(Loop Engineering 大概率撑不过年底)。

核心创新 / 关键数据¶

范式迁移叙事 4 阶段谱系(第 5 来源独家叙事架构):
2023 Prompt Engineering → 2024 Context Engineering → 2026 初 Harness Engineering → June 2026 Loop Engineering
这是对前 4 来源"Loop > Harness > Prompt"层级关系的时间维度补全——前 4 来源给"层级",第 5 来源给"演进时间线"
关键金句:"过去两年 AI 圈的名词变迁史,本身就是一部'人的位置怎么被一步步往后推'的历史"
与第 1 来源(Addy)同判:Loop 取代 Harness 主导地位,但第 5 来源加了"半年观察期"
6 问工程化翻译(第 5 来源 vs 第 1 来源 Addy 5 模块):
Addy 给"5 块积木 + 1 记忆" — 第 5 来源翻译为"6 个问题"
6 问 = 谁来叫醒(调度) / 多 Agent 怎么不打架(隔离) / AI 怎么知道你们平时怎么干活(规则) / 能碰到本地外吗(连接) / 谁来看它做得好不好(验证) / 怎么记住昨天做到哪了(记忆)
与第 4 来源(若飞)6 工程问题翻译完全一致——若飞 + TechFarrari 独立给出了相同的 6 问翻译,这是模式收敛信号:6 问框架是 Addy 5 模块的"自然工程化映射"
第 5 来源金句:"不会自己启动的,不叫 loop,顶多算你'设定时的定时任务'""大部分人的 loop 之所以失败了也没人知道,就是因为只布置了任务,没布置起床闹钟"
"难的不是技术,是责任没跟着走"批判视角(第 5 来源独家):
47 轮 loop 状态空间回溯崩溃(对比第 2 来源 InfoQ 47 轮状态机难调试 + 第 3 来源"47 轮 loop 出了事你不敢想")
责任迁移的 3 层分析:成本 / 隐蔽代价 / 商业动机
商业动机金句:"AI 圈现在这批造词的人,同时也是卖工具的人。 他们告诉你用 loop 就能省时间、解放生产力。但每次循环多跑一圈,就意味着多花一份 token 钱。你省下来的时间,本质上是用更多 compute 换的。这个账,他们算过,但不会主动告诉你。"
责任迁移警告:"你从'写 prompt 的人'变成了'设计系统的人',听起来是升职了,实际上是你活变多了,责任变大了,但没人给你加工资。"
与前 4 来源对比: 前 4 来源没有一篇对 loop 提出成本/责任/商业动机的批判,全部都是"如何更好设计"的正面叙事
跨域应用案例:内容选题 loop / 数字主编(第 5 来源独家实战):
案例:"每天凌晨 4 点,Bot 开始抓取前一天的行业新闻,跑一遍摘要,对比 3 家竞品的动态,早上 8 点前出选题会 agenda"
7 步流程:清晨定时扫新闻源 → 挑出值得看的 → 补上来源 → 摘核心观点 → 标争议点 → 资料不够的标红 → 串成选题清单
价值: "一个编辑不再花 60% 的时间在'找',而是用那 60% 的时间在'判断'"
跨域通用条件(第 5 来源总结):任务会重复 / 流程相对稳定 / 结果有一部分能自动检查
跨域应用清单(原文):内容选题 / 运营 / 客服 / 产品分析
生命周期短预言(第 5 来源独家元评论):
"Loop Engineering 这个词大概率撑不过年底的。"
类比: Prompt / Context / Harness 都已被更热词替代
但 Boris + Addy 共识不会过时:"人和它的协作方式,必须从一轮一轮的对话,升级成一个能自己运转的闭环"
工程师分流预言:"你可以做那个始终在场、理解每一行代码在发生什么的工程师。也可以做那个只负责按开始键、然后看着代码越堆越多的人。选哪个,没有标准答案。但得知道自己选的是哪个。"

五来源维度对比表¶

维度	第 1 来源(Addy Osmani)	第 2 来源(InfoQ)	第 3 来源(微信公众号教科书)	第 4 来源(若飞架构师)	第 5 来源(TechFarrari)
核心定位	概念框架 + 5 模块对照	事件报道 + 工程实现细节	系统梳理 + 教科书式分类法	工程落地 + 实操模板 + 试点方法论	批判视角 + 跨域应用 + 生命周期短预言
范式叙事	隐含(Loop > Harness > Prompt)	未涉及	4 阶段谱系:Prompt → Context → Harness → Loop	Loop > Harness > Prompt(3 层关系图)	4 阶段时间线叙事(2023→2024→2026 初→June 2026)
6 问翻译	未涉及(原 5 模块)	未涉及	未涉及	6 工程问题(独家)	6 问翻译(与第 4 独立收敛)
责任批判	隐含(质量门禁是 AI 不漂移的唯一保障)	47 轮状态机难调试 10 倍	Loops 从低风险自动化开始	5 条保守原则 / 诚实回答清单	47 轮 loop 状态空间崩溃 + 商业动机批判(独家)
成本量化	未量化	480 次/8h + Opus vs Haiku	5-20 万/50-200 万/数百万/周	任务卡含"最大运行 30 分钟"	"原来 1 块钱干一件事,现在 1 块钱建个机器干十件事"(定性比喻)
跨域应用	未涉及	未涉及	未涉及	5 类试点场景(事实核验/CI 分流/...)	内容选题 loop / 数字主编 + 跨域 3 条件(独家)
生命周期	未涉及	未涉及	未涉及	未涉及	"Loop Engineering 撑不过年底"预言 + 半年观察期(独家)
人在场	验证仍在人头上	SPEC 文件 + 测试说"不"	封闭循环 + 质量门禁	5 条保守原则 + 诚实回答	工程师分流预言(始终在场 vs 按开始键,独家)
7 天试点	未涉及	Loops 从低风险自动化开始	设计循环先于写 prompt	7 天试点模板(选场景/写任务卡/...)	未涉及 7 天,加 5 类跨域场景分类

与已有 source 呼应¶

6 问翻译的"模式收敛"(第 5 来源 + 第 4 来源若飞独立给出): Addy 5 模块的 6 工程化翻译,被两个独立公众号(架构师 + TechFarrari)同时给出,强烈信号这是 Loop Engineering 的"自然认知映射"——非偶然。这与 Harness Engineering Framework 的"3 阶段演进谱系"被 4+ 个 entity 独立复述的模式一致
责任批判补全了前 4 来源的"乐观叙事"(第 5 来源独家视角): 前 4 来源(Addy / InfoQ / 微信公众号教科书 / 若飞)都集中在"如何设计更好 loop",没有一篇对 loop 提出成本/责任/商业动机的批判——第 5 来源填补了"loop 局限性的诚实讨论"维度。这是 Loop Engineering 主题"五维分析"(概念 / 工程 / 落地 / 批判 / 跨域)的最后一块拼图
跨域应用案例(第 5 来源独家): 与 Harness Engineering 在 SaaS / DevOps / 客服 / 编程的多领域应用模式相同,Loop Engineering 也已扩展到内容选题。这是 Loop 工具链成熟的标志——"凌晨 4 点 bot → 8 点选题会 agenda"是 24h Agent 工作流在内容产业的真实落地
范式迁移叙事 4 阶段时间线(第 5 来源独家): 与前 4 来源的"Loop > Harness > Prompt"层级关系互为表里——前 4 来源给"层级",第 5 来源给"时间线",合起来是"Loop 演化的完整画像"
生命周期短预言(第 5 来源独家): 与 Anthropic 缓存 Token 经济等 raw 中对"AI 圈造词速度"的批评态度一致——"每过几个月就有个新词,每个新词都宣称自己要杀死上一个"——但保持冷静的"造词速度观察期"是工程师理性态度
商业动机批判(第 5 来源独家): 与纳德拉「Token 资本」论的"前沿模型 ≠ 价值"警告同源——都反对"造词 = 价值"的偷换;与 Fable 5 Runtime Contract 的"系统能不能跑完任务"判断同源——都强调工程责任换形态

实践启示¶

加 5 维度判断后再用 loop: 把第 5 来源的"6 问 + 5 类跨域场景 + 责任批判"和第 4 来源的"5 项准入表"叠在一起,得到完整的"loop 成熟度自检清单"
警惕 47 轮崩溃: 第 2 / 3 / 5 来源都独立提到"47 轮 loop 状态空间崩溃" — 这是 Loop Engineering 当前最大的工程瓶颈,不是单元问题
跨域复制前看"3 条件": 任务会重复 / 流程相对稳定 / 结果可自动检查 — 满足这 3 条,loop 就有落地空间
造词速度观察期: 任何新概念,先等半年 — 第 5 来源的"造词速度"批评可以推广为"AI 圈新概念评估标准"
永远做"始终在场的工程师": 哪怕 loop 帮你省了 60% 时间,那 60% 也应投入"理解每一行代码在发生什么" — 这是工程师身份的核心,不能让位给"按开始键"角色

→ 第5原文存档

第 6 来源 — 若飞 (架构师 JiaGouX 2026-06-15)¶

Source: 原文存档 Author: 若飞 (架构师 JiaGouX) Date: 2026-06-15

这是若飞 6 月 11 日《Loop Engineering 工程现场》(第 4 来源) 4 天后的续作——把工程现场的"试点方法论"推进到"实用指南级"的 6 部件最小结构 + 3 类型 Loop + 18 字段设计表 + 双实战模板(CI 分流/写作核验) + 4 预算上限 + 8 项暂停清单。

核心金句："先写刹车，再写循环"。

互补角度¶

6 部件最小结构（核心贡献）：触发器 / 隔离空间 / 过程资产 / 执行器 / Evaluator / State——比 Addy Osmani 5 模块 + 记忆位置更"团队语言化"的拆解，并把 Evaluator 和 State 明确为最易忽略的 2 个部件。没有 Evaluator = 自写自审；没有 State = 每天入职的新同事。这是前 5 来源都没明确点出的"双盲点"。
三类 Loop 路径（核心贡献）：提醒型 → 修复型 → 演进型——明确给出入门路线和"普通团队不要从演进型开始"的警告。前 5 来源都集中在工程实现，没有清晰的"loop 类型分级 + 推进顺序"。
CI 分流 Loop 实战模板：完整 6 段（目标/输入/允许动作/禁止动作/验证/停止）——可直接复制的第一版 loop。第 4 来源若飞已给过 7 天试点框架，第 6 来源给"试点后第一个具体 loop 长什么样"。
写作核验 Loop 实战模板：对技术稿的"事实断言核验"——这是前 5 来源都没涉及的应用场景。把"线索归线索、观点归观点"做成可工程化的核验 loop。价值：逼着把"看到的说法"和"自己的判断"分开。
4 个预算上限（核心贡献）：最大运行时长 / 最大迭代轮数 / 最大 token 或金额 / 最大无进展轮数（最重要的一个）。"连续两轮没有新增证据、没有缩小失败范围、没有通过任何新增验证"就停止——这是无进展检测的硬规则。第 4 来源若飞给过"任务卡含最大运行 30 分钟"，第 6 来源把预算字段系统化为 4 项硬上限。
Reviewer Agent 防自写自审（核心贡献）：明确"验证者如果一边批判一边改，角色又混回去了"——验证者不允许直接修复。reviewer prompt 不要写"看看有没有问题"，要写成 6 项检查表（SPEC/未验证声明/扩大权限/跳过测试/不可回滚变更/需要人工决策）。这是前 5 来源都没明确指出的执行者-验证者边界。
8 项暂停清单（核心贡献）：目标每天变 / 验证只能靠感觉 / 需要生产写权限 / 依赖口头背景 / 预算没上限 / 团队没人读结果 / 一次性任务。前 5 来源没给出"什么时候别用 loop"的明确清单。
18 字段 Loop 设计表（核心贡献）：Loop 名称 / 业务目标 / 触发方式 / 输入来源 / 信任等级（哪类来源可信）/ 可读范围 / 可写范围 / 隔离方式 / 过程资产 / 执行动作 / 验证方式 / 状态账本 / 成本上限 / 停止条件 / 人工升级 / 回滚方式 / 复盘入口——填不完的地方，通常就是系统还没准备好的地方。这是前 5 来源都没给出的"完整 loop 自检清单"。
prompt 位置的工程化转移：从"对模型说一句话" → "给一个持续系统写运行协议"。第 4 来源若飞讲 /goal 时给过类似判断，第 6 来源在 loop 层面再次点出。
与 cron / workflow / harness 的对比澄清：cron 解决"什么时候醒来" / workflow 解决"步骤怎么排" / harness 解决"模型运行在什么环境里" / loop 关心的是"这一轮做完以后，系统如何根据反馈进入下一轮，或者停止"。前 5 来源都把 loop 与 harness 混着讲，第 6 来源首次明确 4 者的层次关系。

与已有 5 来源的关系¶

第 1 来源（Addy Osmani 2026-06-07）：概念框架 + 5 模块 — 回答"loop 是什么"
第 2 来源（InfoQ Boris+Peter 2026-06-02）：事件报道 + 工程实现细节 — 回答"Claude Code 怎么落地"
第 3 来源（微信公众号教科书）：4 阶段谱系 — 回答"loop 在演化谱系中的位置"
第 4 来源（若飞 6/11 架构师工程现场）：7 天试点 + 5 项准入表 — 回答"试点方法论"
第 5 来源（TechFarrari 2026-06）：批判视角 + 跨域应用 + 生命周期预言 — 回答"loop 的局限性与诚实讨论"
第 6 来源（若飞 6/15 架构师实用指南，本篇）：6 部件最小结构 + 3 类型 + 18 字段设计表 + 双实战模板 + 4 预算 + 8 暂停 + reviewer agent — 回答"loop 第一行代码怎么写"

第 4 + 第 6 来源是若飞本人在 4 天内的演进：第 4 来源（6/11）讲"如何试点 loop"，第 6 来源（6/15）讲"试点后第一个具体 loop 长什么样"。合起来 = 完整的"试点 → 落地"两步走。

与其他实体的关系¶

CI 分流 Loop 模板与高德 Harness/SDD 体系的"ATDD 测试闭环"互补：高德讲 SDD 主链路 CI 反馈，本文给"AI 自主修复 CI"的 loop 模板
Evaluator 部件与 Harness 架构的"验证层"同源——Loop 把 Harness 验证层拉成独立部件
State 部件与 Hermes Loop 架构的状态管理同源——本文的 State = Hermes 的 LoopState/HandoffRecord
reviewer agent 不允许直接修复与 Agent 编排范式的"生成器-验证器分离"模式一致
18 字段设计表与 agent-harness 12 components 7 decisions的"Harness 完整部件清单"互补——Harness 是"环境内规则"，Loop 是"环境外循环节奏"

关键独到判断¶

"Loop 不是一句 prompt，也不是一个 cron。它是'触发、执行、验证、记录、继续或停止'的小系统。"

"最危险的 loop 往往不是跑不起来，而是跑得太顺，顺到没人知道它为什么继续。"

"prompt 从'对模型说一句话'，变成了'给一个持续系统写运行协议'。"

"如果连续两轮没有新增证据、没有缩小失败范围、没有通过任何新增验证，停止并交还给人。这比'继续优化'有用得多。"

"验证者如果一边批判一边改，角色又混回去了。"

"填不完的地方，通常就是系统还没准备好的地方。"

"这不是降低工程要求。这是把工程要求提前了。"

→ 第6原文存档

第 7 来源：微信公众号「AI技术立文」"14 步路线图：从 Prompt 工程师到 Loop 架构师" (2026-06-16)¶

Source: 原文存档 Author: AI技术立文 Date: 2026-06-16 12:31

本篇是 Loop Engineering 主题的第 7 来源——前 6 来源分布在不同深度（Addy 概念 / InfoQ 事件 / 教科书 4 阶段 / 若飞 7 天试点 / TechFarrari 批判 / 若飞 6 部件实用指南），本文的最大价值是把现有洞见按学习顺序重新组织为 14 步渐进路线图——是 Loop Engineering 的"教学化导读"。

核心贡献¶

14 步 = 3 层级渐进路线（核心教学价值）：
第一部分（01-04）：先判断你是否真的需要循环——4 条件测试 + 谁赢谁输 + 30 秒检查清单
第二部分（05-09）：再学习 5 个核心模块——自动化（心跳）/ 工作区（隔离）/ 验证（说"不"）/ 记忆（plan.md）/ 调度（管道）
第三部分（10-14）：最后构建最小可用循环——5 步搭建法
4 条件测试 = 入门版准入判断（与若飞 5 项准入表对照）：任务重复 / 验证可自动化 / Token 预算 / Agent 有高级工程师工具链——比若飞的 5 项少"权限可隔离"一项，更适合新手判断
30 秒循环检查清单 = 5 条任一不过 = 继续手写 prompt（5 项准入的"快速版"）：每周发生 / 自动否决 / 能跑自己改的代码 / 硬性终止条件 / 合并前有人审核——把"什么不该做"从"反方批判"变成"5 条可勾选检查项"
"谁赢谁输"段落 = 经济学筛选（新增独立板块）：消费级套餐独立开发者跳过 / 缺乏自动验证的代码库跳过 / 瓶颈在 code review 的团队跳过——前 6 来源都未给出这种经济学维度的明确分流
好的第一个循环 5 类清单：CI 失败分诊 / 依赖升级 PR / Lint 修复 / Flaky 测试复现 / Issue 转 PR 草稿——与若飞第 4 来源的"5 类试点场景"完全对应（事实核验/CI 分流/文档检查/重复故障归类/依赖升级预检查），这是模式收敛信号：好的第一个循环的 5 类清单被两个独立作者独立给出
5 个核心模块对照表：与第 1 来源 Addy 5 模块 + 记忆 / 第 3 来源 6 模块（加 Worktree）/ 第 6 来源 6 部件最小结构（加 Evaluator + State）有轻微差异——本文的 5 核心模块 = 自动化 / 工作区 / 验证 / 记忆 / 调度（少了"规则/连接器"，多了"调度"）——"调度"是前 6 来源没作为独立模块的概念（Addy 把调度合并入"自动化"）

七来源维度对比表¶

维度	第 1（Addy）	第 2（InfoQ）	第 3（教科书）	第 4（若飞 6/11）	第 5（TechFarrari）	第 6（若飞 6/15）	第 7（AI技术立文 14 步）
核心定位	概念框架	事件报道	4 阶段谱系	试点方法论	批判视角	实用指南	教学地图 + 14 步渐进路线
模块数	5+1 记忆	技术规格	6 模块	5 样+1 状态	5 模块	6 部件	5 核心模块（少规则，多调度）
准入判断	未涉及	Loops 低风险开始	封闭循环先行	5 项准入表	不盲信	8 项暂停清单	4 条件测试 + 30 秒检查清单
学习路径	隐含	未涉及	4 阶段时间线	7 天试点	未涉及	试点后第一行代码	14 步渐进路线（从 0 到 1）
新手友好	中	低	中	中	中	中	高（教学化导读）
创新贡献	高（首提 5 模块）	高（Claude Code Loops）	中（教科书化）	高（5 项准入 + 7 天）	高（批判+跨域）	高（6 部件+18 字段）	低（重新组织，不新洞见）
教学价值	中	低	中	中	低	中	高（导读地图）
反方声音	未涉及	47 轮崩溃	47 轮崩溃	整合反方观点	商业动机批判	8 项暂停	30 秒检查清单 = 反方建议的可操作化

与已有 6 来源的关系¶

教学地图价值：前 6 来源各自深度独立，第 7 来源是"把它们按学习顺序串成路线"——这是 Loop Engineering 主题的教学化整合，新人入门可从第 7 来源开始，再按需深入其他 6 来源
4 条件测试 vs 5 项准入表：若飞的 5 项 = 4 条件 + "权限可隔离"——本文的 4 条件更适合新手（少一项记忆负担），若飞的 5 项更适合工程现场（多一项工程纪律）
30 秒检查清单是 5 项准入的快速版：把"什么不该做"从"反方批判"（第 5 来源 TechFarrari）变成"5 条可勾选检查项"——这是反方建议的可操作化转化
好的第一个循环 5 类清单与若飞 5 类试点场景（事实核验 / CI 分流 / 文档检查 / 重复故障归类 / 依赖升级预检查）完全对应——模式收敛信号：好的第一个 loop 的 5 类清单被两个独立作者独立给出
5 核心模块的"调度"模块（前 6 来源没作为独立模块）：Addy 把调度合并入"自动化"，本文把"调度"独立为 5 个核心模块之一——这是教学化重组，无新洞见但便于学习
Anthropic 自承数据夸大：本文引用"Anthropic 工程师每天合并代码量 8×"但未批判这数字——这与第 5 来源 TechFarrari 的"商业动机批判"形成对照，本文没有 5 来源的反方批判维度

反方警示（本文未涉及的反方视角）¶

47 轮 loop 状态空间崩溃（第 2/3/5 来源独立提及）——本文未涉及（这是 5 类试点场景应警惕的最大工程瓶颈）
Token 成本量化（第 3 来源 5-20 万 / 50-200 万 / 数百万/周，第 6 来源 4 预算上限）——本文的"Token 预算扛得住浪费"只是定性判断，未给具体数字
Anthropic 8× 数字的批判（第 5 来源）——本文未批判，直接引用

关键独到判断¶

14 步路线图 = 入门版 Loop Engineering 教学：前 6 来源分布在不同深度，第 7 来源是按学习顺序的渐进路线——这是 Loop Engineering 主题的"教学化整合"
30 秒检查清单 = 工程伦理的可操作化：把"什么不该做"从"反方批判"变成"5 条可勾选检查项"——这与第 5 来源 TechFarrari 的"商业动机批判"是互补关系（批判 vs 可操作）
4 条件测试 vs 5 项准入表：若飞 5 项 = 4 条件 + "权限可隔离"——本文的 4 条件更适合新手判断，若飞的 5 项更适合工程现场
教学价值 > 创新价值：本文价值在导读与渐进，不在新洞见——可直接作为新人入门 Loop Engineering 的"导读地图"

实践启示¶

给新人读第 7 来源入门：14 步路线图是 Loop Engineering 主题的"导读地图"，按学习顺序渐进；深度使用应回到第 4 / 6 来源（若飞）
4 条件测试 vs 5 项准入表选择：新手判断用 4 条件测试（少一项记忆负担）；工程现场用 5 项准入表（多"权限可隔离"）
30 秒检查清单作为反方建议的可操作版本：把"什么不该做"从"反方批判"转成"5 条可勾选检查项"——是 Loop 团队落地的最快判断工具
好的第一个循环 5 类清单：CI 失败分诊 / 依赖升级 PR / Lint 修复 / Flaky 测试复现 / Issue 转 PR 草稿——与若飞 5 类试点场景模式收敛，新人起步的最佳任务
直接引用 Anthropic 8× 数据时加 caveat：本文的引用是 "Anthropic 工程师每天合并 8× 代码"，但Anthropic 自己承认"几乎肯定夸大"——任何引用此数据的文档都应加 caveat

→ 第7原文存档

第 8 来源:爱范儿「提示词过时了?AI 最新的玩法是「无限流」」(2026-06-16 18:00)¶

Source: 第8原文存档 Author: 爱范儿 (发现明日产品的知名科技媒体) Date: 2026-06-16 18:00

本来源是 Loop Engineering 主题的第 8 来源 —— 前 7 来源都集中在工程/学术/批判视角(Addy Osmani / InfoQ / 教科书 / 若飞工程现场 / TechFarrari 批判 / 若飞实用指南 / AI技术立文教学路线),本来源是主流科技媒体的产品资讯视角 + "新瓶装旧酒"质疑视角 —— 填补了"公众/非工程受众如何理解 loop + 造词反思"的视角空白。

核心贡献¶

AI 圈造词史时间线(本来源独家视角): 提示词工程 → Harness 工程 → Loop Engineering —— "人从一次对话变成一个完整回路"
KOL 集体站台 (本来源独家清单):
龙虾之父(X 发文): "不要在 Coding Agent 类产品里面写提示词了,我们应该设计一些循环来使用这些 Agent"
Tibo(Codex 负责人): 转发龙虾之父,问网友是否已经开始写嵌套循环了
Boris Cherny(Claude Code 产品负责人): "不跟 Agent 对话,跟 loop 对话,让 loop 替我来 prompt"
Cat Wu + Boris Cherny(Claude 官方回顾节目): 两人都表示很喜欢 loop,认为 Loop 是下一个 Leap
Addy Osmani(Google Cloud AI 总监): X 发布循环工程文章
5 个核心问题(本来源独家提炼): 一个完整的 loop 至少要回答 5 个问题 —— AI 什么时候开始干活? / 能调用哪些工具? / 怎么知道做错了? / 结果记在哪里? / 什么时候必须停下来交给人?
5 积木 + 1 记事本(本来源对 Addy Osmani 体系的重述): 定时任务 / Worktree / Skill / 连接器 / 子 Agent + 状态文件 —— 并给出3 个主流产品的对照(Codex Automations / OpenClaw HEARTBEAT / Claude Cowork Scheduled)
跨场景应用(本来源独家清单): 内容工作(选题/资料/初稿/事实检查/标题优化/发布前检查) / 客服(读来信+判断类型+生成草稿+敏感投诉留人) / 产品运营(用户反馈/应用商店评论/社媒讨论/竞品更新) / 研究(追踪主题下新论文/报告/数据)
Token 成本两极分化(本来源独家深度分析): 月付 20 美元跑两天达周限额 vs 龙虾之父/Claude Code 负责人/Google Cloud AI 总监无上限
"时间成本→Money 成本"转移(本来源独家洞察): "Loop Engineering 不会让 AI 协作变得无成本,它只是把成本从「人一轮轮盯着」的时间成本,转移到「系统一轮轮运行」Money 成本"
4 条入门前提(本来源提炼): Token 管够 / 任务每周重复 / 自动验证 / Agent 高级工程师素养 —— 缺任一条成本可能高过回报
"新瓶装旧酒"质疑(本来源独家反思视角): "AI 圈造词大师,新词不断但本质不变" —— loop 是不是新学科不重要,关键是分界线

与第 5 来源(TechFarrari)的对比¶

维度	本来源(爱范儿 2026-06-16)	第 5 来源(TechFarrari)
批判视角	"新瓶装旧酒"质疑 + 造词反思	商业动机批判 + 责任迁移警告
批判强度	温和质疑(中立 + 反思)	强批判(商业动机 + 责任)
批判角度	造词学/术语学	经济学/伦理学
批判目标	"是不是新概念"	"是不是有价值 / 谁赚钱"
共识结论	"loop 是不是新学科不重要,关键是分界线"	"loop 大概率撑不过年底"

与其他 7 来源的关系¶

维度	本来源	第 1-7 来源
定位	主流科技媒体产品资讯+质疑	工程/学术/批判/教学
核心问题	是不是新瓶装旧酒?	loop 是什么/怎么落地/怎么试点
是否正面	质疑+中立	全部正面(除 TechFarrari)
Token 经济学	深度分析(月付 20 美元 vs 无上限)	量化/未涉及/定性/预算字段
造词反思	明确提出	仅第 5 来源商业动机批判
跨场景	内容/客服/产品运营/研究	仅第 5 来源内容选题

关键独到判断(本来源独家)¶

"新瓶装旧酒"质疑: AI 圈造词大师,新词不断但本质不变 —— 本来源的造词学反思
Token 成本两极分化: 月付 20 美元 vs 无上限 → 循环经济是有预算人的常识
"loop 是不是新学科不重要,关键是分界线"(本来源独家结论): 真正值得讨论的是哪些工作适合循环 / 哪些只需要一句好提示词
主流科技媒体视角: 与工程视角 / 学术视角 / 批判视角都不同,是从公众/产品用户视角看 loop
"时间成本→Money 成本"转移(本来源独家洞察): 不变的是成本总量,变的是成本形式
KOL 集体站台清单(本来源独家整理): 龙虾之父 + Tibo + Boris Cherny + Cat Wu + Addy Osmani —— 5 位 KOL 全部提及

实践启示(本来源补全)¶

Token 预算是入门 Loop Engineering 的第一前提: 月付 20 美元套餐跑不了循环
任务每周重复: 一次性活不需要循环,直接写提示词更快
3 条入门标准: 自动验证 + Agent 高级工程师素养 + Token 管够
跨场景扩展: loop 不止编程 —— 内容/客服/产品运营/研究都可
"分界线"思维(本来源独家): 不要被"循环工程"这个名词绑架,真正的问题是"哪些工作适合循环 / 哪些不需要"
AI 圈造词观察期(本来源独家反思): 任何新概念,先等 6 个月看是否被淘汰 —— 可推广到所有 AI 圈新概念

→ 第8原文存档

第 9 来源 — AllenTang 架构师带你玩转 AI「一文搞懂 Loop 工程」(2026-06-16 20:34)¶

Source: 第9原文存档 Author: AllenTang (架构师带你玩转 AI) Date: 2026-06-16 20:34

本来源是 Loop Engineering 主题的第 9 来源 —— 用 Karpathy AutoResearch (2026-03-07) 真实故事拆解 Loop Engineering 的真相:循环本身(while)简单,真正值钱的是循环外面那把尺子 (eval)。本来源填补了其他 8 来源都没把"eval"作为 Loop Engineering 核心价值的视角空白。

Karpathy AutoResearch 完整故事(本来源独家)¶

时间线 (2026-03-07): - 3 月 7 日晚上,Karpathy 上传 630 行 Python 小程序到 GitHub → 去睡觉 - 第二天早上醒来,程序整夜没闲着: 自己改了模型的训练代码 → 跑了 50 次实验 → 找到了一个更好的参数 → 自动提交到代码库 - 整个过程:没有人在旁边盯着,没有一句人类指令插进去

两天最终结果: - 700 次实验(放开跑两天) - 模型训练时间从 2.02 小时压到 1.80 小时,提速 11% - 这些改进是人类维护者自己都没找到的 - GitHub 6.6 万+ 星

Shopify CEO 案例: - 让它优化自家的模型 - 一晚上跑了 37 个实验 - 性能提升 19%

Karpathy AutoResearch 朴素拆解(本来源独家)¶

"AI 整夜自主研究" 听起来吓人,落到工程上,就是一个会自己转很多圈、且没人值守的 while 循环。

朴素 while 循环:

开始循环:
  问大模型: 下一步该干嘛?
  如果大模型说"我做完了" → 退出循环
  如果大模型说"我要用某个工具" → 执行它,把结果告诉大模型
  回到循环开头,再问一遍

AutoResearch 循环:

读"目标说明书"(我要优化哪个指标)
  → 改一行训练代码
  → 跑 5 分钟实验
  → 看结果变好了还是变差了
  → 变好留下,变差撤销
  → 回到开头,再改下一处

跟订机票那个圈,结构上一模一样。唯一的区别是:这个圈,它一晚上转了 50 遍、100 遍,没人管。

真正难的不是让它转,是让它停(本来源独家金句 1)¶

反直觉答案: 难在让它停下来,停在对的地方。

3 类典型翻车(本来源独家分类)¶

翻车类型	现象	后果
停早了	任务还没完,模型觉得"差不多了"就退出	留下半成品
停不下来	模型陷进死胡同,反复尝试根本行不通的方向	时间和钱都烧光(有人遇到过 Agent 卡在循环里,反复去搜压根不存在的资料)
停错了地方(最隐蔽)	它自以为成功,实际上结果是错的	信心满满地把错误结果交给你

Karpathy 的核心解法: 把"什么时候停、凭什么算成功"这件事,从模型手里拿走了。

值钱的不是循环,是循环外面那把"尺子"(本来源独家金句 2)¶

这是 Loop 工程最核心、也最被外行忽略的真相: 循环本身(让 Agent 转起来)很简单,谁都能写。 难的、值钱的,是循环外面那把判断好坏的尺子。 这把尺子在工程上有个名字,叫 eval(评估)。

Karpathy 的尺子:val_bpb(本来源独家代码细节)¶

核心做法: - 每圈结束时,不是问模型"你觉得变好了吗"(模型会骗自己,也会骗你) - 而是跑一个客观的、可测量的指标(val_bpb,一个数值) - 数字变好 → 保留 - 数字变差 → 用 git 一键撤销,回到上一步

模型在循环里负责"瞎想、瞎试",但"这次试得到底行不行"的最终裁决权,牢牢攥在循环外面那把尺子手里。

跟踪者的总结金句¶

"现在的瓶颈,已经从'怎么执行'变成了'怎么设计评估标准'。"

尺子正反案例¶

类型	例子	循环能跑起来?
好尺子	"训练损失这个数字,越低越好,5 分钟测一次"	✅ 整夜自己迭代,越跑越好
没尺子	"帮我写出更打动人的文案"——"打动人"无法量化	❌ 每圈结束都不知道自己是进步了还是退步

那个 40 行的小文件,才是真正的"程序"(本来源独家洞察)¶

Karpathy 的整个项目,真正值钱的不是那 630 行 Python。真正值钱的是一个只有 40 行的小文件(通常叫 ruler.py 或类似),里面是评估函数 —— 怎么打分、怎么判断、什么时候留、什么时候撤。那个 40 行的小文件,才是真正的"程序"。

属性: - 没有调用任何大模型 - 没有"智能" - 就是一堆 if/else 和数字比较 - 但它决定了整个项目能不能跑、跑得对不对

与已有 8 来源的关系(本来源定位)¶

维度	本来源(AllenTang)	第 1 (Addy)	第 4 (若飞工程现场)	第 5 (TechFarrari)	第 6 (若飞实用指南)	第 8 (爱范儿)
核心定位	Karpathy 案例 + eval 尺子哲学	概念框架	试点方法论	批判视角	实用指南	主流科技媒体
核心金句	"值钱的不是循环,是尺子"(独家)	"Loop > Harness > Prompt"	"先写停止条件"	"Loop 大概率撑不过年底"	"先写刹车,再写循环"	"loop 是不是新学科不重要"
eval 视角	核心 (本来源独家)	提及评估	评估门禁	商业动机批判	Evaluator 部件	未涉及
停不下来痛点	3 类翻车分类 (本来源独家)	未涉及	5 条保守原则	47 轮崩溃	4 预算上限	未涉及
AutoResearch 案例	完整故事+数据 (本来源独家)	未涉及	未涉及	未涉及	未涉及	提及
尺子具体例子	val_bpb + git 撤销 (本来源独家代码细节)	抽象	任务卡字段	未涉及	18 字段设计表	未涉及

关键独到判断(本来源独家)¶

"值钱的不是循环,是循环外面那把尺子"(本来源独家金句 2): Loop Engineering 最被外行忽略的真相 —— 评估(eval)是核心价值,不是循环本身
3 类翻车分类(本来源独家): 停早了 / 停不下来 / 停错了地方 —— 比现有来源的"4 预算上限"或"5 条保守原则"更直观
Karpathy AutoResearch 完整故事(本来源独家): 630 行 Python / 50/700 次实验 / 11% 提速 / 6.6 万星 / Shopify CEO 37 实验 19%
40 行 ruler.py 文件洞察(本来源独家): 真正值钱的不是 630 行 Python 主循环,是 40 行评估文件
"难在让它停"(本来源独家金句 1): 反直觉但精准 —— 现有来源强调"开始",本来源强调"停止"
Anthropic Agent 定义朴素化(本来源独家引用): "Agent,说白了就是大模型在一个循环里,根据环境给的反馈,反复使用工具"

实践启示(本来源补全)¶

AI 能不能整夜干活,不取决于模型多聪明,取决于尺子: 你的 eval 函数决定了 Agent 能不能迭代
3 类翻车提前预案: 停早了 / 停不下来 / 停错了地方 —— 设计 stop conditions 时三类都要考虑
写 Loop 时 80% 时间应该花在 eval 函数上: 那 40 行 ruler.py 决定项目能不能跑、跑得对不对
尺子要硬邦邦,模型没法作弊: 不要问模型"你觉得变好了吗"——要可测量的客观指标
git 一键撤销是好习惯: 每圈迭代都可逆,错了回到上一步
Karpathy AutoResearch 是 Loop Engineering 的 Hello World: 630 行 Python + 40 行 ruler.py = 整夜自我研究

→ 第9原文存档

第 10 来源（winty 7 种架构 + Loop Engineering 中文主流视角，2026-06-18）¶

原文：第 10 原文存档出处：前端 Q / winty 原创，2026-06-18 12:27 核心定位：7 种 Agent 架构的演进路径框架 + 中文公众号民间视角的 Boris Cherny 金句复用

本来源补充的核心维度¶

"7 种架构不是 7 个选项，是一条从左到右的演进路径"（本来源独家框架）：左边 = 单 Agent / ReAct（轻量灵活），中间 = Plan & Execute / 多 Agent（开始分工），右边 = Router / Blackboard / Graph（变成系统）。杀鸡用牛刀的告诫：别一上来就奔最右边的"最强架构"
Boris Cherny 独家金句二次传播："我现在已经不亲自给 Claude 写提示了。我有一堆循环在跑，是它们在提示 Claude、在决定下一步做什么。我的工作就是写这些循环。"——本来源把这一句作为整篇文章的杠杆点，与现有 9 个来源相互印证
"三层楼" 框架的可视化（Prompt 工程 → Harness 工程 → Loop 工程）：本来源用一张图把这三层清晰分开，比现有 9 个来源的文字描述更直观
Graph/Workflow 代表工具的具体化（本来源独家列举）：LangGraph、Temporal、Airflow、Prefect——把抽象的"DAG 架构"落地为生产级工具栈
Router + Skill ⭐ 性价比最高的断言（本来源独家推荐）：作者明确把这一架构标注为"图里被标了推荐⭐" + "我自己也觉得它是性价比最高的一种，尤其适合 AI Coding 这类场景"——与现有来源的"Meta-Controller 入口分诊"形成民间视角 vs 学术视角的对照
Multi-Agent 41-86.7% 失败率研究（本来源独家硬数据）：审计了 7 个主流多 Agent 框架的 1600 多条执行轨迹，失败率在 41% 到 86.7% 之间，最常见的失败是些很朴素的问题——没按任务要求做、角色搞混了、活还没干完就宣布成功。这是 Loop Engineering 反对"无脑上多 Agent"的硬支撑
"循环最难的是让它停下来"（本来源与其他来源的相互印证）：与第 9 来源 AllenTang 的"3 类翻车分类"和第 6 来源若飞实用指南的"4 预算上限"形成第 3 套停机闸框架——迭代次数上限 + 没进展就停的检查 + 花费上限（token 或美元） = 缺一不可
"状态外置是 Loop Engineering 的核心动作"（本来源综合判断）：把状态从模型脑子里挪到外面——进度写进 progress.txt、需求写进 prd.json、真相留在 git 里。每一轮让模型读一遍文件、干一件事、跑一遍测试、提交一次。这其实就是把 Graph/Workflow 那套"可回溯、可重试"的工程思想推到了极致
"ReAct 是所有架构的地基"（本来源独家行动建议）：作者建议前端/全栈同学别一上来研究最复杂的 Graph 架构，先把 ReAct 这个内循环吃透——理解"行动→观察→推理→重复"这个最小单元，再往上看任何架构都会有"哦，原来它只是在循环外面又包了一层"的通透感

与已有 9 来源的关系（本来源定位）¶

维度	本来源 (winty)	第 1 (Addy)	第 4 (若飞工程现场)	第 5 (TechFarrari)	第 6 (若飞实用指南)	第 9 (AllenTang)
核心定位	7 架构演进路径 + 中文主流视角	概念框架	试点方法论	批判视角	实用指南	Karpathy 尺子哲学
核心金句	"循环最难的是让它停下来"	"Loop > Harness > Prompt"	"先写停止条件"	"Loop 大概率撑不过年底"	"先写刹车,再写循环"	"值钱的不是循环,是尺子"
架构框架	7 种演进路径 (本来源独家)	提及零件	未涉及	未涉及	5 保守原则	提及 AutoResearch
多 Agent 数据	41-86.7% 失败率研究 (本来源独家硬数据)	未涉及	未涉及	商业动机批判	通信成本	提及
代表工具列举	LangGraph/Temporal/Airflow/Prefect (本来源独家)	未涉及	未涉及	未涉及	18 字段设计表	40 行 ruler.py
民间视角 vs 学术	中文主流 AI Coding 公众号民间视角	英文主流	工程现场	批判性	实用	Karpathy 案例
Router+Skill 推荐	⭐ 性价比最高 (本来源独家断言)	Meta-Controller	未涉及	未涉及	未涉及	未涉及

关键独到判断（本来源独家）¶

"7 种架构是一条演进路径"（本来源独家框架）：不是并列选项，是从单 Agent → ReAct → Plan & Execute → 多 Agent → Router/Blackboard/Graph 的从左到右的难度递增
"多 Agent 41-86.7% 失败率"（本来源独家数据）：7 个主流框架 + 1600 多条执行轨迹的审计，是 Loop Engineering 圈对"无脑上多 Agent"的最有力反证
"Router + Skill 性价比最高"（本来源独家推荐）：与现有 9 来源的"Meta-Controller 入口分诊"形成民间视角 vs 学术视角的对照，作者明确标注⭐
"Boris Cherny 那一句话"作为整篇文章的杠杆点（本来源传播学角度的独特性）：9 个来源里有 3 个提及 Boris Cherny，但本来源把这一金句放在文章正中央的图旁边，作为视觉锚点 + 概念锚点
"三层楼"图示（Prompt → Harness → Loop）：把抽象的三层概念可视化为一张图，是本来源对 Loop Engineering 概念传播的最大贡献
"ReAct 是所有架构的地基"（本来源独家行动建议）：从 7 架构的视角反向论证——所有架构都只是在 ReAct 外循环上面又包了一层
"Graph 工具栈落地"（本来源独家列举）：LangGraph、Temporal、Airflow、Prefect 把抽象的"图架构"映射到 4 个生产级工具，这是其他 9 个来源都没明确列举的
"循环在更大尺度上是同一个问题"（本来源独家洞察）：ReAct 设 maxIterations 是微观循环，loop engineering 设停机闸是宏观循环——本质上是同一个"如何让循环停下来"的问题在两个尺度上的重演

实践启示（本来源补全）¶

从左往右选架构：能用简单的就别上复杂的。大部分需求一个 ReAct 或 Router + Skill 就够了
多 Agent 是放大器不是默认选项：41-86.7% 失败率摆在那，先单循环跑通、加审查角色、最后才上编排者
三道硬闸缺一不可：迭代次数上限 + 没进展就停的检查 + 花费上限（token/美元）
状态外置是 Loop Engineering 的核心动作：进度 → progress.txt，需求 → prd.json，真相 → git。模型失忆不怕，系统的状态还在
ReAct 是地基不是进阶：所有架构的本质都是 ReAct 外循环的包装。先把"行动→观察→推理→重复"吃透，再看任何架构都会有通透感
前端/全栈入手路径：不研究最复杂 Graph，先把 ReAct 内循环搞透——这是 80% 生产级 Agent 的默认内核
"循环 = 产品本身"的范式转移：别再纠结"要不要让它循环"，大方承认"循环就是产品"，把全部精力放在设计好、验证好、停得住
"模型只会越来越强，到时候真正卡住产出的，不是模型，而是设计循环那个人的判断力"——本来源收尾金句，与第 5 来源 TechFarrari 的批判性形成对照

→ 第10原文存档

第 11 来源：微信公众号「Loop Engineering：从 AutoResearch 到 Claude Code——循环设计的第一性原理」（2026-06-18）¶

Source: 第11原文存档 Date: 2026-06-18

本来源是 Loop Engineering 主题的第 11 来源——以 Karpathy AutoResearch 和 Claude Code queryLoop 为双案例，提炼循环设计的 5 个关键决策（终止条件/检查点/回退策略/粒度/子任务委派）和 3 个陷阱（验证困境/理解债/认知投降）。与前 10 来源的最大差异是：系统化的决策框架 + 可复用代码模板 + 独有数据源。

核心贡献¶

5 设计决策系统化（核心贡献）：终止条件（4 类型：目标达成/资源耗尽/质量劣化/主动中断）/ 检查点（deny-first 渐进权限）/ 回退策略（ratchet/rollback/retry/branch 四选一）/ 循环粒度（细→粗的权衡）/ 子任务委派（3 条件：耗时>5min/独立上下文/无依赖可并行）——前 10 来源分散涉及各决策项，本文首次把 5 个决策系统化为一张决策表，可直接套用
should_stop() 可复用模板（本来源独家代码）：4 行 Python 代码模板（goal_achieved/budget_exceeded/quality_degrading/user_interrupted）——前 10 来源都只给原则，本文首次给可执行代码
AutoResearch 3 文件极简结构（本来源首次在 Loop Engineering 语境详细拆解）：prepare.py（🔒只读）/ train.py（🤖可改）/ program.md（👤人写）——与 Claude Code queryLoop() 1.6% 对比，两个独立工业级系统得出同一结论：循环决策逻辑 < 10%
ratchet 机制深度分析（本来源独家在 Loop Engineering 语境）：只前进不后退的回退策略——val_bpb 是明确标量时最激进也最安全；目标非标量（如"代码质量"）时不适用。选择回退策略取决于目标函数的可量化程度
独有数据源（前 10 来源未引用）：
MSR 56.1%：AI agent commit 中 56.1% 降低了代码可维护性——比 TechFarrari（第5来源）的批判更硬的数据
Shen & Tamkin 2026：AI 辅助下开发者代码理解力测试得分低 17%——Comprehension Debt 的量化证据
He et al. 2025：807 个仓库因果分析，AI 编码工具后代码复杂度上升，速度提升 3 个月后消散至基线——最硬的纵向数据
Anthropic 132 名工程师调查：过度依赖 AI 可能萎缩监督 AI 所需技能——"监督悖论"
Claude Code 93% 权限批准率：人有惰性，"无脑点同意"的肌肉记忆——Harness 分层权限的必要性证据
三阶段跃迁模型（Prompt→Context→Loop）：本文把 Addy Osmani 的层级关系明确为"不能跳级"的叠加依赖——没有好的 Context，循环每轮在垃圾信息里打转；没有好的 Prompt，循环每步执行质量不过关
作者原创思考（3 处）：
"Agent 中的 Loop 跟 SFT/RL 有些像，需要监督数据——可量化的目标是决定能否 Loop 的关键"——Loop 可行性 ≈ 目标函数可量化程度
"Agent 进化像编译器'自举'，冷启动后向自进化演进"——自举类比
"claude code 运行中特定步骤的 prompt，是基于 context + 压缩/组合策略得到的"——Prompt 本身是 Context 的函数

与已有 10 来源的关系¶

维度	本来源（第11）	前 10 来源覆盖度
5 设计决策系统化	首次完整决策表	分散涉及（第4/6来源有准入表/暂停清单）
should_stop() 代码模板	独家	无
ratchet 回退策略	深度分析	仅第1来源概念提及
独有数据源（MSR 56.1%等）	5 项新数据	无
三阶段不能跳级	明确化	第3来源有4阶段谱系但未强调依赖
AutoResearch 3 文件结构	详细拆解	第10来源（AllenTang）有评测量规视角
ETCLOVG 7 层框架	复述	第9来源（CMU/Yale/JHU survey）首发

关键独到判断（本来源独家）¶

"Karpathy 没有在写提示词，他在设计一个循环系统"——一句话点明 Loop Engineering 的本质区别
"循环决策逻辑应该占代码总量的 < 10%"——两个独立工业级系统（AutoResearch + Claude Code）的收敛结论
"如果你说不清楚终止条件是什么，那就不要开始这个循环"——循环设计的第一原则
"目标可衡量是决定能否 Loop 的关键"——Loop 可行性的判断标准
"没有 harness 的 loop 就像没有刹车的跑车"——Loop + Harness 一体两面的最简表达
"三个陷阱的对策不在循环逻辑内部，而在 harness 层"——ETCLOVG 框架的实践结论

实践启示（本来源补全）¶

用 5 决策表设计循环：先回答终止条件→检查点→回退→粒度→子任务，再动手写代码
用 should_stop() 模板作为循环入口：4 个条件是循环的"安全阀"
选择回退策略前先问"目标是否可量化"：标量→ratchet；非标量→rollback/branch
循环粒度从细起步：先单工具调用，验证稳定后再放粗
子 Agent 只在"并行收益 > 协调成本"时派发：7× token 代价不低
每轮循环加"AI 必须解释为什么这样改"——对抗 Comprehension Debt
每周手动完成一次核心任务——对抗 Cognitive Surrender

→ 第11原文存档

第 12 来源：微信公众号「Loop Engineering 综合实战（三层结构 + 五要素 + 解剖 6 组件 + 4 模式 + 成本公式 + 三款产品 Loop 能力对比 + 组织准备度总表 + Ralph Loop 极简主义 + 三大风险）」（2026-06-18）¶

Source: 第12原文存档 Date: 2026-06-18

本来源是 Loop Engineering 主题的第 12 来源 — 60KB / 865 行史诗级综合解读，从直觉建立（第一层）→ 机制拆解（第二层）→ 决策框架（第三层） 三层结构展开。与前 11 来源最大差异：唯一覆盖"产品对比表 + Ralph Loop 极简主义 + 组织准备度总表 + 成本公式 + 三大风险"完整决策链。

核心贡献¶

三层结构方法论（本来源独家框架）：第一层（直觉：四次抽象跃迁 + 手工作坊到自动化工厂类比）/ 第二层（机制：五要素 + 解剖 6 组件 + 4 模式 + 多 Agent 拓扑）/ 第三层（决策：产品对比 + 成本公式 + 三大风险 + 组织准备度 + 规模化陷阱）— 前 11 来源分散覆盖各零件，本文是唯一给出完整三层结构的综合解读
三款产品 Loop 能力 7 维度对比表（本来源独家硬数据）：Claude Code / OpenAI Codex / OpenCode 在 Automations/Worktrees/Skills/Connectors/Sub-agents/Memory/Loop 开箱度 7 维度的逐项对比 + 5 类团队场景的选型决策表 — 前 11 来源零覆盖
Ralph Loop 极简主义（本来源独家完整实现）：while true + claude "Fix the next failing test" + npm test + sleep 5 — 一行 Bash 死循环证明 Loop Engineering 不等于复杂工程，"先跑起来，再优化"
成本公式 + 三场景月成本估算（本来源独家工程经济学）：单次 Loop 成本 = 迭代次数 × token × 单价 × 并行数 + 实际月成本 = 基础成本 × Thrashing 系数 + 简单 bug 修复 $5K-10K / 功能开发 $20K-50K / 架构重构 $50K-150K 月成本表 + 试点 vs 规模化分阶段策略 + 月均 API > $1K 是启动阈值
组织准备度总表（5 维度 × 3 档评级）（本来源独家）：Token 预算 / Prompt Engineering / Context Engineering / Code Review / 质量卡口 / 组织文化 6 维度 × 暂缓/可以试点/就绪 3 档评级 + 判断规则 — 给管理者可直接套用的决策矩阵
三大风险系统化（本来源独家整理）：Comprehension Debt（理解债务）/ Cognitive Surrender（认知投降）/ Verification Gap（验证缺口）— 含本质 / 你失去什么 / 最危险的信号 / 应对核心 4 维度表格化
6 组件运行时骨架（本来源独家）：Goal / Tools / Context / Termination / Error Recovery / Guardrails — 与第 11 来源的 5 设计决策互补
4 种 Loop 模式对比（本来源独家）：Retry / Plan-Execute-Verify / Explore-Narrow / Human-in-the-Loop 4 模式 + Thrashing / 过拟合 / 上下文漂移 / 认知投降 4 陷阱 + 4 安全网
资源类 vs 认知类护栏分类（本来源独家）：资源类焊死不留开关；认知类可插拔独立层
辩论对抗陷阱（本来源独家硬数据）：两个 Agent 互相说服越聊越自信，最后一致同意错误结论 — 多 Agent ≠ 多可靠

与已有 11 来源的关系¶

维度	本来源（第12）	前 11 来源覆盖度
三层结构（直觉/机制/决策）	独家完整框架	分散涉及
产品对比表（Claude Code/Codex/OpenCode）	独家 7 维度对比	零覆盖
Ralph Loop 极简主义	独家完整 Bash 实现	零覆盖
成本公式 + 月成本估算	独家工程经济学	散见提及
组织准备度总表	独家 5×3 评级矩阵	零覆盖
三大风险系统化	独家 4 维度表格	散落提及
6 组件运行时骨架	独家	第 11 来源有 5 设计决策但侧重设计
4 Loop 模式对比	独家 4 模式 + 4 陷阱 + 4 安全网	零散涉及
资源类/认知类护栏分类	独家	零覆盖
辩论对抗陷阱	独家硬数据	零覆盖

关键独到判断（本来源独家）¶

"Loop Engineering 不是新瓶装旧酒，它是旧酒终于有了新瓶，而这个瓶子的形状，决定了未来所有人怎么喝这瓶酒"
"模式本身比实现更重要"
"Loop 是加速器，不是纠偏器" — Loop 不会解决"AI 写的代码质量不行"的问题，只会让问题更快地出现
"审查 AI 代码需要的是'读懂陌生代码并判断其正确性'的能力，这比审查同事的代码要求更高"
"Loop 的真实月成本 = 订阅费 + API 超额费 + 人力维护成本" — 三项加总才是你该看的数字
"停下来不是失败。停下来是为了修复 Loop 的设计、补充 Skills、调整终止逻辑"
"Build the loop. But build it like someone who intends to stay the engineer" — 收束金句

实践启示（本来源补全）¶

用 5×3 组织准备度总表自评：任一维度"暂缓"先解决；全部"可以试点"选最简场景；≥3 个"就绪"再规模化
选产品前看 7 维度对比表：Claude Code（最成熟+模型绑定）/ Codex（云端并行+数据风险）/ OpenCode（最自由+配置要求高）
用成本公式算账后再投入：月 API > $1K 启动试点；月成本 $20K 量级是 Loop 替代人工的临界点
从 Ralph Loop 起步：不要被五要素框架吓到，先跑极简版体验体感
资源类护栏写死，认知类护栏可插拔：两类混在一起，要么改不动要么忘了开
3 大风险对号入座：Comprehension Debt → 强制 Code Review；Cognitive Surrender → 结构化决策辅助；Verification Gap → 非功能性检查
场景扩展的步子要小：从 lint 修复 → 功能开发 → 架构重构逐步推进
每周固定"代码审计日"：对抗理解债务累积
团队工程规范明文写入：哪些决策 Loop 做、哪些决策人做

→ 第12原文存档

第 13 来源：AI技术立文「给产品经理的loop engineering」（2026-06-24，v×c=42 临界，PM 视角）¶

Source: 第13原文存档 Author: Shubham Saboo (Google PM), 译/改编: AI技术立文 Date: 2026-06-24

本来源是 Loop Engineering 主题的第 13 来源 — 唯一从产品经理视角系统阐述 Loop Engineering 的文章。前 12 来源均面向工程师/架构师，本文将循环工程的方法论移植到 PM 工作流（PRD 评审、客户研究、产品信号、发布检查清单）。v×c=42（临界），但 PM 视角在前 12 来源中零覆盖，且同作者 Shubham Saboo 已有 [Google Pm 2026 Five Developer Skills Shubham](../ch01-350-谷歌pm公开-2026开发者五大新技能-问题塑形-上下文设计-审美-编排-判断力) 实体，形成跨实体交叉。

核心贡献¶

PM 循环五要素（与工程五要素同构但 PM 化）：触发器（产品事件/周期）→ 动作（智能体执行）→ 证据（产品判断标准）→ 经验记忆（版本化规则）→ 停止条件（"没有有意义变化"或"需要人决策"）— 将 Addy Osmani 的工程循环映射到 PM 日常资产
PM 工作资产走样诊断（本来源独家视角）：CLAUDE.md 越来越长、PRD 评审规则越来越严格、研究工作流混入旧项目指令、发布清单膨胀到智能体忽略一半 — "模型没变差，是工作资产走样了，且没有监控机制" — 这是 PM 特有的 context rot 表现
"品味需要证据"（本来源金句）：PM 一直依赖品味判断 PRD 质量，但当品味写进可复用规则后，就需要评测来验证 — "修改 PRD 评审规则后怎么知道它真的变好了？" — 这是 PM 版的 Verification Gap
每周产品信号循环（本来源独家实践模板）：周五自动读取客户访谈+支持工单+销售记录+实验更新 → 产品信号备忘录（区分反复信号 vs 孤立噪声 + 路线图假设验证）— PM 的第一个可落地循环
PM 评测三件套（本来源独家低门槛方案）：① 3 好+3 差 PRD 测评审规则 ② 5 次已知访谈测总结器 ③ 2 次发布（顺利+混乱）测发布准备度 — 用已知案例校准，不需要大规模基准
GitHub 作为 PM 记忆层（本来源独家论述）：PM 不需要变成工程师，但需要版本历史管理规则/模板/检查清单 — commit = 经验保存，diff = 变更追溯，回滚 = 决策可逆
PM 循环边界（本来源独家安全规则）：循环可以总结客户证据但不应独自决定战略，可以评审 PRD 但不应变成产品负责人，可以标记风险发布但不应在缺上下文时替你做权衡 — "可以建立循环，但产品经理不能离开决策位置"
PM 角色进化（本来源独家洞察）：PM 从"翻译者"（客户痛点→需求，业务目标→路线图）进化为"循环设计者"——设计让产品判断可重复的系统，沉淀规则并做版本管理

与已有 12 来源的关系¶

维度	本来源（第13 PM视角）	前 12 来源覆盖度
PM 工作资产走样诊断	独家（CLAUDE.md/PRD规则/检查清单膨胀）	工程侧 context rot 已覆盖但未涉及 PM 资产
五要素 PM 化	同构映射到 PM 场景	工程侧五要素已有完整覆盖
"品味需要证据"	独家 PM 版 Verification Gap	Verification Gap 已有但面向代码质量
每周产品信号循环	独家实践模板	零覆盖
PM 评测三件套	独家低门槛方案	工程侧评测已覆盖（AutoResearch 5 决策等）
GitHub 作为 PM 记忆层	独家	工程侧 Git/版本管理已覆盖
循环边界（人不离决策位）	独家 PM 安全规则	部分提及 Human-in-the-Loop
PM 角色进化	独家	零覆盖
同作者交叉	Shubham Saboo → `google-pm-2026-five-developer-skills-shubham`	无同作者交叉

关键独到判断（本来源独家）¶

"一个一次性的提示词，写错了还能承受。一个十个人都依赖的评审标准，就不能这样" — PM 资产的错误成本比工程 prompt 高得多
"模型本身大概率没有变差。是这些工作资产已经走样，而且没有任何机制在监控它们" — PM 版 context rot 的精确描述
"品味仍然重要，只是现在需要证据" — PM 版 Verification Gap 的一句话概括
"可以建立循环，但产品经理不能离开决策位置" — 循环边界的最简表达
"最好的产品经理，不会是拥有最长提示词库的人" — 从 prompt engineering 到 loop engineering 的范式迁移信号

实践启示（本来源补全）¶

PM 第一个循环从"每周产品信号"开始：范围小、有证据、更需要一致性 — 不要从产品战略循环开始
用已知案例校准评测：3 好+3 差 PRD 测评审规则，不需要大规模基准
PM 工作资产需要版本管理：GitHub commit = 经验保存，diff = 变更追溯
循环先赢得信任再提高自主度：从帮助决策的循环开始，不要从能改变战略的循环开始
跨实体关联：同作者 [Google Pm 2026 Five Developer Skills Shubham](../ch01-350-谷歌pm公开-2026开发者五大新技能-问题塑形-上下文设计-审美-编排-判断力) 覆盖 PM 技能进化，本文覆盖 PM 循环工程，两者互补

Loop Engineering：比 Harness 更高一层的编程范式¶

核心定义¶

五模块 + 记忆（Codex / Claude Code 通用）¶

/goal 的验证者分离设计¶

深度分析¶

Loop vs Harness：层级关系而非替代¶

技能的"复利效应"¶

三个循环搞不定的问题¶

实践启示¶

相关实体¶

第 2 来源：InfoQ 褚杏娟「AI编程又变天了」（2026-06-09）¶

核心创新 / 关键数据¶

对照表：两篇来源维度对比¶

与已有 source 呼应¶

实践启示¶

第3 来源：微信公众号「ps. Harness Engineering还没熟，Loop Engineering 又要来了」（2026-06-10）¶

核心创新 /关键数据¶

三来源维度对比表¶

与已有 source呼应¶

实践启示¶

Loop Engineering关键结论（合并4 来源）¶

第 4 来源：微信公众号「架构师 JiaGouX」若飞「Loop Engineering 详解：把反馈循环放进工程现场」（2026-06-11）¶

核心创新 / 关键数据¶

四来源维度对比表¶

与已有 source 呼应¶

实践启示¶

第 5 来源:微信公众号「TechFarrari」"当 AI 圈开始聊 Loop:提示词工程已死,但杀死它的不是新技术" (2026-06-15)¶

核心创新 / 关键数据¶

五来源维度对比表¶

与已有 source 呼应¶

实践启示¶

第 6 来源 — 若飞 (架构师 JiaGouX 2026-06-15)¶

互补角度¶

与已有 5 来源的关系¶

与其他实体的关系¶

关键独到判断¶

第 7 来源：微信公众号「AI技术立文」"14 步路线图：从 Prompt 工程师到 Loop 架构师" (2026-06-16)¶

核心贡献¶

七来源维度对比表¶

与已有 6 来源的关系¶

反方警示（本文未涉及的反方视角）¶

关键独到判断¶

实践启示¶

第 8 来源:爱范儿「提示词过时了?AI 最新的玩法是「无限流」」(2026-06-16 18:00)¶

核心贡献¶

与第 5 来源(TechFarrari)的对比¶

与其他 7 来源的关系¶

关键独到判断(本来源独家)¶

实践启示(本来源补全)¶

第 9 来源 — AllenTang 架构师带你玩转 AI「一文搞懂 Loop 工程」(2026-06-16 20:34)¶

Karpathy AutoResearch 完整故事(本来源独家)¶

Karpathy AutoResearch 朴素拆解(本来源独家)¶

真正难的不是让它转,是让它停(本来源独家金句 1)¶

3 类典型翻车(本来源独家分类)¶

值钱的不是循环,是循环外面那把"尺子"(本来源独家金句 2)¶

Karpathy 的尺子:val_bpb(本来源独家代码细节)¶

跟踪者的总结金句¶

尺子正反案例¶

那个 40 行的小文件,才是真正的"程序"(本来源独家洞察)¶

与已有 8 来源的关系(本来源定位)¶

关键独到判断(本来源独家)¶

实践启示(本来源补全)¶

第 10 来源（winty 7 种架构 + Loop Engineering 中文主流视角，2026-06-18）¶

本来源补充的核心维度¶

与已有 9 来源的关系（本来源定位）¶

关键独到判断（本来源独家）¶

实践启示（本来源补全）¶

第 11 来源：微信公众号「Loop Engineering：从 AutoResearch 到 Claude Code——循环设计的第一性原理」（2026-06-18）¶

核心贡献¶

与已有 10 来源的关系¶

关键独到判断（本来源独家）¶

实践启示（本来源补全）¶

第 12 来源：微信公众号「Loop Engineering 综合实战（三层结构 + 五要素 + 解剖 6 组件 + 4 模式 + 成本公式 + 三款产品 Loop 能力对比 + 组织准备度总表 + Ralph Loop 极简主义 + 三大风险）」（2026-06-18）¶

核心贡献¶

与已有 11 来源的关系¶

关键独到判断（本来源独家）¶

实践启示（本来源补全）¶

第 13 来源：AI技术立文「给产品经理的loop engineering」（2026-06-24，v×c=42 临界，PM 视角）¶

核心贡献¶

与已有 12 来源的关系¶

`/goal` 的验证者分离设计¶