Harness 工程 14 步路线图：从单 Agent 到自改进系统¶

Ch04.362 Harness 工程 14 步路线图：从单 Agent 到自改进系统¶

📊 Level ⭐⭐ | 7.0KB | entities/harness-engineering-14-step-roadmap.md

Harness 工程 14 步路线图¶

核心命题¶

循环工程（loop engineering）的上限取决于底下的 harness。Harness 是单个 Agent 运行的环境——模型、工具、权限、上下文四要素的总和。14 步路线图分三个层级渐进构建：先建地基，再配置，最后让它复利增长。

三层楼模型¶

层级	定义	特征
Harness	单 Agent 运行环境	静态配置：模型、工具、权限、上下文
循环	harness + 定时器 + 辅助进程	按节奏自动 prompt Agent
自改进系统	循环 + 复利记忆	每次运行让下次更精准

混淆这三层是 Agent 配置混乱的根源。常驻事实放上下文，强制规则放钩子，流程放技能，隔离放子 Agent。

第一层：什么是 Harness（步骤 01-04）¶

Harness 全在一个文件夹 .claude/ 里：

.claude/
├─ CLAUDE.md          # 常驻事实（≤500 token）
├─ settings.json      # 权限、模型、钩子
├─ .mcp.json          # 外部工具连接
├─ rules/             # 按路径生效的行为规则
├─ agents/            # 子 Agent 定义
├─ skills/            # 可复用工作流
└─ agent-memory/      # 跨运行状态

区分干净 harness 和混乱 harness 的原则：保持它小到你能解释每个文件为什么存在。默认 harness（无配置）对一次性任务够用，但对重复任务意味着每次从头推导。

第二层：配置 Harness（步骤 05-09）¶

CLAUDE.md（步骤 05）¶

主记忆文件 ≤500 token，只放常驻事实。流程移技能，路径专属规则移 rules/。检验标准：念出来，每行都该是"每次会话都需要的事实"。

settings.json（步骤 06）¶

预批准安全操作、拒绝危险操作。判断标准：撤回难度。容易撤回→自动批准，难以撤回→始终拒绝。

子 Agent（步骤 07）¶

核心价值：写作者 vs 检查者分离。最有价值的子 Agent 是检查主 Agent 工作的那个——全新上下文窗口的独立审查者，能发现写作者看不到的问题。

技能（步骤 08）¶

创建信号：每次新对话粘贴同样指令。技能是可复用单元，也是 harness 随时间改进的关键载体——失败经验加入技能，下次运行继承。

钩子（步骤 09）¶

钩子 = 模型无法绕过的确定性规则。与 CLAUDE.md（建议）不同，钩子通过退出码强制执行。两个必留钩子： - PreToolUse 门控：退出码 2 拦截危险命令 - PostToolUse 格式化：自动运行 linter

原则：好的 harness 有一两个精准钩子，而不是二十个。

第三层：复利增长（步骤 10-14）¶

循环（步骤 10）¶

循环不增加智能，复用 harness 中的一切。/loop 30m /goal 模式：独立评分器判断完成条件。好 harness 让循环简单，差 harness 让循环更快地产出垃圾。

动态工作流（步骤 11）¶

Agent 即时编写 JavaScript 编排逻辑：agent() 生成子进程、parallel() 扇出、pipeline() 流式处理。工作流是指挥，harness 是乐团——harness 空则无米下锅。

记忆（步骤 12）¶

三模式让记忆复利： 1. 走之前先写：运行结束更新状态文件 2. 启动时先读：续写而非重启 3. 提炼为技能：通用教训从状态文件毕业进入技能

项目记忆文件示例包含已验证事实、经验教训、上次会话摘要。

闭合循环（步骤 13）¶

输出 → 教训 → 技能 → 更好的输出。自改进的真实含义：不是模型在学习，而是 harness 在积累。模型从未改变，围绕它的 harness 变得更精准。

交付（步骤 14）¶

技能+子Agent+规则打包为插件，团队一步安装。Harness 从个人配置变为共享基础设施。

常见 Harness 错误¶

用默认配置运行：无上下文、无规则、无记忆
CLAUDE.md 臃肿：流程塞进常驻上下文
强制规则写 CLAUDE.md 而非钩子：模型可以忽略建议，无法忽略退出码 2
一个 Agent 既写又评：缺审查子 Agent
没有记忆：每次运行从零开始
给差 harness 套循环：更快地产出低质量结果
二十个钩子：一两个精准钩子胜过一堆
不扫描就发布：泄露密钥和过宽权限

构建顺序（核心原则）¶

先在干净 harness 上让一次手动运行可靠 → 加上下文和权限 → 加审查子 Agent → 加记忆 → 最后套循环。好 harness 上的循环会复利增长，差 harness 上的循环只会更快地消耗资源。

与现有知识的关联¶

Claude Code 大型代码库配置：聚焦企业级大型代码库中的 harness 配置实践
软规则 vs 硬约束：深入分析 CLAUDE.md 软规则的治理陷阱

→ 原文存档