从 Prompt 到 Harness：Claude 官方学习资料¶

Ch01.664 从 Prompt 到 Harness：Claude 官方学习资料¶

📊 Level ⭐⭐ | 4.7KB | entities/from-prompt-to-harness-claude-official.md

从 Prompt 到 Harness：Claude 官方学习资料¶

作者：张嘎（公众号「有戏圈」），2026-05-07。对 Learn Harness Engineering 课程 + OpenAI/Anthropic 官方资料的实践者解读。核心判断：很多 AI 编码翻车不是模型能力不够，而是仓库没有给 Agent 一套能可靠工作的系统。 1. 指令子系统 — 告诉 Agent 项目是什么、技术栈、不可违反的规则

深度分析¶

Agent 失败的根因是"系统缺失"而非"模型能力不足"。 文章的核心判断——"很多 AI 编码翻车不是模型能力不够，而是仓库没有给 Agent 一套能可靠工作的系统"——揭示了当前 AI 编码工具的核心瓶颈。OpenAI Frontier 团队实现了空 repo 到 5 个月约 100 万行代码的自动化，说明模型能力早已不是瓶颈，差距在于基础设施设计。

Harness 五子系统形成了一个完整的 Agent 运行环境闭环。 指令子系统定义项目上下文，工具子系统提供执行能力，环境子系统保证依赖可复现，状态子系统维持长任务连续性，反馈子系统验证执行正确性。这五个子系统缺少任何一个都会导致 Agent 行为的不确定性增加 —— 特别是反馈子系统最容易被低估。

WIP=1 原则直接针对 Agent 的"过度延伸"行为模式。 Agent 最大的问题不是不勤奋，而是太勤奋地把事情做散。坑开太多（过度延伸）和跑通很少（不足完成）是两种常见错误，WIP=1 原则通过强制单任务完成后再开始新任务来对抗这一倾向。

验证不是收尾动作——验证会塑造实现方式。 这一洞察颠覆了传统开发流程中"先实现后测试"的思维。在 Agent 场景下，由于 Agent 的自信来自局部代码判断而非系统级验证，必须将验证设计前置，才能确保实现方式本身是可测试的。

OpenAI 案例（空 repo → 100 万行代码、1500 PR、0 人工 review）和 Stripe Minions（每周 1300+ PR） 证明了在成熟 Harness 体系下，AI 代码生成的规模效应是真实的。这为"AI 写代码是否可行"提供了实践层面的正面证据。

实践启示¶

立即为你的项目编写 AGENTS.md —— 这是最小可行的 Harness 入口文件，应包含：项目是什么、怎么启动、怎么测试、硬约束、更多文档去哪看。不要写成百科全书，要写成地图目录。

落实 WIP=1 原则，为每个功能建立三字段清单：行为描述 → 验证命令 → 当前状态。Agent 每次只做一个功能，做完必须验证，验证通过后才能开始下一个。这直接减少了"过度延伸"和"不足完成"两类错误。

实施三层终止检查作为每次完成的闸门：静态检查（语法、类型、lint）→ 运行时验证（服务启动、关键路径）→ 系统级确认（E2E 走一遍）。没有验证证据不允许说完成。

把架构约定和上线禁忌文档化到仓库本身 —— 不在 Slack，不在老员工脑子里。重要约束要靠近代码，过时文档必须清掉。仓库是唯一事实来源。

每次会话结束执行"清洁状态五件事"：构建通过、测试通过、进度更新、临时垃圾清掉、下一个会话能直接启动。这确保了下一次 Agent 接入时系统处于确定性的干净状态。

→ 原文存档

从 Prompt 到 Harness：Claude 官方学习资料¶

Ch01.664 从 Prompt 到 Harness：Claude 官方学习资料¶

从 Prompt 到 Harness：Claude 官方学习资料¶

相关实体¶

深度分析¶

实践启示¶