Fable 5 的信号:Agent 开始拼 Runtime — 架构师若飞的 Runtime Contract 工程化拆解¶

Ch04.060 Fable 5 的信号:Agent 开始拼 Runtime — 架构师若飞的 Runtime Contract 工程化拆解¶

📊 Level ⭐⭐ | 20.9KB | entities/claude-fable-5-agent-runtime-contract-ruofei-2026.md

Fable 5 的信号：Agent 开始拼 Runtime — 架构师若飞的 Runtime Contract 工程化拆解¶

[!quote] 核心命题 Agent 产品接下来拼的,不只是模型多强,还包括谁能把任务协议、工具路由、状态管理、验证闭环和治理边界做成稳定的运行时。Runtime 是一套运行协议而非提示词技巧:任务怎么交代、工具怎么路由、状态怎么保存、产物怎么验证、风险怎么降级、什么时候把人拉回来。

2026-06-14 22:46,架构师 JiaGouX 公众号(若飞)在 Claude Fable 5 提示词泄漏(CL4R1T4S 1585 行)+ Anthropic 2026-06-12 因美国政府指令暂停 Fable 5/Mythos 5 访问这一连串事件后,发表了标志性的"Agent 拼 Runtime"工程拆解。文章主轴不是事件本身,而是借势提问:强模型开始接长任务后,系统到底要补哪一层?

核心概念 1:Runtime ≠ 模型背后的基础设施¶

Runtime 不只是模型背后的基础设施。它更像一套 Agent 运行协议。

6 个 Runtime 必须回答的问题:

任务怎么交代
工具怎么路由
状态怎么保存
产物怎么验证
风险怎么降级
什么时候需要把人拉回来

这与模型能力并列,但分属不同层。文章用一张图把主线收住(图 1:Agent Runtime 四层)——本文没有截图,但根据前后文,四层即: 任务协议层 / 能力路由层 / 执行状态层 / 治理层。

核心概念 2:Runtime Contract 而非 Prompt¶

Fable 5 提示词的真正突破是它在定义 Agent Runtime 的运行契约,而非简单的"让模型表现更好"。

契约的 9 类内容 (来自原文):

Artifact 跨会话存储 — window.storage 怎么用
MCP App 路由 — 什么时候查 registry,什么时候建议连接器
计算机使用环境 — 哪些目录是用户上传,哪些目录是最终输出
Skill 触发 — 创建文件或运行代码前必须先读相关 SKILL.md
搜索工具 — 什么时候需要用
引用与版权合规 — 怎么引用才合规
交付呈现 — present_files 什么时候调用
工具 schema — web_search / web_fetch / bash_tool / create_file / str_replace 等
Claudeception — Artifact 里再调用 Anthropic API

契约与提示词的本质区别 (原文):

维度	提示词	Runtime Contract
目标	让模型表现更好	定义 Agent 怎么运行
读者	模型	模型 + 系统 + 团队
维护方	模型团队	团队 + 系统共同维护
违反后果	表现差	系统不可用 / 失控 / 越权
范围	单次调用	整个运行生命周期

Prompt 是合同文本,合同能不能执行,还要看模型能力、工具实现、权限系统、上下文管理、验证流程和产品交互。

核心概念 3:Task Brief 9 字段模板¶

Mike Krieger / Every 团队给出的 Fable 5 prompt library 核心是 任务简报 而非文案技巧。

为什么需要结构化 Task Brief? 长任务 Agent 常见的问题,往往不在第一步,而在中途: 它不知道什么叫"完成"。它可能停在计划上,做了一堆额外整理,遇到小阻塞就回头问人。

9 字段可执行模板:

字段	写清什么
背景	哪个项目、哪个阶段、为什么现在做
目标	产出什么,不产出什么
Done means	什么证据能说明完成
上下文包	repo、文档、接口、历史决策、账号、测试数据
权限边界	能读什么、能改什么、不能碰什么
验证方式	单测、构建、截图、日志、真实流程、人工复核点
阻塞处理	哪些用假设继续,哪些需要停下来问
交付物	补丁、报告、文档、PR、截图、运行记录
降级策略	模型被拒 / 工具不可用 / 成本过高 / 访问不可用时怎么办

对长任务来说,边界比热情更重要。

核心概念 4:能力路由 8 维度¶

没有路由层,工具越多,Agent 越容易乱。

8 个路由判断维度:

什么时候用内置工具
什么时候查外部网页
什么时候用 MCP
什么时候需要让用户授权
什么时候读 Skill
什么时候开子代理
什么时候生成 Artifact
什么时候只回答,不动文件

Fable 5 提示词里的 5 个具体路由思想:

MCP: 先发现 → 再建议 → 再等待用户选择(不能跳过授权)
Skills: 不是知识库摆设,创建文件和运行代码前必须先读相关 Skill
搜索: 不是最后补救,遇到新实体主动搜索
交付文件: 放到可见输出区,不是聊天里贴完就算
Artifact: 绑定存储 + 模型 API,形成更复杂工作流

典型案例(原文): 用户问"为什么构建失败" — 读 README / 搜报错 / 跑测试 / 查 CI / 看 commit / 开浏览器 / 问环境变量 → 哪个先做?哪个只读?哪个会改状态?搜索和本地日志冲突信谁? → 这些是 Runtime 路由要给的优先级,不是模型智商能单独解决的问题。

核心概念 5:执行状态 — 账本而非聊天记录¶

长任务 Agent 不能只靠聊天记录记住自己做过什么。

5 类状态账本(原文):

memory (跨会话长期记忆)
Artifact storage (窗口内结构化存储)
文/文件账本
工具调用历史
进度声明必须回到本轮工具结果校验 (Anthropic 官方建议)

Anthropic 官方 prompting 文档的具体建议:

给 Fable 5 任务原因,而不只是请求
长任务汇报进度前,要把每个进度声明回到本轮工具结果上检查
深度长会话里,模型偶尔会提前停止或把计划当成结果,所以需要明确"能行动时就行动,完成或确实阻塞再结束"

核心概念 6:长任务适配判断表¶

任务特征	是否适合长任务 Agent
只需要一句问答	❌ 不适合,用便宜模型或普通搜索
输入清楚、输出短、风险低	❌ 不一定适合,先用普通模型
多阶段、跨文件、需要工具	✅ 适合试
有明确 Done means	✅ 适合试
能提供验证证据	✅ 适合试
失败成本高但可回滚	⚠️ 适合,但要沙箱和人工复核
涉及生产、资金、权限、敏感数据	⚠️ 谨慎,先把治理层补齐
供应商不可用会中断业务	⚠️ 需要准备 fallback

长任务 Agent 更适合先用在"人也需要坐下来认真做"的任务上。

核心概念 7:设计对象变了 — 8 维度 Runtime 清单¶

过去我们设计 Agent 系统,常常先问: 用哪个模型 / prompt 怎么写 / 要不要 RAG / 接哪些工具 / 做不做 memory

这些问题仍然重要,但不够了。如果 Agent 要进入真实团队,我们还要问另一组问题:

任务协议是否统一
工具路由是否可控
状态是否可接手
产物是否能验证
权限是否可审计
成本是否可解释
拒答和降级是否有预案
模型供应商不可用时,业务会不会停

放在一起看,这就是 Agent Runtime 的架构问题。

核心洞察:Prompt 可复制 vs Prompt 难复制¶

可复制的"表层协议" (放到别的模型上也有帮助):

遇到新信息先搜索
做文件任务先读 Skill
交付物要放到用户可见的位置
长任务要留下进度、绕过项和证据
第三方连接器要让用户授权
进度声明要能回到工具结果

难复制的 4 件事:

模型权重里学到的推理能力
训练数据里覆盖过的工具使用模式
产品侧真实存在的工具、文件系统、存储和权限
长任务运行中对成本、安全、拒答、降级的工程处理

如果期待把一段提示词贴到老模型前面,就得到同等级的长任务能力,这个预期需要先收一收。

与现有实体的交叉对比¶

Fable 5 主题簇(本文与 4 个现有 entity 全部为新视角):

vs Anthropic Claude Fable 5 on AWS:Mythos 级功能 — 那是AWS 官方产品介绍(功能/部署/内置保护),本文是架构师工程化拆解(Runtime 协议层)。两者互补。
vs Claude Fable 5 and new AI safety fables — Nathan Lambert 的政策分析(数据保留/prompt 过滤/用户未告知模型修改),本文不涉及政策。
vs Claude Fable 5 — Mollick patron vs wizard — Mollick 的hands-on 用户体验视角(4 用例 + patron vs wizard 框架),本文是架构师工程视角。两者对应"产品体验"vs"产品架构"。
vs Claude Fable 5 提示词泄漏 — Runtime Control Plane 安全工程启示 — 同样用"Runtime"概念,但VibeCoder 重点在安全工程 (Prompt 不能当保险箱 / 攻击面像系统 / 分类器组合风险),本文重点在工程协议 (Task Brief / 能力路由 / 状态账本 / 治理层)。两者完全互补: 一个看 Runtime 怎么被攻击,一个看 Runtime 怎么被设计。

若飞同系列延伸(本文是若飞"Agent 治理"的 Runtime 工程化主轴):

vs 若飞 5 张卡治理 (Hermes) — 若飞把 Hermes Agent 长跑治理拆为 5 张卡,侧重"治理框架";本文把 Fable 5 Runtime 拆为 9+8+5+8 维度,侧重"运行时契约"。两者是"治理框架 vs 运行时协议" 同主题不同切面。
vs 若飞 long-running agent ralph loop 状态交接 — 那是 Ralph loop 状态交接具体工程模式;本文是 Runtime 协议宏观框架。
vs Claude Code agent teams task decomposition ruofei — 那是任务分解(具体执行);本文是任务协议 (前置契约)。
vs Harness Engineering Deletable Worksite — 那是 Harness 可删工作位的精简原则;本文是 Runtime 4 层(包含 Harness 作为"工具路由层"的子集)。
vs 若飞 agent memory architecture — 那是 Memory 架构;本文执行状态账本 5 类中包含 memory。

Runtime / Agent 架构 主题簇:

vs [dangling 已删除] — 那个 entity 把 Harness 推为新后端;本文把 Runtime 协议 推为新运行时,Runtime ⊃ Harness
vs Harness Engineering Framework — Runtime Contract 是 Harness 的契约形式;后者是工程化框架
vs 纳德拉「Token 资本」论 — 纳德拉说"私有评估 / 私有 RL / 知识库" = 企业学习闭环;本文说"任务 Brief / 状态账本 / 证据目录 / 工具路由 / 权限清单 / 成本阈值 / fallback 预案" = Agent Runtime 闭环。两者哲学同源(从"模型强不强"走向"系统稳不稳"),应用层不同(企业战略 vs 工程协议)

深度分析¶

1. Agent Runtime Contract 是设计对象迁移的标志¶

过去十年,AI 系统设计者的核心问题是"模型能不能答",答案由模型厂商通过权重迭代来交付。但 Fable 5 的出现把这个问题的重心移走了——当强模型已经能跑长任务,剩下的工程问题不再是模型性能,而是任务协议、工具路由、状态管理和治理边界能否被显性化。若飞把这个问题称为 Runtime Contract:它不是提示词,而是一套运行协议。这与 Agent Runtime 7 大职责中"Runtime 是 Agent 的骨架"这一判断完全一致,但补充了"契约层"这一视角——骨架是结构,契约是交付协议,两者共同构成可运维的 Agent 系统。

2. Task Brief 9 字段本质上是任务元数据的结构化声明¶

Mike Krieger / Every 团队给出的 Fable 5 prompt library 核心是 9 字段 Task Brief,这在工程上意义深远:它把"任务边界"从隐性知识变成了显性契约。传统软件开发中,需求文档往往依赖自然语言,边界模糊,验收标准主观。长任务 Agent 的问题更严重——它没有实时人工监督,一旦对"完成"的理解偏差,会在错误方向上消耗大量资源。9 字段模板(背景/目标/Done means/上下文包/权限/验证/阻塞/交付物/降级)本质上是一种任务元数据的强制声明,让 Agent 在行动前先对齐期望。这与 17 种 Agent 架构演进中"控制流设计逐步显性化"的历史趋势一脉相承。

3. 能力路由 8 维度揭示了工具膨胀的失控风险¶

若飞提出的 8 维度能力路由(MCP/Skill/搜索/Artifact/子代理/内置工具/网页/只回答),指向了一个核心矛盾:工具越多,Agent 越容易乱。这不是模型能力问题,而是系统设计问题。当一个 Agent 拥有 50 个工具时,"什么时候用哪个"如果全靠模型自行判断,失败模式是不可预测的。Fable 5 的路由思想是把触发条件显式化:MCP 必须先发现→再建议→等用户选择;Skill 创建文件前必须读;搜索遇到新实体主动用。这与 Harness Loop 架构中的"工具调用必须可观测和可干预"原则呼应——路由的本质不是限制 Agent,而是把决策权责显性化,让人能审计和接管。

4. 执行状态账本设计是长任务 Agent 的核心工程难题¶

长任务 Agent 不能只靠聊天记录记住自己做过什么——这个判断来自 Anthropic 官方文档,被若飞拆解为 5 类状态账本(memory/Artifact storage/文件账本/工具历史/进度声明校验)。这与若飞 agent memory architecture 中的"记忆架构决定 Agent 能否真正完成任务"高度相关。核心洞察是:状态管理不只是"有没有 memory",而是"状态是否可以被验证和交接"。进度声明必须回到本轮工具结果校验,这是一个朴素的工程原则,但在 AI Agent 场景下被放大——模型的"自信"可能掩盖实际的工具调用失败,而没有结构化账本,工程师无法事后重建真实执行路径。

5. Fable 5 事件是 Agent 治理从"产品内嵌"走向"显性协议"的拐点¶

Anthropic 因美国政府出口管制指令暂停 Fable 5 访问,这件事在表面上是一个合规事件,但深层看是供应商锁定风险的极端暴露:当模型供应商不可用,整个 Agent 产品的业务连续性立即中断。若飞在"设计对象变了"一节列出的 8 个新问题(任务协议/工具路由/状态交接/产物验证/权限审计/成本解释/拒答降级/供应商依赖)中,最后一个问题在 Fable 5 事件中变成了真实的业务中断。这与 Agent 架构关键变化:Harness 正在成为新后端的判断形成呼应——当模型层不可靠,Runtime/Harness 层必须承担起稳态责任,包括降级和交接。

实践启示(8 条 actionable)¶

写 Task Brief 而非 Prompt: 如果你的 Agent 经常在中途停下来问"什么叫完成",给它一个 9 字段 Task Brief(背景/目标/Done means/上下文包/权限/验证/阻塞/交付物/降级)
路由先于工具: 工具多 ≠ 系统稳,先建 8 维度路由规则(MCP/Skill/搜索/Artifact/子代理触发条件),再堆工具
状态账本优于聊天记录: memory + Artifact storage + 进度声明校验三件套,避免"Agent 做了很多但没法接手"
交付物与中间产物分离: 最终文件必须放可见输出区,不留在聊天/中间过程里
MCP 三步走: 发现 → 建议 → 等用户选,不能跳过授权
Skill 必读: 创建文件 / 跑代码前先读 SKILL.md,把"经验"做成"可复用过程"
降级策略前置: 4 类降级场景 (模型拒答/工具不可用/成本过高/上游不可访问) 在任务开始前就要想清楚
进度声明可回溯: 任何"我完成了 X"都必须能回到本轮工具结果校验,避免"虚构进度"

局限性 / 需关注的边界¶

CLAUDE-FABLE-5.md 真实性未确认: Anthropic 没有确认该 1585 行文件完整、未改动
本文基于未确认的提示词: Fable 5 提示词更接近 Claude.ai 产品界面,不等于 Claude API 或 Claude Code 的运行规则
Fable 5 访问被暂停: 截至 2026-06-14,外国公民已无法访问,不能直接套用
若飞的 9 字段模板未给出具体代码示例: 仍是契约层设计,落地到具体 Agent 框架(OpenAI/Anthropic/Mastra/Claude Code)需二次工程
能力路由 8 维度未给判定算法: 仍需团队按具体业务写路由规则