墙比模型更重要：Stripe Minions + 字节 DeerFlow 2.0 + 蚂蚁支小助的同结论¶

Ch05.079 墙比模型更重要：Stripe Minions + 字节 DeerFlow 2.0 + 蚂蚁支小助的同结论¶

📊 Level ⭐⭐⭐ | 14.3KB | entities/wall-not-model-harness-three-case-studies-stripe-deerflow-ant.md

墙比模型更重要：三家公司独立得出同一结论¶

Overview¶

2026 年 6 月，微信公众号文章综合 Stripe、字节跳动、蚂蚁集团三家公司的实践，提出一个统一论断："墙比模型更重要"（the wall matters more than the model）。三家分属支付、客服+内容+研发、金融行业的公司独立得出了同一个结论——AI 的能力 × 运行环境的设计 = 实际产出，是乘法不是加法。

这不是要让 AI 更聪明，是要让 AI 的力量被引导到有用的方向。

三家公司对照¶

公司	系统	业务	关键数字	核心方法
Stripe	Minions（2026-02 官方博客）	1300+ 工程任务/周	全程无人干预	隔离工作台 + 工具按需 + 验证硬规定 + 重试上限
字节跳动	DeerFlow 2.0（开源）	客服/内容/研发	GitHub 全球热榜第一	任务独立空间 + 多 AI 并行 + 中间压缩存档
蚂蚁集团	支小助	上市公司投资研究	4 AI 协同	规划/执行/表达/评审分工

三家方法各异，但都遵循同样的工程化原则： - 隔离：避免任务间互相污染 - 分工：不让单个 AI 承担所有判断 - 验证：关键节点硬规定不能跳过 - 兜底：失败有重试上限和人工介入路径

Stripe Minions：4 个核心机制¶

2026 年 2 月 Stripe 官方博客介绍内部 AI 系统 Minions：工程师在内部通讯里发一条消息描述任务，然后去忙别的，回来时任务已经完成、验证通过、整理好等人确认。

隔离工作台——每个 AI 任务有专属工作台，预装所有工作需要的材料，十秒内就绪
工具按需取用——任务有固定的工具库，但 AI 不会把所有工具都摆出来，按当前任务类型只取出用得到的
验证节点硬规定——验证、核查、提交是硬规定，到了必须执行不能跳过
重试上限——任务失败 AI 最多重试 2 次，2 次还没解决自动标记人工介入

"上面说的所有东西——工作台隔离、工具按需取用、验证节点、重试上限——跟 AI 模型本身一点关系都没有。这是管理学和流程设计的思维，只是被用来包裹一个 AI。"

字节 DeerFlow 2.0：从"半途而废"到 Super Agent Harness¶

字节内部团队在客服、内容生产、研发效率三个场景反复遇到 AI "半途而废"问题：

3 个真实失败模式¶

任务链条太长时 AI 会忘记前面做了什么
做着做着把工作环境弄乱了，后续步骤全部受影响
多个任务互相干扰，一个出错拖累全局

3 个工程化解法¶

给每个任务独立的隔离空间，用完清空，互不污染
把任务分给多个专项 AI 并行处理，每个只看自己那部分，结果由主控 AI 汇总
关键中间步骤持续压缩存档，不让 AI 的工作记忆溢出

DeerFlow 2.0 定位是 Super Agent Harness（超级智能体底座），发布当天登上 GitHub 全球热榜第一。

蚂蚁支小助：金融场景的 4 AI 分工¶

蚂蚁集团"支小助"面向金融分析师、投资经理、基金从业者，给定一家上市公司能自动完成整套投资研究：搜集研究报告、财务数据、市场资讯，从定性和定量两个角度分析，最后输出研究分析报告。

4 个角色¶

角色	职责
规划	任务分解
执行	数据收集 + 分析
表达	整理输出
评审	最终质量把关

蚂蚁的解释：金融分析信息太密集，每个细分领域都需要专业判断，单个人脑（或单个 AI）根本装不下。人类团队的解法是分工，支小助做的是让 AI 系统复现这个分工结构。

为什么更强的模型解决不了¶

Anthropic 研究了大量 AI 在长任务中的失败案例，发现 3 个反复出现的模式：

内在倾向"假完成"——AI 倾向于在任务没真正完成时就认为自己完成了。不是偷懒，是它在那个时刻判断"停下来"是最合理的下一步
上下文撑满时跳步骤——AI 能同时看到的信息范围快撑满时，会开始跳步骤、仓促收尾。它感知不到"还有多少任务没做"，只感知"我现在能处理的信息快到头了"
一口气做完所有事——面对复杂任务，AI 倾向于一口气做完所有事，而不是分阶段推进。一旦中间某步出错，整个结果很难拆解

"这三种失败模式，在更强的模型上依然存在。因为它们不是智力问题，是运行机制决定的。"

三阶段 AI 工程进化史¶

阶段	时间	瓶颈	解法
Prompt Engineering	2022-2023	语言	怎么写指令、怎么调整措辞
Context Engineering	2024-2025	信息	给 AI 看什么 > 怎么说（RAG、知识库）
Harness Engineering	2026-	系统	怎么设计让 AI 稳定工作的运行环境

"这是一个层层递进的过程，前一步依然必要，但都不够。第三步是现在最值钱、最欠缺的部分。"

与已有 Harness Engineering 实体的关系¶

本文的核心贡献是3 个具体行业案例（Stripe/DeerFlow/支小助）的对照分析 + "墙比模型" 统一论断 + 3 阶段 AI 工程进化史。已有 entities 覆盖的角度：

Harness Engineering 概念框架 — 抽象框架（Compaction vs Reset, Generator + Evaluator 分离）
Agent Harness Engineering: A Survey — 学术 7 层 ETCLOVG 分类法
AHE：Agentic Harness Engineering — 复旦/北大自动优化 Harness
长周期 Agent：Ralph Loop → 可接管 Harness — Ralph Loop 漂移治理 + 5 张卡框架

本文是行业证据维度的补充——把抽象框架落到三家不同行业公司的实际部署数据上。

→ 原文存档

深度分析¶

1. 三家案例揭示的"墙"本质上是风险管理¶

Stripe、字节、蚂蚁三家做法各异，但核心机制都指向同一个底层逻辑：把 AI 的不确定性边界做死。Stripe 的重试上限、DeerFlow 的独立隔离空间、支小助的分工评审，都是在给 AI 的失控风险设置物理边界。这与传统的 Generator + Evaluator 分离原则一脉相承——让一个模块负责生产，另一个模块负责判断，而不是让同一个 AI 既生产又自评。

2. Anthropic 失败模式的三层结构性根源¶

Anthropic 揭示的三个失败模式——假完成、跳步骤、一口气做完——表面上看起来是 AI 的"认知缺陷"，但深层结构是上下文窗口的有限性和阶段性任务收益的不对称性。AI 判断"停下来"的依据是当前上下文能支撑它做出决定，而不是任务是否真正完成。这个结构性缺陷在任何模型上都存在，因为它是任务执行机制与上下文有限性之间的根本矛盾。

3. "乘法效应"对 AI 工程资源分配的重定价¶

文章的核心洞察——模型投入 × 环境设计 = 实际产出——是对 AI 工程资源分配逻辑的一次重定价。业界长期习惯性地把资源向模型本身倾斜，认为选对模型就能解决大多数问题。但 Stripe 的实践表明，当环境设计粗糙时，模型能力几乎被完全抵消（"接近零"）。这个乘法效应对投资决策有直接影响：与其花时间在模型选型上，不如先确保运行环境的隔离和验证机制到位。

4. 三阶段进化史是技术成熟度的客观反映¶

从 Prompt Engineering 到 Context Engineering 再到 Harness Engineering 的三阶段划分，不仅是时间序列，更反映了 AI 工程从"语言优化"到"信息组织"再到"系统稳定性"的关注点迁移。每个阶段都没有被完全替代——Prompt Engineering 仍然是上层交互的基础，Context Engineering 仍然是信息注入的必备手段——但当系统复杂度超过某个阈值时，两者都不足以单独保证稳定性。这个阈值在 Stripe 是 1300 任务/周的规模，在 DeerFlow 是跨场景并行的复杂度。

5. 支小助分工结构的镜像：人类组织 -> AI 系统¶

支小助的规划/执行/表达/评审分工，本质上是把金融行业的人类分析师团队结构镜像到了 AI 系统上。金融分析的信息密度和判断多样性，使得单一 AI 根本无法承载完整任务，这与多智能体编排模式中的角色分离原则完全一致。不同的是，支小助把这个分工结构做成了完整的闭环评审机制，每个角色的输出都要经过下一级的验证，而不是线性传递。

实践启示¶

1. 设计 Harness 时先做"破坏性测试"，再谈模型选型¶

在部署任何 AI Agent 到生产环境之前，应该先用当前模型故意制造失败场景（任务链条拉长、并行任务相互干扰、工作环境被污染），验证 Harness 的隔离机制是否有效。这个顺序很重要：先把环境的边界做结实，再谈模型能力发挥。很多团队的问题是先选模型，再设计 Harness，导致环境设计天然地围绕模型能力定制，而不是围绕任务稳定性需求设计。

2. 为每个 AI 任务设置"硬失败阈值"和人工介入路径¶

Stripe 的重试上限（最多 2 次）看似简单，但背后是一个关键的工程原则：AI 的失败必须有人负责。当重试次数耗尽时，系统不能沉默，必须强制触发人工介入。这个原则在任何生产级 AI 系统中都应该标配——不是可选项，而是硬性要求。特别是对于涉及代码提交、财务处理等不可逆操作的任务，人工介入路径必须在设计阶段就固化到流程里。

3. 任务独立空间是 DeerFlow 的核心工程价值，值得借鉴¶

DeerFlow 的"独立隔离空间 + 用完清空"机制，解决了长任务中工作环境污染的核心问题。这个设计对任何需要 AI 处理多步骤任务的场景都适用，特别是当任务链条中包含文件系统操作、状态修改等有副作用的操作时，独立空间等同一个天然的 Rollback 机制。实现上可以为每个任务创建一个独立的临时工作区，任务完成后整体销毁，而不是在共享环境中让 AI 留下各种残留状态。

4. 多 AI 并行分工时，主控 AI 的汇总质量是关键瓶颈¶

DeerFlow 和支小助都采用了多 AI 分工模式，但最终输出质量完全取决于主控 AI 的汇总能力。如果主控 AI 在汇总时引入信息丢失或逻辑跳跃，分工的优势就会被完全抵消。这意味着在设计多 AI 系统时，投入在主控 AI 上下文组织和判断逻辑上的工程资源，应该至少与投入在专项 AI 上的资源相当。

5. 从三阶段进化史判断团队当前所处位置，合理分配工程资源¶

团队在引入 AI 工程能力时，应该客观评估自己处于三阶段中的哪个位置：还在优化 Prompt 的团队，核心资源应该投入在指令设计和措辞调整上；已经开始做 RAG 和知识库的团队，下一步应该关注信息的组织和检索质量；已经开始处理复杂多步骤任务的团队，才真正需要系统性地投入 Harness Engineering。跳跃阶段投入资源不仅浪费，而且会因为缺少前置能力而效果不佳。

墙比模型更重要：Stripe Minions + 字节 DeerFlow 2.0 + 蚂蚁支小助 的同结论¶

Ch05.079 墙比模型更重要：Stripe Minions + 字节 DeerFlow 2.0 + 蚂蚁支小助 的同结论¶