YC CEO Garry Tan：200美元重构400万美元项目，AI Agent协作开发实践¶

Ch03.056 YC CEO Garry Tan：200美元重构400万美元项目，AI Agent协作开发实践¶

📊 Level ⭐⭐ | 16.7KB | entities/yc-ceo-garry-tan-200-dollar-vs-4-million.md

人物背景¶

Garry Tan 是 Y Combinator（YC）的现任 CEO，同时也是一位连续创业者和投资人。他曾联合创办了 Posterous（一个博客平台，后被 Twitter 收购）。在 2010 年代初，Posterous 的开发成本高达 400 万美元，团队规模 6 人，历时 18 个月才完成。

2025年，已经 13 年没有直接编写代码的 Garry Tan，决定使用 AI 工具重新构建该平台。这次他仅花费 200 美元（Claude Code Max 账号费用），耗时 5 天，1 人独立完成，最终产出达到传统方式的 400 倍（按逻辑代码行数计算）。重写后的项目在 GitHub 上获得了超过 10 万星。

指标	传统方式	AI 方式
成本	$4,000,000	$200
人数	6人	1人
工期	18个月	5天
代码产出	—	400倍

核心工作流：Token Maxxing¶

Garry Tan 在实践中发展出一套称为 Token Maxxing（Token 极大化）的方法论。其核心思想是：如果你能"煮干大海"（Boil the Ocean），即进行极致的完美主义研究，结果将会大不相同。对于人类而言，这种程度的研究可能需要一个月，但通过投入更多算力，AI 可以在更短时间内完成同等深度的研究。

Token Maxxing 的具体实践包括：

多源交叉验证：不满足于单一信息源，而是对比 20 个不同来源进行交叉验证，确保信息准确性
增量 Token 投入 = 购买机器的意识时间：用 Token 预算换取自己的时间，将机器的计算能力视为一种可购买的服务
Token 预算作为必备支出：Garry 预判，Token 预算将越来越像房租一样，成为必备的生产力支出，而非可有可无的可选开销

Thin Harness, Fat Skills 架构理念¶

Garry Tan 提出了 Thin Harness, Fat Skills（薄 Harness，厚 Skills）的 AI 开发框架。这一理念的核心洞察是：Markdown 实际上就是代码——"Markdown 实际就是代码，它只是编译方式不同。"

在该架构中：

Harness（薄）：核心循环负责接收用户输入、交给 LLM 处理、执行 LLM 的操作（如工具调用）。这部分应该由平台统一解决，工程师不应重写
Skills（厚）：将业务逻辑放在 Markdown（LLM 侧）还是代码（确定性执行侧）的分配决策，这才是工程师应该投入时间的地方

这种区分的理论基础在于：

LLM 的"潜在空间"：能理解人类复杂的动机，处理通用情况
代码的确定性：0 和 1 的执行，不理解用户意图和背景

Claude + Codex 双 AI 协作模式¶

Garry Tan 的个人工作流以 GStack 为载体，采用 Claude + Codex 双 AI 协作模式：

Claude Code：被比作"多动症型 CEO"，擅长快速迭代和创意发散，能快速推进开发进度
Codex（通过 /codex 命令调用）：被比作"高冷 CTO"，"智商 200 且几乎不说话"，专注于找出所有问题和 Bug

两者协作方式为：用 /codex 调用 Codex 进行代码 review，同时可在 Codex 内部临时调用 Claude（通过 /claude）充当 CEO 角色进行快速决策。

"Claude Code 非常适合'多动症型 CEO'，但偶尔会胡编乱造。Claude 模型虽然很棒，但事实证明它们并非在所有方面都是最聪明的。如果你遇到一个非常疯狂的问题，你需要那个智商 200 且几乎不说话的'高冷 CTO'。"

GStack：并行 15 个 Agent 的开发框架¶

GStack 是 Garry Tan 使用的核心开发框架，其特点是使用 Conductor（一个 Mac 应用）同时启动多个 Claude Code 或 Codex 实例。每个 Agent 在独立的 Git worktree 中工作，从而完全避免冲突。

GBrain 则是基于 OpenClaw + Conductor + GStack + pgvector RAG 的组合系统。

Agent 脆弱性的容忍策略¶

Garry Tan 对 Agent 脆弱性的态度是："只要你能让另一个代理坐在那一直修复，它的脆弱和需要修理就不再是问题。"

在实践中，他的配置是 Claude Code（50-60% 使用率）+ OpenClaw（剩余 40-50%）配合使用，通过 Agent 之间的相互修复来弥补单个 Agent 的不足。

测试覆盖率与代码质量¶

Garry Tan 强调，没有测试就交付给用户的代码产出是"垃圾"（Slop），比人类写的烂代码糟糕 10 倍。通过 Token Maxxing 策略，可以轻松实现 80-90% 的测试覆盖率，从而保证代码质量。

效率对比：400 倍产出从何而来¶

关于工程师的实际产出效率，Garry 引用了历史数据："如果你查阅 90 年代到 2000 年关于软件工程的文献：一个专业的、经过测试且可投入生产的软件工程师，平均每天产出的代码量并不是几百行，而是 30 到 50 行左右。"

按此计算，Garry 当时兼职写代码，每天可能只有约 14 行的有效产出。AI 带来的 400 倍效率提升主要来源于此。

"时间亿万富翁"概念与 AI 革命¶

Garry Tan 将当前的 AI 变革与历史性技术革命相提并论："历史上最伟大的礼物就是个人电脑革命，而我们即将经历一场完全相同的个人 AI 革命。"

他提出个人面临两种选择： 1. 拥有自己的 AI、数据和集成环境，自己编写提示词 2. 被企业控制（类似 Facebook 信息流的算法控制）

Garry 提出的 "时间亿万富翁"（Time Billionaire）概念是："如果你能做到 Token 极大化，你就能买下'机器意识'的数百万年意识时间。这样我也可以成为时间亿万富翁。这不是我自己的时间，而是机器在为我工作。"

Garry's List 项目案例¶

Garry 的 Garry's List 项目展示了 AI 研究的具体成本：每次深度调研（阅读几十篇文章、整本相关书籍）只需 5-10 美元的 Opus API 调用费用。该项目具备完整 RAG + Agent 检索能力，能阅读整个互联网及所有推文，配合递归爬虫和深度研究功能。

该项目每天发布 2-3 篇关于加州、旧金山和洛杉矶政务的高质量调研文章。

行业阶段判断¶

Garry Tan 将当前 AI 开发状态比作 1970 年代的"自制电脑俱乐部"阶段："现在的感觉是，人们觉得 OpenClaw 或 Hermes 模型还差点火候，或者用起来太累。但我敢保证，明年这时候，每个人都会拥有自己的个人 AI。"

核心启示¶

Token 作为时间货币：用 Token 预算换取机器的"意识时间"，本质是购买一种可编程的服务
双 AI 协作的必要性：创意型 Agent + 审查型 Agent 配合，才能在速度和准确性间取得平衡
Agent 脆弱性可接受：通过 Agent 之间的相互修复，单个 Agent 的不可靠性可以被系统性地弥补
测试先行的质量观：没有测试的代码交付是"垃圾"，AI 使 80-90% 测试覆盖率成为可能

深度分析¶

洞察 1：400 倍效率差距揭示的是工程师实际产出被长期高估

Garry Tan 引用的历史研究表明，专业工程师日均有效产出仅 30-50 行逻辑代码，而非通常假设的几百行。这意味着传统软件工程的生产率被系统性高估——大量代码行数贡献实际上来自会议、沟通、调试基础设施，而非直接产出。按此基准计算，AI 带来的 400 倍效率提升等价于将个人日产出提升至 12,000-20,000 行，已经完全突破了"人类工程师的生产率边界"这一隐含假设。这一数据对于评估 AI 原生开发的战略价值具有重要意义。

洞察 2：Token Maxxing 本质是将时间资产从线性增长变为指数增长的杠杆

传统工程师的时间与产出呈线性关系：更多工作时间等于更多代码产出。Token Maxxing 引入了非线性杠杆——通过投入更多 Token（算力），可以在固定的人类时间成本下获取指数级增长的机器"意识时间"。Garry 预判 Token 预算将成为类似"房租"的必备支出，这意味着团队应该从固定成本（人力）思维转向可变成本（Token）与固定成本混合的思维模式，并在项目预算中为高强度 Token 使用场景预留空间。

洞察 3：Thin Harness, Fat Skills 是 AI 原生架构的正确分层

LLM 的"潜在空间"（理解复杂人类动机、处理通用情况）与代码的确定性（0/1 执行、不理解意图）在本质上解决不同类型的问题。Thin Harness, Fat Skills 架构的核心贡献在于提供了明确的分层原则：Harness（平台负责，不重写）处理 Agent 核心循环，Skills（工程师投入）处理 Markdown 与代码的边界划分。这种分层使得 AI 原生应用的开发从"调教单一提示词"的粗糙模式进化为"系统化设计 LLM 侧与确定性执行侧职责边界"的精细工程。

洞察 4：双 AI 协作模式揭示了 Agent 系统设计的核心矛盾

Claude Code（创意型/快速迭代）与 Codex（审查型/问题发现）的分工揭示了当前 AI Agent 的一个核心矛盾：速度与准确性的取舍。创意型 Agent 在速度上有优势但容易产生幻觉和错误，审查型 Agent 在准确性上有优势但会拖慢迭代速度。Garry Tan 的解决方案——用双 Agent 协作分离这两种能力——为 AI 原生开发提供了一种可复用的系统设计模式：建立"生成 Agent + 审查 Agent"的流水线，让各自专注于自身优势而非试图在单一 Agent 中平衡所有需求。

洞察 5：Agent 脆弱性的系统化容忍是一种新的工程哲学

"只要你能让另一个代理坐在那一直修复，它的脆弱和需要修理就不再是问题"这一表述代表了一种与传统软件工程完全不同的可靠性思维。传统工程试图消除 bug，而 AI 原生工程接受 Agent 的脆弱性并通过系统级冗余来容忍它。这不是放弃质量，而是将质量保障从"个体正确性"提升到"系统可靠性"的维度。多 Agent 协作中的修复频率和优先级设计成为新的核心工程问题。

实践启示¶

建立"生成 + 审查"双 Agent 协作流水线 Claude Code 与 Codex 的分工模式揭示了 AI 原生开发的核心工程模式。在团队中实践时，应该将"快速迭代"能力与"质量保障"能力解耦为独立的 Agent，而非试图在单一提示词中平衡速度与准确性。推荐实践：用创意 Agent 处理需求分析、初稿生成、多轮迭代，审查 Agent 负责代码质量审查、Bug 发现、边缘 case 检测。对于关键路径，可以进一步引入递归审查（审查 Agent 发现的问题由生成 Agent 修复后再审查）。
将 Token 预算作为必备生产力支出纳入团队成本模型 Garry 预判 Token 预算将成为类似"房租"的必备支出。在团队实践中，这意味着：建立 Token 消耗的监控和预警机制，而非将 Token 视为"额外的可选成本"；为不同复杂度的任务设定差异化的 Token 预算上限，避免在简单任务上过度消耗；在项目估算中将 Token 成本与人力成本并列考虑，对于高代码产量需求的项目，Token 成本可能远低于同等产出的人力成本。
通过 Token Maxxing 实现 80-90% 测试覆盖率作为质量基线 Garry Tan 强调没有测试的代码交付是比人类烂代码糟糕 10 倍的"垃圾"（Slop）。Token Maxxing 的一个关键工程价值在于使 80-90% 测试覆盖率在可行成本下成为可能。建议团队将"AI 生成代码 + AI 生成测试"作为标准开发流程，并为 AI 测试生成分配独立的 Token 预算。在实践中，可以利用 AI 生成基础测试框架，再由人工审查和补充边界 case。
探索 GStack 类并行 Agent 框架以突破单 Agent 吞吐量限制 GStack 的核心创新在于通过独立 Git worktree 实现多 Agent 并行且无冲突的工作模式。对于需要大规模代码产出的团队，建议评估和引入类似的并行 Agent 协作框架。在技术实现上，核心要点是：任务分解（将大型项目拆分为独立可并行的模块）、隔离机制（每个 Agent 在独立工作目录/进程中运行）、结果汇总（建立合并和冲突检测机制）。这种基础设施层面的创新可能是 AI 原生开发与 AI 辅助开发的核心区别。
将"时间亿万富翁"思维纳入团队的技术战略规划 "如果你能做到 Token 极大化，你就能买下'机器意识'的数百万年意识时间"代表了一种全新的时间观。在团队层面，这意味着重新定义"不可能"的标准：以前因为时间成本过高而放弃的研究深度、测试覆盖率、代码审查轮次，在 Token 成本框架下可能变得经济可行。建议团队定期重新评估"值得投入 AI 时间"的任务边界，并将更多以前被视为"奢侈"的质量保障活动纳入标准流程。