Claude Code 一周年回顾：Boris Cherny + Cat Wu 的完整时间线¶

Ch09.010 Claude Code 一周年回顾：Boris Cherny + Cat Wu 的完整时间线¶

📊 Level ⭐⭐ | 24.4KB | entities/claude-code-first-year-retrospective-boris-cat-2026.md

Claude Code 一周年回顾：Boris Cherny + Cat Wu 的完整时间线¶

摘要¶

2025 年 2 月，Claude Code 以 Claude 3.7 Sonnet 的附属 CLI 工具身份在 Slack 内部演示，只收到两个赞。2026 年 6 月一周年时，Claude Code 已经从一个终端对话工具演变为 AI 编程基础设施——PM 在写代码、工程师在手机上写代码、Agent 在自动修 bug。由 Boris Cherny（技术负责人）和 Cat Wu（产品负责人）共同录制的回顾视频，系统复盘了从 Research Preview 到 AI 编程平台的完整一年演进路径，涵盖 10 个核心章节：起点与验证机制的设计、Routines 和 Auto Mode 的工程哲学、Loop 和手机编程的认知跃迁、Context 极简主义的实践智慧，以及 2026 年 3 月源码泄露风波的完整内幕。这份回顾不仅是一份产品总结，更是一部关于 AI 原生产品开发的实战教科书。

核心要点¶

验证比指令更重要：Boris 学到的最重要经验——每次 Claude 犯错，不要告诉它下次怎么做，而是让它把经验写进 CLAUDE.md 或做成 Skill，「如果你能做到这点，Claude 就能一直跑下去」
自我验证是 Agent 超越工具的关键时刻：Opus 4 刚发布时，Claude 已经能够打开 Claude CLI，在 bash 里自己测试自己写的功能——这标志着 Agent 从「执行单元」变成「自包含的执行系统」
Routines 让 Claude 从同步工具变成异步基础设施：当 Claude 可以监听 GitHub issues 并自动提交修复 PR 时，工程师的角色从「执行者」变成「编排者」
Auto Mode 反直觉的安全性论证：把安全审查委托给 Sonnet 4.6 模型而非让用户逐条点同意，实际上更安全——「人的本性就是这样，当你 99% 的请求都点同意时，眼睛就走神了」
一年后的使用方式肯定跟现在完全不同：Agent 运行时间越来越长，越来越自主，同时运行成百上千个 Agent 早就不稀奇，Claude Code 的形态一年后必然面目全非

深度分析¶

01 两个赞的起点：起点低不是坏事¶

2025 年 2 月，Claude Code 以 Research Preview 身份登场，搭配 Claude 3.7 Sonnet——一个能在终端里跟 Claude 聊天、编辑文件、跑 bash 的 CLI 工具。在 Slack 内部的演示只收到两个赞。

这个细节常被解读为「起点低」的故事，但其实更准确的解读是：发布时机比产品成熟度更重要。Claude Code 选择在模型能力刚好达到「可用的最低门槛」时发布，而不是等到功能完备时才发布。2025 年 5 月 22 日 Claude 4 家族（Opus 4 + Sonnet 4）发布，Claude Code 正式发布，从那天起一切开始加速。

这揭示了一个 AI 原生产品开发的铁律：不要等到产品完美再发布，而要在模型能力刚好支撑核心场景时就发布。Claude Code 的赌注是 Claude 4 家族会带来模型能力的跃升，从而让产品体验随之跃升。事实正是如此。

02 验证才是关键：让 Agent 从错误中进化¶

2.1 从「告诉它怎么做」到「让它自己学会」¶

过去一年 Boris 在 Claude Code 上学到的最重要理念是：每次 Claude 犯错，不要告诉它下次怎么做，而是让它把经验写进 CLAUDE.md 或做成 Skill。

传统的 human-in-the-loop 反馈是：人类发现错误，告诉 Claude 哪里错了，Claude 改正。这个模式在单次任务中有效，但在长期运行中效率极低——每次错误都需要人类介入，无法 scale。

Boris 发现的更优模式是：Claude 犯错后，让它自己分析错误原因，然后更新 CLAUDE.md（项目级记忆文件）或创建 Skill（可复用工具）。这样，下次遇到类似情况，Claude 就能自主规避，而不是重复犯错。用 Boris 的话说：「如果你能做到这点，Claude 就能一直跑下去。」

2.2 自我验证：Agent 的关键时刻¶

真正让 Agent 能长时间自主运行的，是验证机制。开发者理解的验证是单元测试、lint、类型检查——这些是代码级别的检查。但 Agent 层面的验证完全是另一回事：Agent 能不能自己跑起来，验证自己写的东西？

Boris 回忆了他在 Opus 4 刚发布时的一个震惊瞬间：他让 Claude 写一个功能，然后让它自己测试。Claude 打开了一个 Claude CLI，在 bash 里自己测试了自己写的功能。

这个画面在今天已经是常规操作——iOS 模拟器、Android 模拟器、桌面端的 computer use 循环跑验证。但在当时，这个观察预示了 Agent 能力的一个根本性跃迁：Agent 不再是「执行人类指令的工具」，而是「能够自主运行并验证结果的执行系统」。

Cat 团队的「桌面开发 Skill」是另一个例子：Claude 用 computer use 在应用里点来点去，测试新 UX，发现 bug 就修，修完再验证。整个过程不需要人类参与，Claude 是自己的 QA。当遇到预发布环境问题时，Claude 被引导去读 Slack 看看是不是环境挂了，解决后更新 Skill。这是一个自我进化的闭环。

03 人人都在写代码：新分工的浮现¶

3.1 PM、设计师、财务都在写代码¶

Boris 在回顾中最兴奋的观察是：他的 PM（Cat）自己在写代码。Cat 的说法更加直接：「现在更重要的是你有什么 idea。如果你有产品 sense、有业务 context、懂设计和用户，你反而能做出更好的东西。」

Claude Code 在企业客户中反复呈现一种模式扩散路径：先是工程师用上 Claude Code，旁边的人凑过来说「这东西好厉害，我也试试」——然后设计师直接在代码里改 UI、PM 在应用里改功能、财务团队跑预测模型、数据科学家屏幕上全是 Claude Code。

Boris 第一次看到设计师 Megan 提交 PR 时发出惊叹：「天哪 Megan 为什么在提 PR？」Megan 说「我就是在修个按钮」。代码写得还挺好的。

这预示了 Boris 对未来工作分工的判断：「未来每个人都既是 PM 又是工程师。产品团队写代码，DevRel 写代码，设计团队写代码。」工程师越来越多地端到端交付产品，从想法到实现到发布到和法务、市场协调，一个人走完全流程。

3.2 代码能力的民主化¶

这个趋势的深层含义是：当 AI 能够承担代码实现的细节工作时，代码能力的门槛从「会编程」变成了「有想法」。懂产品、懂用户、懂业务的人能够借助 AI 工具将想法变成可运行的软件，而不需要掌握编程语言的语法细节。这与桌面出版时代的历史类似——当 PageMaker 让非设计师也能做出版时，行业并没有消灭设计师这个角色，而是扩大了创作的参与群体。

04 Routines 的威力：Agent 从同步工具变成异步基础设施¶

4.1 第一个 Routine：Voice Mode 的自动运维¶

Cat 团队的工程师负责 Voice Mode，在所有产品线上线了语音功能。他们设置了第一个 Routine：自动监听所有关于 Voice Mode 的 GitHub issue 和 bug report，主动捡起问题，提交修复 PR，ping 工程师 review。

这个 Routine 的设计逻辑很简单：当用户报告 Voice Mode 的 bug 时，一个 Routine 自动创建任务，Claude 分析问题，写修复代码，跑测试，然后提交 PR，同时通知相关工程师。整个过程是异步的——工程师不需要盯着 issue 列表，不需要手动分诊，不需要自己写修复。

Cat 团队想到扩展：不只是 Voice Mode，其他反馈也是。于是又设了一个 Routine：监控所有超过 5 小时没人回应的 bug report，自动提交修复。

4.2 Cat 亲历的震撼时刻¶

Cat 亲身体验了 Routine 的威力：她发了一个小功能，有个边界情况她没注意到，有人报了 bug，她打算晚上修——结果她的 Claude 告诉她：「等等，另一个 Claude 已经修了。」工程师根本没手动修，是 Routine 自动处理的。

Boris 对此的感慨更为深刻：「Claude 现在经常告诉我：'别人的 Claude 已经修过了'。回想一下以前，你得自己回复 code review，自己修 CI，自己 rebase。这些我已经很久很久没做过了。」

4.3 Routine 的本质：让 Claude 从同步工具变成异步基础设施¶

Boris 在回顾中总结了 Routine 的意义：「Agent SDK 是让 Claude Code 可编程化的第一步，但一开始大家不知道拿它干什么。Routine 是第一个'显而易见的应用场景'，它让 Claude 从同步工具变成了异步基础设施。」

这个转变的深层含义是：Claude Code 不再是一个「你调用，它执行，你等待」的同步工具，而是一个「你设定目标，它在后台持续运行、监控事件、自动响应」的异步基础设施。Routine 是 Claude Code 作为 AI 编程平台的关键里程碑。

05 最爱 Auto Mode：反直觉的安全论证¶

5.1 Auto Mode 的工程实现¶

Boris 最爱的功能不是 plan mode，是 auto mode。他的理由是：「更新的模型其实已经不需要 planning 步骤了。Opus 4 到 4.5 时期还需要，但从 4.6 开始，尤其是 4.7，模型直接就能干活。」

Auto mode 的逻辑是：把权限判断交给另一个模型（Sonnet 4.6）去做安全审查，而不是让用户逐条点同意。这个设计在 Boris 第一次听到方案时觉得不靠谱：「把 prompt 路由给一个模型来判断安全性？不可能行的。」结果实际一试，效果出奇的好。

5.2 反直觉的安全论点¶

Auto mode 背后有一个深刻的反直觉论证：auto mode 比手动审核每一条权限提示更安全。

Boris 的论点是：「人的本性就是这样，当你 99% 的请求都点同意时，眼睛就走神了。Auto mode 让你只关注真正重要的事情。」当用户习惯了点「允许」之后，权限提示就不再起到真正的安全审查作用——用户只是在机械地放行。Auto mode 把有限的注意力资源集中在真正异常的请求上。

5.3 Auto Mode 的工程严谨性¶

Auto mode 的上线过程体现了极高的工程严谨性： 1. 收集成千上万条 Agent 运行轨迹 2. 让 auto mode 分类器判断安全性 3. 请红队人员做 prompt 注入攻击 4. 让内部团队亲自尝试攻击

所有发现的问题都变成了 eval（评估测试），用来持续提升安全性。Cat 的一句话精准概括了这个理念：「这不只是防范已知漏洞，而是防范我们能构造出的最聪明的攻击。」

06 Loop 和手机编程：两次认知跃迁¶

6.1 两次大跃迁¶

Boris 过去一年半经历了两次大的认知跃迁： 1. 从「我写代码」变成「我跟 Agent 说话，Agent 写代码」——这是 Claude Code 最初解决的问题 2. 从「我跟 Agent 说话」变成「我跟 Loop 或 Routine 说话，它来调度 Agent」——这是 2026 年的新范式

「我不再跟 Agent 直接对话了，我跟 Loop 对话，Loop 替我调度 Claude。一年半就经历了两次大跃迁，这速度太疯狂了。」

6.2 手机编程的日常化¶

在日常工作方式上，Boris 的变化同样惊人：以前开 6 个终端标签，6 个 git checkout 同一个仓库，来回切换；现在一个标签，用 Agent View 看所有后台 Agent 的状态，用桌面应用（自动管理 worktree）处理。

最让他意外的是：现在大概一半的工程工作是在手机上完成的。他会用 Remote Control 从手机接管在电脑上启动的 Agent。出去买杯咖啡，看看 Agent 的进展，可能再启动一个新 Agent。有时候跟人聊天聊出了一个 idea，直接用 Voice Mode 告诉 Claude 去做。

Cat 对 Boris 最早开始这样干的印象很深：「你会把电脑留在办公室，屏幕锁着，插着电，然后就走了。一开始我以为你忘拿了，第二天又这样，第三天还这样。但你一直在提 PR……后来你回复我说：'我在沙发上写代码呢'。」

07 Context 极简主义：让模型自己找 context¶

7.1 Context engineering 的演进¶

怎么做 context engineering？Boris 的回答有点颠覆：「以前 Sonnet 3.5 时代你得做 prompt engineering，Opus 4 时代你得做 context engineering。但现在的模型，这些都不需要了。」

Boris 的做法是给模型最少的 system prompt，最少的 tools，让模型自己去找需要的 context。Cat 自称「context minimalist」：「告诉模型它需要知道的，剩下的让它自己搞定。给模型太多 context，就像在微观管理它。有时候模型知道更好的方法来达到同一个目标。」

7.2 大趋势的判断¶

Boris 总结的大趋势是：Agent 运行时间越来越长，越来越自主，一次跑几十、几百甚至几千个 Agent 早就不稀奇。在这个趋势下，context 的管理方式必须改变——不能靠人工把 context 塞进 prompt，而要让模型具备自主获取所需 context 的能力。

「一年后的使用方式肯定跟现在完全不一样。如果一年后还是这些东西，我反而会觉得奇怪。」

08 源码泄露风波：59.8MB 的工程复杂度展示¶

8.1 事件经过¶

2026 年 3 月 31 日，Anthropic 通过 npm 包 @anthropic-ai/claude-code v2.1.88 不小心发布了一个 59.8MB 的 JavaScript source map 文件。安全研究员 Chaofan Shou 在 X 上公开了这个发现，瞬间引爆整个开发者社区。

泄露的根本原因是技术性的：Claude Code 基于 Bun 构建（Anthropic 2025 年底收购了 Bun），Bun 默认会生成 source map，但没人在 .npmignore 里排除它。结果是 51.2 万行未混淆的 TypeScript 代码，约 1900 个文件，就这样暴露了。

8.2 社区扒出的核心发现¶

从泄露代码中，社区研究者扒出了多项关键发现：

KAIROS（未发布的自主守护进程）：源码中被引用了 150 多次。能在后台以 daemon 方式持续运行，自动监听 GitHub webhook、发送推送通知，甚至有一个 autoDream 功能在空闲时自动整合记忆。这个未发布的功能让外界第一次看到了 Claude Code 在「长期运行 Agent」方向上的探索。

Undercover Mode（约 90 行代码）：Anthropic 员工操作非内部仓库时自动激活，去掉 commit 里的 Co-Authored-By 署名，禁止提及内部代号和未发布模型。这是一种保护内部开发实践的机制。

内部模型代号：Tengu 是 Claude Code 项目代号，Fennec 是 Opus 4.6，Capybara 疑似 Mythic 模型。

44 个隐藏功能开关和 20+ 未发布功能：Claude Code 的功能矩阵远比公开版本丰富。

8.3 事件处理与后续¶

Boris 对此事件的回应体现了 Anthropic 的工程文化：「这是一个人为错误。没有人因此被开除，犯错的人仍然拥有公司的完全信任。这是一个流程漏洞，任何人都可能犯。」

Anthropic 发了 DMCA 取消通知，但误伤了约 8100 个仓库，包括自家开源仓库的合法 fork——后来撤回了大部分通知。一个被下架前的 mirror 仓库积累了 41,500 个 fork，韩国开发者做了「claw-code」的 Python 重写版，2 小时内拿到 75,000 个 GitHub star。

泄露还发现了多个严重漏洞（CVE-2025-59536、CVE-2026-21852 等），涉及 RCE 和 API token 窃取，后续版本已修复。

8.4 意外的价值¶

从另一个角度看，这次泄露让社区第一次看到 Claude Code 内部的工程复杂度：40 多个注册工具、5 种 context 压缩策略、23 个 bash 安全检查、14 个缓存破坏向量。这些数字揭示了一个外界之前没有意识到的现实：Claude Code 的工程量远超一个简单 CLI 工具的范畴，它是一个高度复杂的 AI 编程平台。

09 完整时间线：从 Research Preview 到 AI 编程平台¶

时间	里程碑
2025-02	Claude Code 以 Research Preview 身份登场，搭配 Claude 3.7 Sonnet
2025-05-22	Claude 4 家族发布，Claude Code 正式发布
2025-09	Claude Code 2.0：Checkpoints + VS Code 扩展 + Hooks 系统 + GitHub Actions 集成 + Agent SDK
2025-10	Claude Code 登陆网页端（claude.ai/code），沙箱隔离 + Skills 系统上线
2025-11	Opus 4.5：67% 降价 + context compaction
2026-01	v2.1.0：1096 个 commit 合入一个版本，Skills 增强 + /teleport + 多语言支持
2026-02	Opus 4.6 + Agent Teams：多个 Claude 实例并行协作，Remote Control 从手机管理 Agent
2026-03	Voice Mode + /loop + auto mode 相继登场，Routine 让 Agent 从同步变异步，源码泄露
2026-04	桌面应用重新设计，Routines 正式发布，worktree 隔离，Opus 4.7 成为新默认模型，push notifications
2026-05	Agent View 上线，Opus 4.8 发布，Dynamic Workflows 让 Claude 编排成百上千个子 Agent 并行工作
2026-06	Boris Cherny + Cat Wu 录制一周年回顾视频

10 下一年：形态一定跟现在完全不同¶

Boris 的预言：「一年后的使用方式如果还跟现在一样，我反而会觉得奇怪。Agent 运行时间越来越长，越来越自主，同时跑几百上千个 Agent 早就不稀奇了。下一年的形态，一定跟现在完全不同。」

Cat 的判断：「这些想法不会只从我们这里来，而是会从整个社区里涌现出来。」

Claude Code 用一年时间，从两个 Slack 点赞走到了一个 PM 在写代码、工程师在手机写代码、Agent 在自动修 bug 的世界。这条路的方向不是线性的，而是持续加速的认知跃迁。每一次跃迁都重新定义了「使用计算机」和「写代码」的含义。

实践启示¶

Agent 的进化路径是自我验证 → 自我记忆 → 自我调度：从「每次告诉它怎么做」到「让它自己学会」，再到「让 Agent 调度 Agent」，这是 Agent 系统成熟度的三阶段
验证闭环是 Agent 长期自主运行的前提：没有可靠验证机制的 Agent 系统无法 scale，因为每次错误都需要人工介入
Routines 是将 AI 能力规模化的第一个显而易见的应用：当你需要持续监控某个事件源并自动响应时，Routine 是比手动触发更scalable 的方案
Auto Mode 的安全设计揭示了 AI-native 安全范式：不是靠人类逐条审批，而是靠 AI 模型做安全判断——前提是积累足够多的真实轨迹数据
「人人都写代码」时代需要新的工程教育思维：不是每个人都要学会编程语法，而是要学会用自然语言表达意图和验收标准
Context 极简主义是 Agent 产品设计的反直觉原则：给模型太多 context 反而会限制其自主推理能力，要相信模型知道如何获取所需信息

Claude Code 一周年回顾：Boris Cherny + Cat Wu 的完整时间线¶

Ch09.010 Claude Code 一周年回顾：Boris Cherny + Cat Wu 的完整时间线¶

Claude Code 一周年回顾：Boris Cherny + Cat Wu 的完整时间线¶

摘要¶

核心要点¶

深度分析¶

01 两个赞的起点：起点低不是坏事¶

02 验证才是关键：让 Agent 从错误中进化¶

2.1 从「告诉它怎么做」到「让它自己学会」¶

2.2 自我验证：Agent 的关键时刻¶

03 人人都在写代码：新分工的浮现¶

3.1 PM、设计师、财务都在写代码¶

3.2 代码能力的民主化¶

04 Routines 的威力：Agent 从同步工具变成异步基础设施¶

4.1 第一个 Routine：Voice Mode 的自动运维¶

4.2 Cat 亲历的震撼时刻¶

4.3 Routine 的本质：让 Claude 从同步工具变成异步基础设施¶

05 最爱 Auto Mode：反直觉的安全论证¶

5.1 Auto Mode 的工程实现¶

5.2 反直觉的安全论点¶

5.3 Auto Mode 的工程严谨性¶

06 Loop 和手机编程：两次认知跃迁¶

6.1 两次大跃迁¶

6.2 手机编程的日常化¶

07 Context 极简主义：让模型自己找 context¶

7.1 Context engineering 的演进¶

7.2 大趋势的判断¶

08 源码泄露风波：59.8MB 的工程复杂度展示¶

8.1 事件经过¶

8.2 社区扒出的核心发现¶

8.3 事件处理与后续¶

8.4 意外的价值¶

09 完整时间线：从 Research Preview 到 AI 编程平台¶

10 下一年：形态一定跟现在完全不同¶

实践启示¶

相关实体¶