Vibe Coding and Agentic Engineering Convergence: Simon Willison Interview¶
Ch01.247 Vibe Coding and Agentic Engineering Convergence: Simon Willison Interview¶
📊 Level ⭐⭐ | 14.6KB |
entities/vibe-coding-agentic-engineering-convergence-simon-willison.mdSource: Heavybit High Leverage Podcast Ep. 9, "The AI Coding Paradigm Shift with Simon Willison". Compiled by InfoQ 宇琪/Tina, 2026-05-19. Original: https://www.heavybit.com/library/podcasts/high-leverage/ep-9-the-ai-coding-paradigm-shift-with-simon-willison
→ 原文存档
摘要¶
Simon Willison(Django 联合创始人、Pelican Riding a Bicycle 测试基准创始人)在 2026 年 5 月的访谈里系统讨论了 Vibe Coding 与 Agentic Engineering 的融合:两种范式从「对立」走向「半黑盒合作」,关键转折是 Claude Opus 4.5 + GPT 5.1 在 2025-11 同时发布后 Coding Agent 真正成为 Daily Driver。访谈里给出了三个对未来 12-18 个月最重要的判断——「代码本体感觉丧失」是真正危险、「数据层和接口的价值上升而代码本身贬值」、并行 Agent 做 Spike 是新工作流。
核心要点¶
- AI 写代码已不容置疑:2025-02 Claude Code 发布,2025-11 Opus 4.5 + GPT 5.1 同时发布是临界点,2026 年很多工程师 70-80% 的代码由 Agent 生成,「以前两周出原型,现在 2-4 小时」。
- Vibe Coding ≠ Agentic Engineering:前者不看代码、不在乎维护性,给个人工具/原型用;后者是专业工程师打安全可维护性运维性能这张牌。两者融合的关键是 Simon「开始把 Agent 当半黑盒合作伙伴」。
- 两个新概念:偏差正常化(AI 每次写对都让未来更盲目信任它)和 承重墙(Load bearing code,涉安全代码必须亲自 Review,判断哪些是承重墙需要深厚工程经验)。
- 人类 Review 是新瓶颈:SDLC 是围绕「一天写几百行代码」设计的,这个前提不存在之后,下游流程如果不同步调整会全盘崩溃。Anthropic 设计负责人 Jenny Wen 提了 UI/UX 流程是否也该重新设计。
- 并行 Agent 做 Spike:以前同时开 5 个 Agent 觉得胡闹(要 review 代码),现在做 Spike 时同时让 Claude Code 跑方案 A、Codex 跑方案 B、人做其他工作,反而非常有效。
- 代码本体感觉(Proprioception)丧失:最敏锐的观察——代码库会变成「一层层你没参与决策的碎片」,不再亲手写代码就失去「这样加东西会有张力」的本能反应。风险不是 AI 写坏代码,而是开发者丧失辨别坏代码的能力。
- 代码贬值、数据层和接口升值:Agent 带来的非确定性让减少非确定性、提供稳定边界的东西更珍贵。Issue Tracker 的核心是数据库 Schema 和 API 做扎实,UI 可以 Vibe Code。
- 代码 RL 闭环是模型分水岭:OpenAI 和 Anthropic 在 2025 年把几乎所有算力预算砸在「针对模拟软件环境的 RL」上,跑通了点赞崩了就差评。Qwen 论文也提到过一万台虚拟机。xAI 和 Gemini 落后的原因就是没能在 2025 全年狂奔在这条闭环里。
- 中国模型崛起:至少五家中国实验室有竞争力,Qwen 3.6-27B 只需 20GB 内存就能跑,DeepSeek 比 Claude Opus 便宜 20 倍但跑分没弱 20 倍。
- 「AI 反弹」真实情绪:Nilay Patel 的「The People Do Not Yearn for Automation」是当前对 AI 反弹最到位的评论,搞软件的人会为「自动化一切」兴奋但对普通人行不通。
- 涨价与定价博弈:本周两次大幅涨价——Opus 4.7 通过分词器变相涨价 40%,GPT 5.5 直接 API 价格翻倍。开源权重模型(尤其中国)在把价格往反方向拽。
深度分析¶
1. Vibe Coding → Agentic Engineering 的真正融合点是「半黑盒信任」¶
访谈里 Simon 给了一个非常工程师的比喻来描述自己的心路变化:在大厂当 Engineering Manager 时,他信任其他团队交付的模块,除非出 Bug 或性能拉胯否则不会翻源码。「开始把 Agent 当作一个半黑盒的合作伙伴」——这就是融合点。 这个比喻关键在于:信任不是「完全不看」也不是「逐行 review」,而是建立在团队/工具/Agent 的历史可靠性记录上的有条件信任。这与 Karpathy 同一时期访谈 里讲的 Agentic Engineering 是同一条线的不同入口——Vibe Coding 是「不看」的极端,Agentic Engineering 是「逐行看」的极端,Simon 提出的是更可操作的中间路径。
2. 偏差正常化(Anomaly Normalization)是 AI 编程最危险的心理陷阱¶
访谈里最值得展开的概念是「偏差正常化」:AI 每次写对,都让它更容易在未来某个时刻被盲目信任。 这与 Karpathy 在同一时间窗里反复警告的「锯齿状智能」是同一个问题的两面——能力不是平滑曲线,但用户的信任却是平滑增长的。当能力突然断崖时,信任却没有同步降下来,这是工业事故的典型温床。访谈给出的对偶概念「承重墙(Load bearing code)」是操作化方案:任何安全相关代码必须亲自 Review,而判断哪些代码属于承重墙、哪些不涉及安全——这种直觉需要 25 年工程经验才能建立。 这给团队带来的实际含义是:靠 LLM 写代码越熟练的团队越要刻意保留承重墙的 review 机制,否则会出现「代码越来越长、安全红线越来越模糊」的危险漂移。
3. 代码本体感觉(Proprioception)丧失比代码质量更可怕¶
访谈最敏锐的观察是关于「开发者能力漂移」而非「代码质量下降」:代码库会变成「一层层你没参与决策的碎片」,不再亲手写代码就失去「这样加东西会有张力」的本能反应。 这个观察的杀伤力在于它指向一个长期问题:当下 80% 代码由 Agent 生成的工程师,5 年后会变成什么样?Simon 的判断是「风险不在于 AI 写坏代码,而在于开发者丧失辨别坏代码的能力」——这不是单点失败,而是能力基线整体下沉。这与 Harness Engineering 强调的「过程资产」是同一硬币的两面:过程资产是外部化的工程经验,本体感觉是内化的工程经验,两者都需要在 Agentic 时代被刻意维护,不能让 LLM 写代码的便利性把内化能力悄悄消解掉。
4. 真正的产品壁垒是「数据层和接口」而不是代码¶
访谈里 Simon 给了一个反直觉但很有说服力的产品设计建议:如果要从头做 Issue Tracker(仿 GitHub Issues 或 Linear),会把全部精力放在极佳的核心数据库 Schema 和稳健 API 上,UI 完全用 Vibe Code 搓。 背后的逻辑是 Agent 带来的非确定性让减少非确定性、提供稳定边界的东西更珍贵——而数据模型做对了,用户就拥有无限的自定义灵活性。这条线连到 Karpathy 访谈 里 MenuGen 的「被模型吞掉的中间层」警告——纯包装模型能力的产品壁垒是脆弱的,但「数据层 + 接口 + 业务状态」的壁垒在 Agentic 时代反而是升值的。给产品架构师的具体启示是:当评估一个新产品 idea 时,问的不是「这个功能 LLM 能不能做」,而是「这个产品有没有掌握数据、接口、状态、权限、审计、复杂协同」。
5. 并行 Agent 做 Spike 是工作流的范式转移¶
访谈里描述了一种新型工作流:同时让网页版 Claude Code 跑方案 A、Codex 跑方案 B,人在中间做其他真正的工作。以前觉得同时开 5 个 Agent 纯属胡闹(要 review 代码),但做 Spike(探索性原型)时这种并行非常有效。 关键限制条件是「做 Spike」——也就是输出会被丢弃的探索阶段。Simon 这里给了一条实用的工作流建议:能用并行 Agent 探索的,就不要串行。但从「写完产品代码」到「做 Spike」的边界划在哪里?这是个工程判断题——需要看输出物的成本:探索性的输出扔掉没成本,生产性的输出错了有成本。
6. 代码 RL 是 2025 年模型分水岭¶
访谈里关于模型进展有一个非常硬的技术判断:OpenAI 和 Anthropic 把几乎所有算力预算砸在「针对模拟软件环境的 RL」上,开启数万台带 Python 解释器的虚拟机,生成代码、跑一遍、看结果。Qwen 论文也提到过一万台虚拟机。xAI 和 Gemini 落后的原因就是没能在 2025 全年狂奔在这条闭环里。 这条判断对工程团队的实际含义是:当评估一个新模型时,不能只看跑分——要看它有没有在 RL 闭环里被训练过。代码 RL 覆盖的领域会突然冒出来,没覆盖的领域就稳定地差。Karpathy 在自己的访谈里也有呼应判断:「前沿实验室在编程和数学之外往哪些领域注入 RL 数据」是他 6-12 个月最想盯的信号之一——这两位顶级从业者独立指向同一个信号,分量很重。
7. 「AI 反弹」背后是被忽略的真实情绪¶
访谈最后提了一个容易在技术圈被忽略的信号:AI 在 Z 世代里最受用也最被讨厌。Nilay Patel 的「The People Do Not Yearn for Automation」是当前对 AI 反弹最到位的评论。核心观点是:搞软件的人会为「自动化一切」兴奋,但普通人不会。 这条线给产品架构师的启示是:技术评估要包含「目标用户是否真的想被自动化」这个维度,而不仅看「技术上能不能自动化」。当用户的真实痛点不是「少按几次按钮」而是「不被算法代替我的判断」时,强行自动化会反噬。
实践启示¶
- 建立「承重墙 review 机制」:在团队里划出安全/支付/身份/数据权限相关的代码块作为必须人工 review 的承重墙,剩余代码可以 Agent 半黑盒合作。承重墙的判断能力需要 25 年工程经验积累,不能由 LLM 替代。
- 并行 Agent 做 Spike,串行 Agent 做生产:探索阶段可以让 Claude Code + Codex + Cursor 同时跑不同方案比较;生产阶段保持单线串行 + 严格 review。区分边界在于「输出物被丢弃还是被保留」。
- 维护代码本体感觉的工程习惯:保留一定比例的亲手写代码时间(哪怕是 review 时的重构),定期亲自 debug 关键模块,避免 5 年后失去「代码张力的本能反应」。
- 把产品壁垒建在数据层和接口层:当评估新产品 idea 时,把核心精力放在数据库 Schema、API 稳定性、业务状态建模上;UI 和交互层用 Vibe Code 探索。Agent 时代的真实护城河是「减少非确定性、提供稳定边界」。
- 盯前沿实验室 RL 数据投入方向:6-12 个月的关键信号是 OpenAI/Anthropic/Qwen 在编程和数学之外往哪些领域注入 RL 数据。被注入的领域会出现能力跃迁,落在外面的话要自建可验证环境微调。]
- 做用户痛点真实性评估:在自动化某个工作流前,先验证目标用户是否真的想要被自动化——搞软件的人对「自动化一切」的兴奋不等于普通用户的真实需求。
- 评估模型时看 RL 训练范围而非跑分:xAI/Gemini 落后的真正原因是没有在 2025 年整年狂奔在代码 RL 闭环里。一个模型在某个领域强不强,取决于那个领域是否在它的 RL 训练分布内。
相关实体¶
- Karpathy 最新访谈从 Vibe Coding 到 Agentic Engineering
- Karpathy Vibe Coding Agentic Engineering
- Claude Code Harness Deep Understanding
- Claude Code Harness Deep Dive Founder Park
- 两万字详解Claude Code源码核心机制
- 深入理解 Claude Code 源码中的 Agent Harness 构建之道
- 存之有序治之有矩Agent 记忆系统的工程实践与演进
- 一文带你弄懂 Ai 圈爆火的新概念Harness Engineering
- Openclaw 完全指南这可能是全网最新最全的系统化教程了32W字建议收藏