Karpathy 最新访谈:从 Vibe Coding 到 Agentic Engineering¶
Ch04.122 Karpathy 最新访谈:从 Vibe Coding 到 Agentic Engineering¶
📊 Level ⭐⭐ | 14.4KB |
entities/karpathy-vibe-coding-to-agentic-engineering.md
核心论点¶
Karpathy 在 2026 年红杉 AI Ascent 访谈中提出 Agent 时代的关键转变: 1. Vibe Coding → Agentic Engineering — 2025年"说需求看结果"的个人体验 → 2026年"可验证可审计"的专业工作方式 2. 任务粒度变大 — 2025年底模型输出开始稳定,AI 能接住更大段的工作 3. 上下文即架构 — 上下文不该再当聊天记录,过程资产比更长记忆更重要 4. 可验证性决定自动化上限 — 没有验证体系托底,Agentic Engineering 顶多算更高级的 Vibe Coding
三个提醒¶
- 跨越中间层 — 从 Agent 直接输出到真实交付之间的工程层(权限、工具、验证、审计)
- 遵守工程纪律 — 像 review 人类 PR 一样 review AI 输出
- 别把理解力外包出去 — 理解代码的能力不能被替代
行业信号¶
- Google Addy Osmani 2026.2 发表《Agentic Engineering》,明确区分 Vibe Coding 与专业软件开发
- GLM-5 论文标题即《from Vibe Coding to Agentic Engineering》
- Linus Torvalds 认为 AI 像编译器,但关键系统使用需谨慎 → 原文存档
深度分析¶
1. Vibe Coding 与 Agentic Engineering 的本质区别¶
Karpathy 的核心区分不在于工具选型,而在于工程纪律的适用程度。Vibe Coding 本质上是一种放松约束的个人开发者体验——人放弃对代码的直接控制,顺着模型输出往前走,结果的可信度由"感觉"而非"验证"来判断。这在 side project 和原型阶段完全合理,因为它降低了创作门槛。 但 Agentic Engineering 面对的是专业交付场景:代码要安全、行为要可审计、责任要归属。Karpathy 指出了一个关键陷阱——当 Agent 生成代码越来越快时,团队可能不自觉地跳过了工程纪律,结果得到的是"能跑但不可靠"的系统。这个中间层(验证、权限、审计、回滚)恰恰是区分业余和专业的分水岭。
Vibe Coding 抬高的是所有人能做软件的下限;Agentic Engineering 要保住的是专业软件过去已有的质量门槛。
2. 可验证性:理解 LLM 自动化边界的核心框架¶
Karpathy 提出了本次访谈最精确的一个判断:
传统计算机容易自动化你能写进代码的东西;这一代 LLM 容易自动化你能验证的东西。 这两句话刻画了两种自动化的本质差异。传统软件自动化依赖规则显式化——你必须能把业务逻辑精确写成代码。而 LLM 自动化依赖的是可验证性——你不必写出规则,但必须能判断输出对错。这个框架解释了为什么 LLM 在数学、代码这些有明确验证标准的领域能力飙升,而在"洗车题"这种人类觉得简单但无法结构化验证的任务上翻车。 这也解释了 LLM 的"锯齿状智能"(jagged intelligence)现象。能力分布不是平滑的,而是取决于 RL 训练覆盖了哪些可验证领域。一个领域如果能被构造出大量强化学习样本,模型就能快速达到专家水平;如果落在数据分布之外,即使人类觉得是常识,模型也会出错。GPT-3.5 到 GPT-4 国际象棋能力的跃升,不是因为"模型整体变聪明",而是因为有人在 OpenAI 决定把国际象棋数据加入预训练。
3. Software 3.0 的真正含义:程序边界的扩大¶
Karpathy 的 Software 三代分期不是学术分类,而是对编程范式变化的精确刻画:
- Software 1.0:人写显式代码 → 代码即程序
- Software 2.0:人设计数据集和架构 → 模型权重即程序
- Software 3.0:人组织 prompt、context、工具和反馈 → 上下文窗口即程序 第三代的关键洞察是:程序不再只是一个代码文件,而是一个包含指令、状态、工具调用和环境反馈的完整上下文。编程的核心问题从"怎么写代码"变成了"哪一段文字应该复制给你的 Agent"。 这个转变带来了两个实际后果:第一,程序边界扩大了——一段安装说明、一组测试环境、一个日志文件,都可能成为程序的一部分。第二,context window 成为人操控 LLM 解释器的"把手",上下文的质量和结构直接影响模型表现。
4. MenuGen 案例:两种范式的直接碰撞¶
Karpathy 的 MenuGen 是理解 Software 3.0 最有力的案例。同一个应用,旧范式需要多层中间件(OCR → 图像生成 → 重新排版 → 部署),而 Software 3.0 版本直接把菜单照片喂给 Gemini,让模型输出带菜品图的新菜单——中间结构被模型原生能力吞掉了。 Karpathy 的判断非常直接:
我的整个 MenuGen 都是多余的。它还停留在旧范式里。那个 App 不应该存在。 这个案例的深层含义是:很多 AI 应用公司以为自己在做"更快的软件"(把 10 步压成 3 步),但 Software 3.0 的真正机会在于那些"以前根本不可能存在的东西"——模型直接覆盖整个任务,中间层失去必要性。传统代码擅长处理结构化数据,但 LLM 可以处理更一般的信息重组,这是以前程序不擅长的领域。
5. "幽灵"框架与 LLM 的真实运作机制¶
Karpathy 用"幽灵"形容 LLM,是在对抗一种常见的拟人化误用:把 LLM 当作动物——吼它会让它害怕,夸它会激发内在动机。实际上 LLM 既没有情绪也没有内在动机,它的行为完全来自统计模拟、上下文、工具调用和训练时的奖励机制。 这个框架有直接的实践意义:不要浪费情绪在模型上,要优化上下文和奖励信号。Karpathy 说他已经不再记 PyTorch、NumPy、pandas 之间的 API 细节(模型记比他好),但他仍然必须理解底层概念——tensor 是什么、view 和 storage 的关系、什么时候会复制数据。如果人不懂这些底层机制,就无法发现模型写出的低效代码。
6. 智能变便宜后,什么仍然稀缺?¶
Karpathy 引用的那句话是本次访谈最值得反复咀嚼的命题:
你可以外包你的思考,但不能外包你的理解。 这句话的实践含义是:Agent 可以跑思维链很多遍,但如果人没有理解系统结构,就无法判断哪条路线是对的,无法写出好的规格,也无法发现 Agent 在身份绑定、系统结构、代码质量上的错误。Karpathy 说他感觉自己正在变成瓶颈——要知道到底在建什么、为什么值得做、怎样指导 Agent。 这也给"什么值得学"提供了一个非常具体的答案:细节可以外包,理解不能外包。API 名称可以忘,但概念结构不能丢。
实践启示¶
给开发者的建议¶
- 建立验证纪律:在引入 AI 编码工具时,首先建立测试、review 和审计流程。不要因为模型输出"能跑"就跳过验证——Karpathy 的 MenuGen 用邮箱关联支付问题的代码能跑测试,但系统设计是错的。
- 区分能力高峰和能力断崖:在使用 AI 编码工具时,主动探测模型的能力边界。代码生成可能已经在高峰,但系统设计、安全判断、身份验证等领域可能还在断崖旁边。
- 上下文即架构:投资你的上下文管理能力。Karpathy 说上下文成了操纵 LLM 的"把手"——保持清晰的规格文档、完整的错误日志、良好的工具设计,这些会直接反映在模型表现上。
- 监督而不是信任:不要盲目信任 Agent 输出。Karpathy 自己已经很久不纠正模型了,但他仍然强调要像 review 人类 PR 一样 review AI 输出。信任 Agent 的前提是建立了验证体系。
给团队管理者的建议¶
- 重构面试流程:Karpathy 认为,给候选人算法题是旧范式,无法测出 Agentic Engineering 能力。更好的测试是大项目——让候选人做一个 Twitter clone,要求做得安全,然后用多个 Agent 攻击它。
- 跨越中间层是核心竞争力:从 Agent 输出到生产交付之间,有大量工程工作(权限、工具、验证、审计、回滚)。这部分能力不会因为用了 AI 就消失,反而更重要。
- AI-native 工程师的投资方向:这类工程师会投资自己的工作流配置——配置 Cursor/Claude Code、设置测试环境、优化工具链。这不是浪费,而是对生产力的长期投资。
给创业者的建议¶
- 找可验证的领域:Karpathy 的创业建议是找"还没被 RL 覆盖的可验证领域"。如果你能构造大量强化学习环境,就能在这个领域建立优势。
- 中间层可能多余:在启动一个 AI 应用创业项目时,先问自己:模型本身能不能直接覆盖这个任务?如果能,你的中间层可能是多余的。MenuGen 的教训是,旧范式思维下的 App 可能在 Software 3.0 里没有存在必要。
- 关注 Agent-first 基础设施:Karpathy 描述的愿景是"一句话构建并部署 MenuGen"——这意味着部署、配置、auth、payments 等基础设施都需要为 Agent 重写。这里存在创业机会。
相关实体¶
- Karpathy 最新访谈:从 Vibe Coding 到 Agentic Engineering
- Karpathy 最新访谈:从 Vibe Coding 到 Agentic Engineering
- Karpathy 最新访谈:从 Vibe Coding 到 Agentic Engineering
- Karpathy 最新访谈:从 Vibe Coding 到 Agentic Engineering
- 从Vibe Coding到Agentic Engineering:重构后台开发全流程 — 腾讯技术工程
- 从Vibe Coding到Agentic Engineering:重构后台开发全流程
- Alibaba Agent Observability Audit Loongsuite Pilot Coding Agent Blackbox Transparent
- Karpathy 最新访谈从 Vibe Coding 到 Agentic Engineering
- Ai Coding Agent Quality Defense Five Control Mechanisms Tutu Agi
- Karpathy Vibe Coding Agentic Engineering
- MOC