跳转至

Karpathy 最新访谈:从 Vibe Coding 到 Agentic Engineering

Ch04.518 Karpathy 最新访谈:从 Vibe Coding 到 Agentic Engineering

📊 Level ⭐⭐⭐ | 9.8KB | entities/karpathy-vibe-coding-agentic-engineering-v2.md

摘要

Karpathy 在红杉资本 AI Ascent 2026 访谈的核心观点深度解读。文章从 Vibe Coding 的起源(2025.2)到 Agentic Engineering 的定型(2026.2),系统梳理了 AI 辅助编程从"个人工具"到"工程体系"的范式转变,以及对中国技术管理者的现实启示。

核心论点

Vibe Coding vs Agentic Engineering

  • Vibe Coding — 降低软件创造的门槛,释放长尾需求。适合原型、个人工具、一次性脚本、低风险场景。
  • Agentic Engineering — 围绕 Agent 执行工程任务的工作方式。关心:上下文边界、工具权限、文件修改权限、审批机制、测试验证、环境隔离、回滚审计。
  • 两者不是替代关系,而是下限与上限的分工:Vibe Coding 抬高下限,Agentic Engineering 守住上限。

2025-2026 演进里程碑

  • 2025.2 — Karpathy 提出 Vibe Coding
  • 2025.12 — 模型输出质量突破拐点:Agent 从"补一个函数"到"接一段完整流程"
  • 2026.2 — Karpathy 回看 Vibe Coding,偏好新术语 Agentic Engineering
  • 2026.2 — Addy Osmani 发表《Agentic Engineering》,明确定义
  • 2026.2 — GLM-5 论文标题直接引用"From Vibe Coding to Agentic Engineering"

Software 3.0 的关键变化

文章核心论点:Software 3.0 的重点不在 Prompt 替代代码,而在上下文、文档、工具、测试和运行环境都变成需要被设计的对象。架构师的重心要从模块/接口往上挪一层,去想 Agent 能在怎样的环境里安全地工作。

三个提醒

1. 跨越中间层

AI 能接住的任务粒度从函数级跃迁到流程级:读项目上下文 → 理解目标 → 改多文件 → 调命令 → 跑测试 → 根据失败自修 → 给 review 结果。

2. 遵守工程纪律

Agentic Engineering 需要接口级约定:Agent 能看到哪些上下文、能调用哪些工具和 API、哪些文件可写、哪些动作需审批、输出必须通过测试/编译/安全检查、执行环境隔离、全过程审计。

3. 别把理解力外包出去

文章引述 Linus Torvalds 的态度:关键系统谨慎使用 AI,质量门槛不能因为 AI 加入而降低。小项目可以大胆用,真正重要的系统需要承载可控、可验证、可追责的工程体系

关键人物与立场

人物 立场/贡献
Andrej Karpathy Vibe Coding 命名者 → Agentic Engineering 倡导者
Addy Osmani (Google) 区分 Vibe Coding(原型) 与工程软件(规格→Agent→review→CI)
GLM-5 团队 论文标题证实"从 vibe 到 engineering"已进入模型底层
Linus Torvalds 类比编译器,关键系统谨慎使用;小项目大胆用
架构师 (JiaGouX) 中文技术社区深度解读,链接到 AI-First 软件工程成熟度框架

可验证性的关键作用

"没有验证体系托底的话,Agentic Engineering 顶多算更高级的 Vibe Coding。" 验证能力(测试、编译、静态扫描、安全审查、运行回放)决定了 Agent 在真实工程系统中能走多远。

关联条目

深度分析

1. Software 3.0 的本质不是"Prompt 替代代码",而是上下文成了可编程对象。 Karpathy 的核心命题是:LLM 将上下文窗口变成了新的"编程平面"——你不再只写代码文件,而是在 prompt、context、工具、测试和运行环境之间组织一段给模型执行的"上下文程序"。这意味着架构师的工作重心要从模块/接口设计往上挪一层,去思考 Agent 在怎样的上下文中能安全、可验证地工作。这个转变对习惯传统软件架构的工程师而言是认知上的根本挑战。 2. LLM 的能力曲线是"锯齿状"的,不是平滑提升——这直接塑造了工程策略。 Karpathy 指出的"洗车题"悖论(50 米外洗车走路去)是当前 LLM 能力边界的最精准隐喻:能重构 10 万行代码、找零日漏洞,却在常识推理上出现荒谬失误。这种锯齿状智能的根源不是模型"整体不够聪明",而是 RL 训练环境覆盖范围的直接产物。国际象棋能力从 GPT-3.5 到 GPT-4 的大幅提升,是因为有人在 OpenAI 决定把象棋数据加入预训练——这将"模型变强"的故事重新诠释为"实验室产品决策"。工程上,这意味着:落在 RL 覆盖回路内的任务开箱即用,落在外面的任务不能指望 LLM 直接解决。 3. Vibe Coding 与 Agentic Engineering 的分工是下限与上限的分工,不是替代关系。 Vibe Coding 真正抬高的是软件创造的下限——更多人可以用自然语言做出工具,side project 速度大幅提升。但专业软件的质量、安全和责任门槛,不会因为 AI 代码生成快了就自动降低。Agentic Engineering 要守住的就是这条上限:通过上下文边界、工具权限、文件修改权限、审批机制、测试验证、环境隔离和审计机制,让 Agent 在专业场景中真正可信。两者是协作关系而非竞争关系。 4. 可验证性是 Agentic Engineering 的核心基础设施,不是附加项。 Karpathy 的判断"传统软件容易自动化你能写进代码的东西;LLM 容易自动化你能验证的东西",将可验证性推到了工程设计的中心位置。测试、编译、静态扫描、安全审查和运行回放构成了 Agent 在真实工程系统中能走多远的决定性因素。没有验证体系托底,Agentic Engineering 顶多算更高级的 Vibe Coding。这个判断对国内团队有直接启示:很多团队热衷于搭建 Agent 框架,却在验证层投入严重不足。 5. 人类在 Agentic Engineering 中的不可替代性在于规格与判断,不在于记忆和执行。 Karpathy 的"幽灵"比喻揭示了 LLM 的真实本质:它不是动物式智能(内在动机、持续适应),而是由人类文档、预训练统计和 RL 奖励塑造的锯齿状实体。这直接定义了人类的角色:负责顶层规格(spec)、系统边界设计、质量判断和目标设定——而不是 API 记忆或代码实现细节。API 细节可以外包,概念结构和系统级判断不能外包。这个结论对团队的人才培养策略和面试方式都有直接影响。

实践启示

  1. 建立可验证性优先的 Agent 开发文化: 在引入任何 Agent 工作流之前,先明确"如何验证这次执行是对的"。对于代码生成任务,至少要有编译通过和单元测试;对于数据处理任务,要有结构化输出校验。验证成本必须计入 Agent 工作流的整体成本,而不是事后补做。
  2. 用"锯齿状能力"模型评估 LLM 适配度: 在选型或调优之前,先对目标任务做能力回路判断——它落在 RL 训练覆盖的"能力高峰"里,还是在"断崖"边上?这个判断比模型基准分更有工程价值。落在断崖边上的任务,优先考虑传统代码或规则系统,而不是强行上 LLM。
  3. 构建 Agent-first 的上下文工程规范: 参照 Harness Engineering 体系,将上下文管理、工具权限、文件边界、审批节点和审计日志作为 Agent 工作流的正式设计对象,而不是靠 Prompt 随意管理。
  4. 用大项目面试替代算法题筛选 Agentic Engineering 人才: 参照 Karpathy 提出的 Twitter Clone 红队测试法:让候选人构建一个完整系统,然后用 10 个 Agent 去攻击它,测试系统的安全性和鲁棒性。这才是 Agentic Engineering 能力的有效评估方式。
  5. 区分"品味问题"和"能力问题"来调整优化方向: 如果 Agent 生成的代码能跑但臃肿、缺乏优雅抽象,这大概率是因为审美和简洁性尚未进入 RL 奖励环境,而非模型理解力不足。对此的应对策略是:建立代码审查规范,用 human-in-the-loop 弥补 RL 训练的空缺,而不是指望模型自我进化。

相关实体

原文存档