跳转至

Yann Dubois × Matt Turck:OpenAI 后训练与强化学习的内部视角

Ch01.374 Yann Dubois × Matt Turck:OpenAI 后训练与强化学习的内部视角

📊 Level ⭐⭐ | 9.6KB | entities/yann-dubois-openai-post-training-matt-turck-interview.md

Yann Dubois × Matt Turck:OpenAI 后训练与强化学习的内部视角

原文存档

摘要

Yann Dubois(OpenAI Post-Training Frontiers 联合负责人)与纽约 VC Matt Turck(FirstMark Capital)的深度访谈,涵盖 GPT-5.5 发布内幕后训练团队的运作机制、强化学习从"竞赛玩具"转向"现实生产力"的关键转折、预训练是否撞墙的争论、以及 OpenAI 对持续学习、Harness 工程化、模型评估等核心议题的判断。对构建 Agent 系统、后训练流水线、RL 训练循环的从业者有直接参考价值。

核心要点

  • 可靠性跨过临界点:Yann 认为 AI 的进步其实一直是连续的,但人们的感受像台阶函数,因为 Agent 模型的每步出错概率降到足够低后,使用体验发生质变。
  • 预训练 → 中训练 → 后训练:把预训练比作"走进图书馆",中训练是"挑出高质量书多读几遍"(Wikipedia、GitHub 等高密度信息源加权),后训练是"把学霸变成你可以直接提问的专家"。
  • 强化学习为什么突然管用了:当模型先验知识达到一定规模后 RL 才有效,这不只是 LLM 的现象,机器人领域同样进入这个阶段;方法上 GRPO 因简洁可扩展胜出。
  • SFT 会制造幻觉,RL 反而治幻觉:SFT 标注员引用了一篇模型不知道的论文作为标准答案,模型被训练去"自信地引用不存在的东西";RL 从模型自身采样开始,几乎不会奖励"编造"行为。
  • 纵向团队 + 横向团队的协作模式:纵向团队专注特定场景(Agent 编程、计算机操控、知识工作),横向团队负责通用能力(指令遵循、函数调用、思考时间分配);改进可以正交进行。
  • 思考效率 = 专家 vs 实习生:大模型天然更高效,因为它已通过权重"思考"了一部分问题,且更容易在 GPU 上做并行优化,单 token 成本高但总体效率更好。

深度分析

一、"可靠性台阶"是 Agent 落地的关键变量

Yann 给出的核心判断:AI 进步是连续的,用户感受是台阶式的,台阶形成的关键是可靠性跨过了临界点。"Agent 模型是每两分钟有一定概率出错的系统,运行时间越长,最终答案出错概率累积越高"——这正是当前 Agent 产品面临的根本矛盾。

对 Agent 架构设计的启示:要把"每步出错概率"作为核心优化目标,而不是单步准确率。这与传统软件工程思维相反——传统软件假设每步近乎确定,只需关注整体流程;但 Agent 系统需要把每步可靠性指标化、监控化、降级化。

二、纵向 + 横向团队的组织方式

OpenAI 内部把团队分为两类:

团队类型 职责 代表场景
纵向(Vertical) 特定应用场景的深度优化 Agent 编程、计算机操控、知识工作
横向(Horizontal) 通用能力、跨场景整合 指令遵循、函数调用、思考时间分配、大训练任务整合

关键洞察:纵向和横向的改进可以正交进行——这意味着每个版本只需一部分纵向团队做出改进,下个版本换另一半。这种"分维度并行优化"模式,比"全员同步改所有维度"高效得多。对应到企业内 Agent 平台建设,团队也应按"垂直场景团队 + 平台横切能力团队"组织。

三、SFT 与 RL 对幻觉的对冲机制

John Schulman 的经典分析被 Yann 重述:SFT 实际上会制造幻觉

  • SFT 的陷阱:标注员引用了模型不知道的论文作为标准答案,模型被训练"模仿这个回答" → 模型学到"自信地引用不存在的东西"。
  • RL 的天然防御:从模型自身采样开始 → 模型不太可能"自己生成不知道的东西且恰好是对的" → "编造"行为几乎不会被奖励,反而会被惩罚。

工程含义:纯 SFT 微调的企业 Agent 容易出现幻觉,是数据集问题而非模型问题。当自有训练数据本身有"标注员默认正确"的偏差时,模型继承的就是"自信地说错话"。在企业内部落地 RAG + 微调时,应优先考虑 RLHF/DPO 这类带偏好判断的方案,或在 SFT 数据中严格审查"标注员引用但模型底层知识没有覆盖"的样本。

四、强化学习从"竞赛玩具"到"现实生产力"的转折

两年前 Yann 自己都觉得 RL 太不稳定、不值得折腾(Stanford Alpaca 就是 SFT-only 路线)。现在他承认:"似乎在模型跨过一定规模之后,RL 就开始管用了。"

方法论收敛规律:PPO → DPO → 各种 XPO → GRPO。理由极其朴素:"GRPO 是一个极简的方法,采样大量回答,判断哪个对,强化对的。" Yann 引用了机器学习的反复规律:最简单、可以用计算来扩展的方法,最终总是赢的那个

但 RL 在 Agent 任务中面临归因难题:一个 Agent 跑了很长一段推理,最终拿到对或错的结果,但"哪一步导致了成功或失败"信息太稀疏,难以精确归因。这是 Agent RL 的开放问题。

五、评估比训练更难,且"保质期"越来越短

Yann 指出三个评估困境:

  1. 正确性难以唯一化:以前问"代码有没有 bug"易判断,现在问"帮我建个网站"有无数正确答案
  2. 能评估的人越来越少:模型在某些领域已超过大多数人类
  3. 评估 = 训练数据:建了一个好评估集,它同时也是优质训练集 → 模型在类似数据上训练后就能在该评估上拿高分 → 评估失效

"评估的保质期越来越短"是 Agent 产品迭代的核心痛点。Model-as-Judge(更强的模型当评判者)是 Yann 看好的方向,因为它形成能力飞轮——但同时也是攻击面:训练数据与评估集同源。

六、Harness 的"保质期"和"最后一公里"创业空间

Yann 对 Harness 工程的判断务实但清醒:

  • 垂直领域:harness 能把可靠性从 80% 提到 85%,但需要接受"未来要重新调整"
  • 通用长稳 harness:行不通,因为模型在变,最优 harness 也在变
  • 激进预言:"如果我们把现在的模型冻结住,认真做 harness,人们在几乎每个领域都能感受到 AGI 了"

创业空间判断:模型是通才,用户需要的是专家,从通才到专家的距离 = 创业公司的生存空间。OpenAI 会专注通用能力,垂直领域(权限、数据连接器、领域知识)由其他公司做。

实践启示

  1. Agent 架构以"每步出错概率"为优化目标:监控、告警、降级都围绕这一指标设计,而不是传统的"整体成功率"。
  2. 企业内部组织"纵向 + 横向"团队:纵向团队深耕特定场景(客服、代码、销售),横向团队负责 RAG、工具调用、指令遵循等通用能力。
  3. 微调时警惕 SFT 幻觉陷阱:标注员默认正确的偏差会通过 SFT 放大;优先 RLHF/DPO 路线或在 SFT 数据中严格审查"模型不知道却引用"的样本。
  4. RL 在企业 Agent 中的切入点:从"易验证"的子任务开始(网络安全漏洞、SQL 查询正确性、代码单测通过),不要直接上"开放问题"的任务。
  5. 评估集必须有保质期意识:建评估时同步想清楚"如果训练集包含同源数据会发生什么",定期更新评估集而不是一劳永逸。
  6. Harness 工程投入需匹配模型迭代节奏:垂直领域可重金投入(短期保收益),通用长稳 harness 不应押注(失效快)。
  7. 持续学习是真正的"三年未解难题":连 OpenAI 都没解决,企业 Agent 不应假设模型能自动学习内部知识,需主动维护知识库和记忆系统。

相关实体