跳转至

How far behind are open models? (LessWrong 2026-05)

Ch01.393 How far behind are open models? (LessWrong 2026-05)

📊 Level ⭐⭐ | 9.0KB | entities/how-far-behind-are-open-models-2026.md

How far behind are open models? (LessWrong 2026-05)

Background: Håvard Tveit Ihle 用 17 个 benchmark (8 private + 9 public, ~110 数据点) 量化开源 vs 闭源模型能力差距。结论:private benchmark 上开源落后 8-10 个月,public benchmark 落后 4-6 个月,且差距在 DeepSeek R1 之后正在扩大。

核心发现

1. 当前差距(2026-05)

  • Private benchmarks:开源落后闭源前沿 8-10 个月
  • Public benchmarks:开源落后闭源前沿 4-6 个月
  • Public benchmark 低估真实差距接近 2 倍

2. 差距时间趋势

  • DeepSeek R1 (2025-01) 时刻:差距最小
  • R1 之后:差距持续扩大
  • 闭源前沿(OpenAI, Anthropic, Google)持续保持领先

3. Provider degradation 可能夸大差距

  • 闭源 API 的实际表现可能因系统优化降级(degradation)而被高估
  • 真实差距可能略小于 8-10 个月

数据来源

  • 17 个 benchmark
  • 8 private(数据不公开) + 9 public
  • ~110 (benchmark, score-threshold) 数据点
  • 所有数据和代码开源:github.com/htihle/open_closed_gap
  • 旧数据(2023-2024)部分为自报告分数,新数据更可靠

方法论

  • 每个数据点:开源模型首次达到某 score-threshold 的日期
  • 高度:该 threshold 在闭源前沿首次被超过的日期差
  • Gaussian-smoothed trend + 90% bootstrap bands
  • Private vs Public 用不同 marker (stars vs circles)

反向/前瞻视角

  • 数字是 backward-looking(现在的开源 ≈ 几个月前的闭源)
  • 前瞻预测(forward-looking)需要考虑开源近期是否会有新突破

与中国模型

  • 文章单独讨论中国开源模型(Kimi, DeepSeek, Qwen, Z.ai 等)
  • 这些模型在某些 benchmark 上接近前沿,但在 private benchmark 上仍有差距

启示

对 AI 行业

  • 闭源前沿仍有 ~10 个月技术领先
  • 差距在扩大(不是缩小)
  • 开源追上"代理/agentic harness 实用水平"可能需要 12+ 个月

对开发者

  • 生产级 agent 任务用闭源(Codex, Claude Code)更可靠
  • 自动化/低成本任务可用开源
  • 不要仅凭 public benchmark 选模型(低估差距)

与 Interconnects 洞察的呼应

Nathan Lambert 在"Some ideas for what comes next"中提到: - 开源-闭源差距不会按 benchmark 收窄 - 实际 agentic harness 适用性才是真正检验 - 12+ 个月才能追平

本文用数据支撑了这一论断。

待关注

  • 2026 下半年新模型发布(GPT 5.5+, Opus 5+, Gemini 4+)
  • 开源前沿是否会有突破
  • Provider degradation 的量化分析

深度分析

1. Winner’s curse 导致测量偏差系统性偏大

该研究的方法论存在一个结构性偏差:Winner's curse — 第一个越过阈值的模型往往代表了正向波动。在 benchmark 测试中,闭源实验室(OpenAI、Anthropic、Google)通常测试更多模型,这意味着它们更频繁地成为"第一个穿越者",从而系统性高估闭源前沿的领先幅度。

此外,文章作者自己也承认,闭源一方通常测试更多模型,这进一步加剧了 winner's curse 对闭源有利的不对称性。如果控制这一偏差,真实差距可能比 8-10 个月稍小,但方向不变。

2. Provider degradation 对 Private benchmark 的不对称影响

Private benchmark(如 METR Time Horizons、FrontierMath、ARC-AGI-2)需要通过第三方 provider 调用开源模型以保护数据隐私。METR、Epoch AI 和 Håvard Tveit Ihle 都使用了零数据保留的第三方 provider。然而,这种间接调用方式可能导致微妙的性能降级(subtle degradation),且难以完全排除。

这种情况对 private benchmark 产生了系统性偏差:高估了闭源优势,因为闭源一方通过自有 API 直接调用,没有中间 provider 的性能损失。真实差距应小于 8-10 个月。

3. DeepSeek R1 时刻:异常点还是趋势反转?

数据显示 DeepSeek R1(2025 年 1 月)是开源-闭源差距最小的时刻,此后差距持续扩大。这提供了一个重要信息:R1 代表了开源模型能力的一次真实跃升,而非昙花一现的优化结果。

然而,R1 之后差距扩大表明闭源前沿以更快的速度在推进。闭源实验室拥有更多计算资源、更大规模的人类反馈数据,以及更丰富的企业级应用场景反馈,这使得它们能够在开源追上的同时保持并扩大领先优势。

4. Public vs Private ~2x 比率揭示的训练行为差异

Public benchmark(GSM8K、MMLU、Aider Polyglot)上开源落后 4-6 个月,而 Private benchmark 上落后 8-10 个月——两者相差近 2 倍。这一比率不是随机噪声,而是反映了两种不同的训练机制:

Public benchmark 由于数据公开且分数透明,开源社区可以针对性地进行训练优化(包括对测试集的潜在过拟合)。Private benchmark 更接近真实能力评估,揭示了开源模型在无法直接优化的场景下的真实差距。这一结构差异意味着:仅看 public benchmark 会严重低估实际能力差距。

5. 前瞻性差距本质上无法从回溯性数据中得出

文章的核心数字(8-10 个月)是回溯性指标:它描述的是"今天的顶级开源模型 ≈ 几个月前的顶级闭源模型"。这并不等于"开源需要 8-10 个月才能追平"。

真实的向前看预测需要考虑:是否有新的开源突破即将出现(类似 R1 时刻)、闭源前沿的进步速度是否可能放缓、以及是否有新的架构变革可能改变竞争格局。因此,8-10 个月的回溯性差距不能直接用作前瞻性规划依据。

实践启示

对 AI 研究者

  • 在设计 benchmark 时,优先参考 private benchmark 的评估结果;public benchmark 的数字应作为参考下限而非真实能力指标
  • 评估开源模型时,优先使用独立第三方 runner(如 Epoch AI)的数据,而非各实验室自报告的分数
  • 关注 provider degradation 对评测结果的影响——在评估开源模型时应比较多个 provider 的表现

对产品经理

  • 生产级自主任务(如代码生成、复杂推理、多步骤 agent)应选用闭源模型(如 Codex 或 Claude Code),开源模型在 8-10 个月的回溯差距下可靠性不足
  • 低价值、高容错率的自动化任务(如摘要、翻译)可考虑使用开源模型(open-weights models)以降低成本
  • 在做模型选型时,要求供应商提供 private benchmark 数据,而非仅参考公开 leaderboard

对 AI 战略规划者

  • 以 12+ 个月作为开源追上"agentic harness 实用水平"的时间规划基准,而非 8-10 个月
  • 避免基于 public benchmark 建立竞争优势判断——这些数字系统性低估了闭源优势(近 2 倍)
  • 关注 2026 下半年闭源前沿新模型发布(GPT 5.5+、Opus 5+、Gemini 4+)对开源追赶周期的潜在影响

对开源社区

  • DeepSeek R1 的成功表明开源在推理能力上存在突破路径;持续扩大差距说明闭源在 scaling 和数据飞轮上建立了更深壁垒
  • 减少 public benchmark 优化(容易过拟合且效果有限),转向对真实任务能力的提升
  • 关注 METR Time Horizons 等 agentic 评估——这是最终衡量标准

对风控与合规团队

  • 在高风险场景(如金融、医疗、法律)的 AI 应用中,开源模型的 8-10 个月回溯差距意味着闭源模型在这些领域的安全边际更优
  • 评估是否需要人类在环(human-in-the-loop)时,应考虑开源模型在复杂推理任务上与闭源的前沿差距
  • 对使用开源模型进行敏感任务的情况,建立更频繁的人工审核机制

相关实体

原文存档 - nice:浙大提出的理论驱动型 llm 社会智能诊断基准