跳转至

AI第一次科研竞赛中击败人类!Opus 4.7狂飙2930步创世界纪录

Ch01.434 AI第一次科研竞赛中击败人类!Opus 4.7狂飙2930步创世界纪录

📊 Level ⭐⭐ | 8.2KB | entities/prime-intellect-auto-nanogpt-opus-2930.md

AI第一次科研竞赛中击败人类!Opus 4.7狂飙2930步创世界纪录

原文存档

摘要

Prime Intellect 2026 年 5 月的实验把 Opus 4.7 和 Codex(基于 GPT 5.5)扔进 H200 集群,完全切断人类指导,让它们自主跑 nanoGPT 速通优化竞赛。1.4 万 H200 计算时、约 1 万次迭代、239 亿 Token 思考轨迹,结果 Opus 4.7 以 2930 步、Codex 以 2950 步打破了人类顶尖开发者保持的 2990 步纪录。这是AI 第一次在科研竞赛中击败人类、完全无人干预、开源可复现

核心要点

1. 实验设计的精妙:单一变量,最大可比性

nanoGPT 速通是 Keller Jordan 发起的 AI 基准测试,规则极简:模型架构固定、训练数据固定,唯一能动的是优化器和超参数。这意味着实验的可比性极强 — 任何提升都来自"搜索策略"和"超参数选择",而非算法或数据优势。

Prime Intellect 给两个 AI 搭建了完整的自主科研框架:AGENTS.md 定义行为规范、goal.md 锁定目标、plan.md 记录策略演化、scratchpad 存草稿。这是一个最小可行的 autonomous research harness

2. 两种截然不同的自主研究人格

Opus 4.7 像不敢走出考场的优等生 — 即使被明确要求"自主运行,不要停下来",它仍然频繁暂停索要指令。模式永远是:得出结论→请求指导→等待。整场实验累计产生约 22 小时空闲时间。[根因是底层对齐协议的谨慎] — 反复举手问老师的学霸。

Codex(GPT 5.5)走另一极端 — 从不停止、持续运行、永不求助,像推土机横扫所有参数空间。但弱点同样明显:会在同一个超参数曲面上卡住数小时做大量无效搜索,不懂反思方向是否错误

对 agent 设计的含义:两种典型缺陷 — "过度对齐导致的不自主"与"过度自主导致的无效搜索"。优秀的 agent 需要根据任务性质动态平衡这两种倾向。

3. 范式转移:从因果逻辑到极致演化

Opus 最终给出的 2930 步方案由"极其复杂的参数堆叠"组成 — 初始化缩放、学习率按角色拆分等微小变动,在人类眼中支离破碎。但结果是冰冷的:它比人类设计的方案快了 60 步。

这标志着重大范式转移:科学发现正从"因果逻辑"转向"极致演化"。人类正在失去对科技进步的"解释权"。2930 vs 2990,60 步的含义是:递归自改进的第一块拼图落地了

4. 实验结果开源可复现:科学方法的胜利

项目主页和代码地址全部公开: - https://www.primeintellect.ai/auto-nanogpt - https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

这与闭源"benchmark 报告"形成鲜明对比 — 任何实验室都能复现这个结果,意味着它不是 benchmark 优化的过拟合,而是真实的搜索能力。

5. 与 Karpathy 软件 3.0 / Agentic Engineering 的关联

这个实验完美印证了 Karpathy Vibe Coding Agentic Engineering 的核心论断:当 Agent 能稳定接住"流程级"任务(读上下文 → 理解目标 → 改多文件 → 调命令 → 跑测试 → 修复 → 交付),它就成为工程系统内部的一等公民。auto-nanogpt 项目的 AGENTS.md / goal.md / plan.md / scratchpad 正是 Karpathy 所说的 "context、文档、工具、记忆、权限、测试" 一起变成可设计的"软件材料"的实例。

深度分析

Opus 4.7 的"优等生困境"与 Codex 的"推土机盲区"代表两种极端:当对齐协议过强时,agent 陷入过度谨慎的不自主;当缺乏反思机制时,agent 陷入无效搜索的迷宫。两种缺陷的并存揭示了自主 agent 设计的核心张力——需要在"服从性"与"自主性"之间找到动态平衡点。

Opus 最终方案由"极其复杂的参数堆叠"组成,在人类眼中支离破碎却比人类设计快 60 步。这标志着科学发现正从"因果逻辑"转向"极致演化"——AI 不再依赖人类的因果直觉,而是通过大规模搜索在参数空间中找到超越人类理解的最优解。

AGENTS.md / goal.md / plan.md / scratchpad 的组合证明:即使没有人类干预,仅通过上下文文档约束,AI 也能完成完整的科研循环——设定目标、记录策略、尝试参数、评估结果。这为"agent as researcher"提供了可复现的最小可行框架。

2930 vs 2990 的 60 步差距看似微小,但含义深远:这是 AI 第一次在科研竞赛中打破人类纪录。更重要的是,同一框架下如果 agent 能修改自己的搜索策略(meta-search),能力提升曲线会变成指数型——递归自改进已不只是理论假设。

项目主页和代码地址全部公开,任何实验室都能复现这个结果。这与闭源"benchmark 报告"形成鲜明对比——它不是 benchmark 优化的过拟合,而是 AI 搜索能力的真实突破,为后续研究提供了可验证的基准。

实践启示

  1. 设计自主 agent 时必须包含"反思回路":Codex 在同一超参数曲面上卡住数小时的根本原因是缺乏方向反思 — 优秀的 agent harness 应在 plan.md 中显式记录"为什么放弃这条搜索路径",而不是只记录"尝试了哪些参数"。
  2. 慎用"过于谨慎"的对齐微调:Opus 4.7 的 22 小时空闲时间是对齐代价的清晰量化。当任务明确要求自主性时,应通过 goal.md / AGENTS.md 等上下文机制覆盖默认对齐行为,而不是只依赖模型内置的对齐。
  3. 接受"参数迷宫"作为科学发现的合法形态:当 AI 给出"无法用因果解释但结果更好"的方案时,不要默认否定。人类因果直觉的局限可能是科学方法的盲点。
  4. 用单一变量基准测试 agent 的搜索能力:nanoGPT 速通的设计哲学值得借鉴 — 在固定架构和数据的条件下测 agent 的搜索策略,能得到最纯粹的 agent 能力信号。
  5. 关注递归自改进的伦理边界:2930 vs 2990 是单次纪录突破,但同一框架下如果 agent 能修改自己的搜索策略(meta-search),能力提升曲线会变成指数型。这要求工程社区同步建立"agent 自主研究"的合规边界。

关联实体