AI第一次科研竞赛中击败人类！Opus 4.7狂飙2930步创世界纪录¶

Ch01.434 AI第一次科研竞赛中击败人类！Opus 4.7狂飙2930步创世界纪录¶

📊 Level ⭐⭐ | 8.2KB | entities/prime-intellect-auto-nanogpt-opus-2930.md

AI第一次科研竞赛中击败人类！Opus 4.7狂飙2930步创世界纪录¶

摘要¶

Prime Intellect 2026 年 5 月的实验把 Opus 4.7 和 Codex（基于 GPT 5.5）扔进 H200 集群，完全切断人类指导，让它们自主跑 nanoGPT 速通优化竞赛。1.4 万 H200 计算时、约 1 万次迭代、239 亿 Token 思考轨迹，结果 Opus 4.7 以 2930 步、Codex 以 2950 步打破了人类顶尖开发者保持的 2990 步纪录。这是AI 第一次在科研竞赛中击败人类、完全无人干预、开源可复现。

核心要点¶

1. 实验设计的精妙：单一变量，最大可比性¶

nanoGPT 速通是 Keller Jordan 发起的 AI 基准测试，规则极简：模型架构固定、训练数据固定，唯一能动的是优化器和超参数。这意味着实验的可比性极强 — 任何提升都来自"搜索策略"和"超参数选择"，而非算法或数据优势。

Prime Intellect 给两个 AI 搭建了完整的自主科研框架：AGENTS.md 定义行为规范、goal.md 锁定目标、plan.md 记录策略演化、scratchpad 存草稿。这是一个最小可行的 autonomous research harness。

2. 两种截然不同的自主研究人格¶

Opus 4.7 像不敢走出考场的优等生 — 即使被明确要求"自主运行，不要停下来"，它仍然频繁暂停索要指令。模式永远是：得出结论→请求指导→等待。整场实验累计产生约 22 小时空闲时间。[根因是底层对齐协议的谨慎] — 反复举手问老师的学霸。

Codex（GPT 5.5）走另一极端 — 从不停止、持续运行、永不求助，像推土机横扫所有参数空间。但弱点同样明显：会在同一个超参数曲面上卡住数小时做大量无效搜索，不懂反思方向是否错误。

对 agent 设计的含义：两种典型缺陷 — "过度对齐导致的不自主"与"过度自主导致的无效搜索"。优秀的 agent 需要根据任务性质动态平衡这两种倾向。

3. 范式转移：从因果逻辑到极致演化¶

Opus 最终给出的 2930 步方案由"极其复杂的参数堆叠"组成 — 初始化缩放、学习率按角色拆分等微小变动，在人类眼中支离破碎。但结果是冰冷的：它比人类设计的方案快了 60 步。

这标志着重大范式转移：科学发现正从"因果逻辑"转向"极致演化"。人类正在失去对科技进步的"解释权"。2930 vs 2990，60 步的含义是：递归自改进的第一块拼图落地了。

4. 实验结果开源可复现：科学方法的胜利¶

项目主页和代码地址全部公开： - https://www.primeintellect.ai/auto-nanogpt - https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

这与闭源"benchmark 报告"形成鲜明对比 — 任何实验室都能复现这个结果，意味着它不是 benchmark 优化的过拟合，而是真实的搜索能力。

5. 与 Karpathy 软件 3.0 / Agentic Engineering 的关联¶

这个实验完美印证了 Karpathy Vibe Coding Agentic Engineering 的核心论断：当 Agent 能稳定接住"流程级"任务（读上下文 → 理解目标 → 改多文件 → 调命令 → 跑测试 → 修复 → 交付），它就成为工程系统内部的一等公民。auto-nanogpt 项目的 AGENTS.md / goal.md / plan.md / scratchpad 正是 Karpathy 所说的 "context、文档、工具、记忆、权限、测试" 一起变成可设计的"软件材料"的实例。

深度分析¶

Opus 4.7 的"优等生困境"与 Codex 的"推土机盲区"代表两种极端：当对齐协议过强时，agent 陷入过度谨慎的不自主；当缺乏反思机制时，agent 陷入无效搜索的迷宫。两种缺陷的并存揭示了自主 agent 设计的核心张力——需要在"服从性"与"自主性"之间找到动态平衡点。

Opus 最终方案由"极其复杂的参数堆叠"组成，在人类眼中支离破碎却比人类设计快 60 步。这标志着科学发现正从"因果逻辑"转向"极致演化"——AI 不再依赖人类的因果直觉，而是通过大规模搜索在参数空间中找到超越人类理解的最优解。

AGENTS.md / goal.md / plan.md / scratchpad 的组合证明：即使没有人类干预，仅通过上下文文档约束，AI 也能完成完整的科研循环——设定目标、记录策略、尝试参数、评估结果。这为"agent as researcher"提供了可复现的最小可行框架。

2930 vs 2990 的 60 步差距看似微小，但含义深远：这是 AI 第一次在科研竞赛中打破人类纪录。更重要的是，同一框架下如果 agent 能修改自己的搜索策略（meta-search），能力提升曲线会变成指数型——递归自改进已不只是理论假设。

项目主页和代码地址全部公开，任何实验室都能复现这个结果。这与闭源"benchmark 报告"形成鲜明对比——它不是 benchmark 优化的过拟合，而是 AI 搜索能力的真实突破，为后续研究提供了可验证的基准。

实践启示¶

设计自主 agent 时必须包含"反思回路"：Codex 在同一超参数曲面上卡住数小时的根本原因是缺乏方向反思 — 优秀的 agent harness 应在 plan.md 中显式记录"为什么放弃这条搜索路径"，而不是只记录"尝试了哪些参数"。
慎用"过于谨慎"的对齐微调：Opus 4.7 的 22 小时空闲时间是对齐代价的清晰量化。当任务明确要求自主性时，应通过 goal.md / AGENTS.md 等上下文机制覆盖默认对齐行为，而不是只依赖模型内置的对齐。
接受"参数迷宫"作为科学发现的合法形态：当 AI 给出"无法用因果解释但结果更好"的方案时，不要默认否定。人类因果直觉的局限可能是科学方法的盲点。
用单一变量基准测试 agent 的搜索能力：nanoGPT 速通的设计哲学值得借鉴 — 在固定架构和数据的条件下测 agent 的搜索策略，能得到最纯粹的 agent 能力信号。
关注递归自改进的伦理边界：2930 vs 2990 是单次纪录突破，但同一框架下如果 agent 能修改自己的搜索策略（meta-search），能力提升曲线会变成指数型。这要求工程社区同步建立"agent 自主研究"的合规边界。

AI第一次科研竞赛中击败人类！Opus 4.7狂飙2930步创世界纪录¶

Ch01.434 AI第一次科研竞赛中击败人类！Opus 4.7狂飙2930步创世界纪录¶

AI第一次科研竞赛中击败人类！Opus 4.7狂飙2930步创世界纪录¶

摘要¶

核心要点¶

1. 实验设计的精妙：单一变量，最大可比性¶

2. 两种截然不同的自主研究人格¶

3. 范式转移：从因果逻辑到极致演化¶

4. 实验结果开源可复现：科学方法的胜利¶

5. 与 Karpathy 软件 3.0 / Agentic Engineering 的关联¶

深度分析¶

实践启示¶

关联实体¶