跳转至

GPT-5.5全球首破!0源码盲写程序,编程AI进入新纪元

Ch01.463 GPT-5.5全球首破!0源码盲写程序,编程AI进入新纪元

📊 Level ⭐⭐ | 7.6KB | entities/gpt-55-programbench-first-solve.md

GPT-5.5全球首破!0源码盲写程序,编程AI进入新纪元

【新智元导读】全网AI交白卷的地狱级基准,被GPT-5.5拿下一血!开局0源码盲写程序,拉满推理算力直接满血通关。传统代码测试已废,通往ASI的算力狂飙正式打响。 今天,在一个所有前沿AI交白卷的基准ProgramBench上,GPT-5.5首关告破! 两种不同编程语言C和Python,GPT-5.5 xhigh完全碾压Opus 4.7 xhigh。 就在几天前,Meta联手斯坦福、哈佛祭出了这个ProgramBench的全新编程基准:

相关实体

原文存档

深度分析

1. ProgramBench 验证了推理算力 Scaling Law:同一模型底座,medium 几乎交白卷,xhigh 满分通关

Noam Brown 提出的推理算力 Scaling Law 在 ProgramBench 上得到了迄今最直观的验证:同一个 GPT-5.5 底座,medium 模式通过率接近零,high 模式满分通关,xhigh 模式断层碾压所有对手。这意味着"智能"不再是一个固定值,而是算力的函数。传统评估方式(SWE-bench/HumanEval)的"修 bug"范式已被彻底突破,推理算力扩展可能是通往 ASI 的现实路径而非等待下一代架构革命。

2. ProgramBench 与传统编程基准的本质差异决定了它是真正的"终极考试"

SWE-bench 和 HumanEval 本质上是"修 bug"或"补函数"的半开卷考试,而 ProgramBench 要求从 0 重建完整程序:只给编译好的可执行文件和文档,不给源码,不许反编译,不许联网。这种"闭卷 + 无源码"的设计使得所有前沿模型在此基准上首次出现 0% 通过率,GPT-5.5 的 0.05% 通过率具有划时代的意义——它证明了这个不可能任务在算力扩展后是可以被完成的。

3. 推理模式间的探索策略差异是胜负的关键,而非模型基础能力的绝对差距

GPT-5.5 high 用 10 轮探索测试摸清 CLI 行为后一次性写出完整 C 实现,仅 5 次微调就通过全部测试。Claude Opus 4.7 xhigh 花 $10.74、178 次调用却因两个简单 bug(strcmp 非 strcasecmp;exit(0) 非 exit(1))导致 19 个测试失败——而它在探索阶段明明观察到了正确行为,却在实现时未能应用。这说明:当推理算力给够时,探索策略的完整性和执行严谨度才是决定性因素,而非模型本身。

4. 编程 AI 评估范式已从"修复能力"转向"重建能力",这将根本性改变 AI 编程工具的发展方向

SWE-bench 通过率已被卷到 88.7%,传统基准的区分度正在消失。ProgramBench 的出现标志着一个新阶段的开始:评估标准从"在已有代码库上修 bug"升级为"从零重建完整可运行程序"。这对 AI 编程工具的开发者意味着:继续优化传统基准分数的边际收益已极低,下一代编程 AI 的核心竞争将在 ProgramBench 这类"真从零重建"任务上展开。

5. Opus 4.7 的系统工程能力反衬出推理模式切换的战略重要性

Opus 4.7 在发现 ncurses.h 缺失后花费 20 步深入调查,用 lddconfig -p 和 nm -D 找到了运行时库的导出符号,并手写了 106 行头文件声明——这是真正的顶级系统工程能力。但 $10.74、178 次调用、最终全场最差成绩说明:在 ProgramBench 这类任务上,单次高质量的系统工程决策不如持续推理算力扩展带来的探索完整性重要。这对 AI 编程工具的架构设计有重要启示。

实践启示

1. 评估编程 AI 能力时应将 ProgramBench 纳入标准测试集,替代已被"刷满"的传统基准

SWE-bench 88.7% 通过率和 HumanEval 的高分已无法区分当前顶尖模型。ProgramBench 的 0.05% 首次通过率和 200 题规模提供了真正的区分度。建议:任何面向编程任务的 AI 工具评估都应包含"从零重建"类任务,以避免在已被饱和攻击的传统基准上产生虚假的优越感。

2. 在高价值代码生成任务中,应考虑为 AI 模型启用高推理模式而非默认模式

GPT-5.5 medium 模式的表现仅比 Claude Sonnet 4.6 略好,但 xhigh 模式实现了质的飞跃。对于关键业务代码生成任务(数据库迁移、核心业务逻辑、重构),不应使用默认推理模式而应主动启用高推理配置。这一差距在生产环境中的成本效益计算值得深入研究:高推理成本 vs. 代码错误导致的事故成本。

3. 构建 AI 编程工具时应重点优化"探索阶段的完整性验证"机制

Opus 4.7 的失败本质是:它在探索阶段观察到了原程序行为(包括 exit=0 和大小写颜色处理),但在实现自己的代码时没有应用这些观察。这说明 AI 编程工具需要一个强制性的"探索→实现一致性校验"机制——实现前必须显式验证关键行为的对应关系,而非依赖隐式记忆。这一机制的设计成本远低于 $10.74 级别的 API 调用浪费。

4. 推理算力 Scaling Law 意味着 ASI 的实现路径可能比预期更近——应提前布局相关基础设施

Noam Brown 的 Scaling Law 在编程领域得到验证,且其适用性可能扩展到所有认知任务。这意味着:只要推理算力持续扩展,ASI 可能不需要等待下一代架构革命,而是通过算力扩展自然达成。建议:AI 基础设施投资(推理算力储备、分布式推理框架、高并发推理优化)应被视为通往 ASI 的确定性投资,而非押注于不确定的架构突破。

5. AI 编程工具应支持针对同一任务的多语言探索策略比较

GPT-5.5 high 选择 C 语言、xhigh 选择 Python 都通过了同一任务,这揭示了一个重要现象:对于同一重建目标,多种语言解法都是可行的,关键在于探索的完整性而非语言的优越性。AI 编程工具可以设计为:对于给定任务,自动生成多语言候选方案并行的完整性探索,而非在单一语言路径上"一条道走到黑"。