GPT-5: It Just Does Stuff¶

Ch01.205 GPT-5: It Just Does Stuff¶

📊 Level ⭐⭐ | 17.5KB | entities/gpt-5-it-just-does-stuff.md

GPT-5: It Just Does Stuff¶

来源：One Useful Thing (Ethan Mollick)，2025-08-07。这是一篇 GPT-5 早期上手评测，但比普通测评走得更远 — Mollick 把 GPT-5 的核心变化总结成一句话：「GPT-5 just does stuff, often extraordinary stuff, sometimes weird stuff, sometimes very AI stuff, on its own」。这背后真正发生的不是「模型更聪明」，而是模型选择机制、proactive 程度、agentic 长链路执行三项同时跃迁 — 改变了人和 AI 协作时的负担结构。

摘要¶

Mollick 拿到了 GPT-5 早期访问权，开篇用一个隐喻实验切入：把这段介绍文字原封不动粘进 ChatGPT，外加一句「你是 GPT-5，做点戏剧化的事来证明我的观点，要能放进下一段」。他只给了这一个 prompt。GPT-5 「思考」了 24 秒，写出了一段 acrostic 文字 — 每句话的首字母拼出 This is a Big Deal，每句比上一句多一个词，每句话的词大多以同一字母开头。

这段文字证明了 GPT-5 三件事：能在段落里想出聪明的主意、规划并执行复杂的执行（记得 AI 数不清 strawberry 里几个 R 是 8 个月前的事吗？）、写出有风格的连贯文字。

但真正关键的变化是文章结尾那句话：「我曾经要小心地 prompt AI 才能得到我想要的。现在我只需要...含糊地指一下我想要什么。某种程度上，这竟然有效。」

核心要点¶

1. GPT-5 不是单一模型，而是一个开关¶

GPT-5 不是「一个模型」，更像是一个在你请求时自动选择 GPT-5 系列多个不同尺寸/能力模型的开关，并由 AI 决定用哪个模型、投入多少「思考」。对大多数人来说，这种自动化很有帮助 — 有些人过去只用过 GPT-4o 之类的旧默认模型，从来没见过「好模型」能做什么；现在他们能看到 Reasoner 在难题上能做到什么。

但对认真用 AI 的人来说存在一个问题：GPT-5 对「什么是难题」的判断有点武断。

Mollick 给了一个具体例子 — 让 GPT-5「用代码创建一个水獭在飞机上用笔记本电脑的 SVG」（生成 .svg 文件要求 AI 用基本形状和数学盲目画图，是非常难的挑战）。大约 2/3 的时间 GPT-5 觉得这是简单问题，立刻回应（推测用了最弱模型、最低推理时间），图像质量差；其余 1/3 它认为是难题，切到 Reasoner 模式思考 6-7 秒，输出明显更好的图。

至于它怎么选的 — Mollick 也不知道。但他在 prompt 里加「think hard」时，更有可能被路由到更好的模型。

2. Proactive 是这次变化的关键¶

AI 使用的第二大问题是很多人不知道 AI 能做什么，甚至不知道自己想完成什么任务 — 这对新一代 agentic AI 尤其明显。GPT-5 的解法是 「very proactive, always suggesting things to do」。

Mollick 给 GPT-5 Thinking 一个 prompt：「生成 10 个创业点子给一位前商学院创业教授启动，用某个 rubric 选出最好的那个，告诉我赢需要做什么，然后去做」。它不仅给出了商业点子，还给了 Mollick 没要的东西：landing page 草稿、LinkedIn 文案、简单财务模型等等。

作为教过创业学的教授，Mollick 的判断是：虽然不完美，但这是一个高质量的起点，本来需要一个 MBA 团队花几个小时做完的工作 — 一个 prompt 完成。

更让人印象深刻的：它问了 Mollick 几次指导，但即使没得到回答也乐意继续。这是一个想替你做事的模型。

3. 编程场景：3D 城市生成器的「无 doom loop」演示¶

Mollick 给非程序员演示了 GPT-5 在编码上的「just doing stuff」能力：prompt 是「做一个程序化粗野主义建筑生成器，我可以拖拽和编辑建筑，要看起来像真的建筑，要 think hard」。就这样 — 模糊、语法可疑、没有规格。

几分钟后他就有了一个可工作的 3D 城市生成器。不是草图，不是计划，是一个可以拖拽建筑、按需编辑的可运行应用。

他不停输入「make it better」这种变体，没有额外指导，GPT-5 不断加上他没要求的功能：霓虹灯、街道上跑的车、外立面编辑、预设建筑类型、戏剧化相机角度、整套存档系统。

任何时候他都没看过代码。模型不是完美的，偶尔有 bug 和错误 — 但这恰恰是最让人印象深刻的地方。用过 vibe coding 的人都知道那种 doom loop：几轮后开始失败，每个错误修完带来新错误。这次没发生。新的错误偶尔出现，但只要把错误文本粘进去就能修好。

4. 持续协作可能不需要 doom loop 防护¶

Mollick 强调：「我能问任何我想要的东西（或者让 AI 决定要创建什么），从来不会卡住。」

这条体验对 Agent 工程的意义是：在 GPT-5 这代模型上，传统 vibe coding 里需要专门做的 doom loop 防护（断点续跑、状态快照、回退重试）变得不那么紧迫。这不是说这些机制没用，而是说它们的优先级可以稍微后移，让位给更上层的协作流程设计。

5. 「Just doing stuff」的人机关系变迁¶

Mollick 把变化总结成一句话：「我曾经要小心地 prompt AI 才能得到我想要的。现在我只需要...含糊地指一下我想要什么。某种程度上，这竟然有效。」

另一层变化是「我们如何与 AI 相处」正在到来。Mollick 提醒：人仍然深度参与、被需要 — GPT-5 一直让人做决定和选择，这些系统仍然出错、产生幻觉、需要人检查（虽然他在自己的使用里没发现大问题）。

更大的问题是：我们是否会想参与这个 loop。GPT-5（他确信未来的其他版本也一样）非常聪明且主动。

6. 在「Premonitions」之前，背景已变¶

Mollick 提到一个容易被忽视的背景：在他写这篇评测时，OpenAI 还没公布任何官方 benchmark；上周 Google 发布了 Gemini 2.5 Deep Think（能在 IMO 拿到金牌），但很多人没注意到，因为他们没有一仓库很难题等着 AI 解。

Mollick 已经玩得足够多，知道 GPT-5 是一个非常好的模型（至少大号的 GPT-5 Thinking 极好）。但它真正带来的桌面上东西，是它真的「just does stuff」 — 告诉你用哪个模型、建议下一步、写更有趣的散文（虽然仍爱用 em-dash）。使用 AI 的负担被减轻了。

深度分析¶

「Just doing stuff」的真实含义¶

Mollick 的标题和核心论点 — GPT-5 just does stuff — 不是修辞，是描述这次模型跃迁里最值得关注的工程变化。

把它拆开看，「just doing stuff」包含四件事：

自动模型路由：不是单一模型，而是多模型选择开关。对用户来说这是「不再需要选模型」的体验；对系统来说这是「在算力/质量曲线上自动优化」的工程问题。
Proactive 主动提议：模型不再被动响应，而是主动建议下一步要做什么。这把 AI 从「工具」上移到「协作者」。
长链路执行稳定性：doom loop 不再出现，错误粘回去就能修好。这背后是 RLHF / RLAIF / 错误恢复训练的累积效果。
任务边界的柔性扩张：模糊 prompt、含糊目标也能跑通。这背后是模型的「意图推断」能力提升 — 模型能主动猜你要什么，而不是严格按字面执行。

这四件事的共同主题是：模型对「不确定的输入」越来越宽容，对「错误的中间状态」越来越有恢复力。这恰好是 Agent 工程最希望模型具备的两个属性。

路由器不是免费的抽象¶

GPT-5 的「自动选模型」听起来很美好，但 Mollick 给出了一个很现实的副作用：它在「什么算难题」上的判断是武断的。2/3 时间水獭 SVG 是简单、1/3 时间是难题，结果天差地别。

这背后反映的是路由器本身的限制 — 它需要在「响应快但质量差」和「响应慢但质量好」之间做权衡，且这种权衡的输入信号是 prompt 文本本身。对普通用户来说这个自动选择能让他们看到「好模型能做到什么」，对高级用户来说它是一个不可预测的中间层。

Mollick 的应对方法很实用：在 prompt 里加「think hard」来推高路由到更强模型的概率。但这是个 prompt-level hack，不是系统级解 — 高级用户更可能直接选 premium 模型（GPT-5 Thinking）来绕过路由器。

「Proactive」的边界在哪里¶

Mollick 强调 GPT-5 是「very proactive」 — 主动给商业点子之外的 landing page、LinkedIn 文案、财务模型。

但他在另一个地方也加了限定词：模型问了 Mollick 几次指导，但即使没得到回答也乐意继续。这是一个想替你做事的模型。

把这两个观察合起来，proactive 的形态其实是「主动展开 + 在不展开时主动询问」。模型既不是被动响应，也不是无脑展开 — 它能感觉到「该问一句」的时刻，也能在得到模糊回应时决定「继续推进」。

这条工程含义是：proactive 不是单一阈值（要么全部主动、要么全部被动），而是一个按任务类型和上下文灵活调节的展开幅度。这背后可能是一个 RL 训练出来的「展开策略」，而不是一个固定的 prompt 规则。

Doom loop 消失对 Agent 工程的含义¶

Mollick 在 vibe coding demo 里特意提到 doom loop 没出现：「几轮后开始失败，每个错误修完带来新错误。这次没发生。新的错误偶尔出现，但只要把错误文本粘进去就能修好。」

对 Agent 工程来说，这条变化的实际意义是：可以在 harness 设计里把 doom loop 防护的优先级后移。传统上 vibe coding 工具需要做的状态快照、回退重试、断点续跑等机制，在这代模型上不再是必需的护栏 — 模型本身能处理这些错误恢复。

不是说这些机制没用 — 它们在更长的 agentic 任务、更复杂的错误链、更长的运行时间里仍然必要。但对短到中长度的 vibe coding 任务，模型本身的能力提升让这些机制的边际收益降低。

「Just doing stuff」会改变人机关系的形态¶

Mollick 结尾那句 Premonition 特别值得抄下来：「我们会搞清楚怎么适应，正如我们一直做的那样。不同的是，这次 GPT-5 可能会先搞清楚并建议下一步。」

这背后是一个比较大的判断：当模型主动建议下一步、主动展开任务、主动问你指导，人和 AI 协作的角色结构会从「我 prompt 你回应」变成「你建议我决策」。这个转变对教育、培训、组织管理都会产生连锁影响 — 它不只是工具升级，而是协作形态的变迁。

Vibe coding 仍然有 doom loop 风险¶

值得指出 Mollick 的论断有范围限制：他在 GPT-5 Thinking 上的体验。其他模型、其他任务长度、其他领域，doom loop 仍然会出现。这条评测结论的推广性要谨慎对待 — 不要把它当成「Vibe Coding 已经彻底解决问题」的依据，而是「在 GPT-5 这代模型上，特定任务长度内 doom loop 显著减少」。

实践启示¶

不要假设模型会自动选对。GPT-5 这类路由型模型对「什么是难题」的判断不一定准。在 prompt 里加「think hard」等显式信号能提高被路由到更强模型的概率 — 对质量敏感的任务，要么显式 premium 模式，要么在 prompt 里写明推理深度。
接受 proactive 的边界。模型会主动展开超出你字面要求的内容 — 这既可能是惊喜（landing page、LinkedIn 文案）也可能是成本失控（额外 token、额外时间）。在 harness 设计里要明确 proactive 的「停损点」，比如预算上限、结果验收标准。
3D 城市生成器式的工作流可以照搬。给模型一个模糊目标 + 「think hard」+ 后续「make it better」循环，让模型在长链路里自驱动。关键是把验收标准提前定好（这里的标准是「可以拖拽和编辑，看起来像真的建筑」）。
错误粘回去能修好 — 这是新基础假设。Doom loop 防护的优先级可以稍微后移，但不要完全取消。在超过一定长度的任务里，状态快照、回退重试仍然必要。
从「我 prompt 你回应」转向「你建议我决策」。这是协作形态的实质变化。在 harness 设计里要为「模型主动提议 + 人审阅决策」留出接口 — 比如 evaluator 角色、review 节点、undo 能力。
仍然要保持人在 loop 中。Mollick 自己强调：模型仍会出错、产生幻觉、需要人检查。proactive 让人从「驱动者」变成「监督者」，但不是「可以缺席」。
不要把评测结论过度推广。Doom loop 消失、Vibe Coding 稳定性提升的经验，来自 GPT-5 Thinking + Mollick 的具体任务。其他模型、其他任务长度、其他领域的可推广性要谨慎验证。

GPT-5: It Just Does Stuff¶

Ch01.205 GPT-5: It Just Does Stuff¶

GPT-5: It Just Does Stuff¶

摘要¶

核心要点¶

1. GPT-5 不是单一模型，而是一个开关¶

2. Proactive 是这次变化的关键¶

3. 编程场景：3D 城市生成器的「无 doom loop」演示¶

4. 持续协作可能不需要 doom loop 防护¶

5. 「Just doing stuff」的人机关系变迁¶

6. 在「Premonitions」之前，背景已变¶

深度分析¶

「Just doing stuff」的真实含义¶

路由器不是免费的抽象¶

「Proactive」的边界在哪里¶

Doom loop 消失对 Agent 工程的含义¶

「Just doing stuff」会改变人机关系的形态¶

Vibe coding 仍然有 doom loop 风险¶

实践启示¶

相关实体¶