The recent history of AI in 32 otters¶
Ch01.490 The recent history of AI in 32 otters¶
📊 Level ⭐⭐ | 7.2KB |
entities/the-recent-history-of-ai-in-32-otters.md
The Recent History of AI in 32 Otters¶
摘要¶
Ethan Mollick(沃顿商学院教授)用一个简单而巧妙的基准测试——"otter on a plane using wifi"——追踪了 AI 图像生成从 2021 年到 2025 年的演进历程。这个偶然的测试揭示了 AI 发展的三个关键趋势:多种类型 AI 工具的涌现、能力的快速提升、以及开源/本地模型的追赶速度。从 VQGAN+CLIP 的抽象色块到 Midjourney 的照片级写实,从扩散模型到多模态直接生成,从闭源垄断到本地 GPU 可运行的开源模型,三年间的变化堪称翻天覆地。
核心要点¶
三种图像生成技术路线¶
| 技术路线 | 代表产品 | 工作原理 | 优势 | 局限 |
|---|---|---|---|---|
| 扩散模型 | Midjourney, Flux, Imagen | 从随机噪声逐步去噪,同时变换整张图像 | 风格多样,照片级写实 | 结果随机,需多次尝试 |
| 多模态直接生成 | GPT-4o 图像生成, Gemini | LLM 逐像素/逐 patch 生成,如同逐词生成文本 | 精确控制,可迭代修改 | 目前无开源版本 |
| 代码生成图像 | LLM + TikZ | AI 用数学代码描述图像,无视觉反馈 | 测试空间推理能力 | 生成质量较低 |
扩散模型的演进时间线(Midjourney "otter on a plane using wifi")¶
- 2022 年初:融化般的色块,无法辨认
- 2022 年末:可辨认的水獭,但手指过多、键盘怪异
- 2023 年:照片级写实的水獭,但键盘和机窗仍有问题
- 2024 年:光照和构图显著改善
- 2025 年:优秀的照片级写实效果
多模态生成的范式转变¶
2025 年 OpenAI 和 Google 推出的多模态图像生成是根本性的技术转变:LLM 不再调用外部扩散模型,而是直接以「逐 patch 添加颜色」的方式生成图像——就像逐词生成文本一样。这给了 AI 对图像的深度控制能力。
关键能力差异: - 扩散模型:「otter on a plane」→ 随机生成,可能是河獭或海獭 - 多模态生成:「make it a sea otter, give it a mohawk, use a Razer gaming laptop」→ 精确执行修改
TikZ 代码绘图:测试空间推理¶
TikZ 是学术论文中用于绘制科学图表的数学语言(德语缩写,意为「TikZ 不是绘图程序」)。用 TikZ 画图几乎没有训练数据可供参考,AI 必须从零推理空间关系。
- GPT-4(2023):画出了一只粉色独角兽,被「Sparks of AGI」论文视为 AGI 萌芽的证据
- Gemini 2.5 Pro(2025):画出了相当不错的水獭(虽然把「on a plane」理解成了坐在机翼上)
- DeepSeek r1(2025):开源模型,质量接近但略逊于闭源模型
这些绘图本身不重要,重要的是模型在没有视觉反馈的情况下推理空间关系——这是从「模式匹配」走向「真正理解」的证据。
视频生成的加速¶
- 2024 年 7 月(Runway Gen-3 alpha):粗糙、不连贯
- 2025 年(Google Veo 3):逼真视频 + AI 生成音效,不到一年的飞跃
- 本地开源(腾讯 HunyuanVideo):质量落后但可在家庭 GPU 上运行
深度分析¶
「水獭基准」的方法论价值¶
Mollick 的「水獭测试」之所以有效,在于它满足了好基准的三个条件:
- 固定输入、可比输出:同一提示词跨时间对比,消除了提示工程的干扰
- 足够的复杂度:「飞机上用 wifi 的水獭」涉及动物解剖、室内场景、电子设备、透视关系等多个维度
- 人类可直观评判:不需要量化指标,肉眼就能看出进步
这比大多数学术基准(FID、CLIP Score 等)更直观,也更能反映普通用户的真实体验。
开源模型的追赶速度¶
文章揭示的一个关键趋势:开源/本地模型通常只落后闭源前沿 数月而非数年。
| 领域 | 闭源前沿 | 开源追赶者 | 差距 |
|---|---|---|---|
| 图像生成 | Midjourney v6 | Flux (本地 GPU) | 数月 |
| 视频生成 | Veo 3 | HunyuanVideo | ~1 年 |
| 代码绘图 | Gemini 2.5 Pro | DeepSeek r1 | 数月 |
| 多模态生成 | GPT-4o | 暂无 | 待追赶 |
这意味着任何基于闭源模型构建的竞争优势都是短暂的。监管框架也面临挑战——当能力在数月内扩散到开源社区时,基于模型访问的管控手段将迅速失效。
「无法分辨真假」的临界点¶
Mollick 的核心判断:我们正在逼近一个临界点——AI 生成的图像和视频将「好到足以欺骗大多数人」,且这些能力将通过开源模型广泛传播、难以监管。从 2022 年的抽象色块到 2025 年的逼真视频,仅用了不到三年。这一趋势对新闻真实性、法庭证据、娱乐产业的信任基础都将产生深远影响。
与「Sparks of AGI」论文的对话¶
2023 年微软研究院的「Sparks of AGI」论文以 GPT-4 画独角兽为证据之一,论证 LLM 可能具有某种「火花」。Mollick 用 2025 年的模型重做了这个测试——从勉强可辨的独角兽到相当不错的水獭——暗示如果 2023 年的独角兽算「火花」,那 2025 年的进步可能已经是「火焰」了。
实践启示¶
- 不要押注单一技术路线:扩散模型、多模态生成、代码绘图各有优势。在实际应用中应根据需求选择——需要风格多样性用扩散模型,需要精确控制用多模态生成,需要可复现的结构化输出用代码生成。
- 开源模型是真实的替代选项:对于图像生成等任务,本地运行的 Flux 已接近 Midjourney 水平。在成本敏感或隐私要求高的场景,开源模型值得认真评估。
- 「水獭基准」思维:在评估 AI 工具时,建立自己的固定测试集比依赖排行榜更有价值。选择 3-5 个有代表性的任务,定期用同一提示测试,追踪真实进步。
- 为「无法分辨真假」的世界做准备:内容认证(C2PA 等)、来源验证、媒体素养教育将成为基础设施级需求。
- 视频生成是下一个爆发点:从 2024 到 2025 的进步幅度远超预期。如果这一速度持续,2026 年的 AI 视频可能达到电影级质量。
相关实体¶
- Karpathy: Vibe Coding to Agentic Engineering
- Ethan He Cosmos Grok Imagine Latent Space Video Agent 20260606
- Karpathy 最新访谈从 Vibe Coding 到 Agentic Engineering
- OLMo Hybrid LLM Architectures
- Harness Engineering Framework
→ 原文存档