The recent history of AI in 32 otters¶

Ch01.490 The recent history of AI in 32 otters¶

📊 Level ⭐⭐ | 7.2KB | entities/the-recent-history-of-ai-in-32-otters.md

The Recent History of AI in 32 Otters¶

摘要¶

Ethan Mollick（沃顿商学院教授）用一个简单而巧妙的基准测试——"otter on a plane using wifi"——追踪了 AI 图像生成从 2021 年到 2025 年的演进历程。这个偶然的测试揭示了 AI 发展的三个关键趋势：多种类型 AI 工具的涌现、能力的快速提升、以及开源/本地模型的追赶速度。从 VQGAN+CLIP 的抽象色块到 Midjourney 的照片级写实，从扩散模型到多模态直接生成，从闭源垄断到本地 GPU 可运行的开源模型，三年间的变化堪称翻天覆地。

核心要点¶

三种图像生成技术路线¶

技术路线	代表产品	工作原理	优势	局限
扩散模型	Midjourney, Flux, Imagen	从随机噪声逐步去噪，同时变换整张图像	风格多样，照片级写实	结果随机，需多次尝试
多模态直接生成	GPT-4o 图像生成, Gemini	LLM 逐像素/逐 patch 生成，如同逐词生成文本	精确控制，可迭代修改	目前无开源版本
代码生成图像	LLM + TikZ	AI 用数学代码描述图像，无视觉反馈	测试空间推理能力	生成质量较低

扩散模型的演进时间线（Midjourney "otter on a plane using wifi"）¶

2022 年初：融化般的色块，无法辨认
2022 年末：可辨认的水獭，但手指过多、键盘怪异
2023 年：照片级写实的水獭，但键盘和机窗仍有问题
2024 年：光照和构图显著改善
2025 年：优秀的照片级写实效果

多模态生成的范式转变¶

2025 年 OpenAI 和 Google 推出的多模态图像生成是根本性的技术转变：LLM 不再调用外部扩散模型，而是直接以「逐 patch 添加颜色」的方式生成图像——就像逐词生成文本一样。这给了 AI 对图像的深度控制能力。

关键能力差异： - 扩散模型：「otter on a plane」→ 随机生成，可能是河獭或海獭 - 多模态生成：「make it a sea otter, give it a mohawk, use a Razer gaming laptop」→ 精确执行修改

TikZ 代码绘图：测试空间推理¶

TikZ 是学术论文中用于绘制科学图表的数学语言（德语缩写，意为「TikZ 不是绘图程序」）。用 TikZ 画图几乎没有训练数据可供参考，AI 必须从零推理空间关系。

GPT-4（2023）：画出了一只粉色独角兽，被「Sparks of AGI」论文视为 AGI 萌芽的证据
Gemini 2.5 Pro（2025）：画出了相当不错的水獭（虽然把「on a plane」理解成了坐在机翼上）
DeepSeek r1（2025）：开源模型，质量接近但略逊于闭源模型

这些绘图本身不重要，重要的是模型在没有视觉反馈的情况下推理空间关系——这是从「模式匹配」走向「真正理解」的证据。

视频生成的加速¶

2024 年 7 月（Runway Gen-3 alpha）：粗糙、不连贯
2025 年（Google Veo 3）：逼真视频 + AI 生成音效，不到一年的飞跃
本地开源（腾讯 HunyuanVideo）：质量落后但可在家庭 GPU 上运行

深度分析¶

「水獭基准」的方法论价值¶

Mollick 的「水獭测试」之所以有效，在于它满足了好基准的三个条件：

固定输入、可比输出：同一提示词跨时间对比，消除了提示工程的干扰
足够的复杂度：「飞机上用 wifi 的水獭」涉及动物解剖、室内场景、电子设备、透视关系等多个维度
人类可直观评判：不需要量化指标，肉眼就能看出进步

这比大多数学术基准（FID、CLIP Score 等）更直观，也更能反映普通用户的真实体验。

开源模型的追赶速度¶

文章揭示的一个关键趋势：开源/本地模型通常只落后闭源前沿 数月而非数年。

领域	闭源前沿	开源追赶者	差距
图像生成	Midjourney v6	Flux (本地 GPU)	数月
视频生成	Veo 3	HunyuanVideo	~1 年
代码绘图	Gemini 2.5 Pro	DeepSeek r1	数月
多模态生成	GPT-4o	暂无	待追赶

这意味着任何基于闭源模型构建的竞争优势都是短暂的。监管框架也面临挑战——当能力在数月内扩散到开源社区时，基于模型访问的管控手段将迅速失效。

「无法分辨真假」的临界点¶

Mollick 的核心判断：我们正在逼近一个临界点——AI 生成的图像和视频将「好到足以欺骗大多数人」，且这些能力将通过开源模型广泛传播、难以监管。从 2022 年的抽象色块到 2025 年的逼真视频，仅用了不到三年。这一趋势对新闻真实性、法庭证据、娱乐产业的信任基础都将产生深远影响。

与「Sparks of AGI」论文的对话¶

2023 年微软研究院的「Sparks of AGI」论文以 GPT-4 画独角兽为证据之一，论证 LLM 可能具有某种「火花」。Mollick 用 2025 年的模型重做了这个测试——从勉强可辨的独角兽到相当不错的水獭——暗示如果 2023 年的独角兽算「火花」，那 2025 年的进步可能已经是「火焰」了。

实践启示¶

不要押注单一技术路线：扩散模型、多模态生成、代码绘图各有优势。在实际应用中应根据需求选择——需要风格多样性用扩散模型，需要精确控制用多模态生成，需要可复现的结构化输出用代码生成。
开源模型是真实的替代选项：对于图像生成等任务，本地运行的 Flux 已接近 Midjourney 水平。在成本敏感或隐私要求高的场景，开源模型值得认真评估。
「水獭基准」思维：在评估 AI 工具时，建立自己的固定测试集比依赖排行榜更有价值。选择 3-5 个有代表性的任务，定期用同一提示测试，追踪真实进步。
为「无法分辨真假」的世界做准备：内容认证（C2PA 等）、来源验证、媒体素养教育将成为基础设施级需求。
视频生成是下一个爆发点：从 2024 到 2025 的进步幅度远超预期。如果这一速度持续，2026 年的 AI 视频可能达到电影级质量。