何恺明首个语言模型：105M参数，不走GPT自回归老路¶

Ch01.318 何恺明首个语言模型：105M参数，不走GPT自回归老路¶

📊 Level ⭐⭐ | 11.6KB | entities/elf-embedded-language-flows-hekaiming-105m.md

作者：量子位（henry 发自凹非寺）平台：微信 原始链接：https://mp.weixin.qq.com/s/RyuLfX29ZZP535uXveitug 抓取日期：2026-05-13 来源：量子位 | 公众号 QbitAI

何恺明，也下场做语言模型了。只不过，这次他带队做的不是大家熟悉的、像ChatGPT背后那套"预测下一个词元"（next token prediction）的自回归范式。而是另一条过去几年在图像领域大火、如今正被越来越多人搬进文本生成的新路线：扩散语言模型（Diffusion Language Model，DLM）。在最新的论文中，何恺明团队放出全新连续扩散语言模型：ELF：Embedded Language Flows。与不少还停留在token层面做扩散的语言模型不同，ELF把整个生成过程都留在了连续的embedding空间里，直到最后一步，才重新离散化，将表示变回token。靠着这套设计，ELF只用了105M参数、45B训练token、32步采样，就正面跑赢了一批主流扩散语言模型。最直观的一项指标是它在OpenWebText上，把生成困惑度（Generative Perplexity）直接压到了24。

简单科普一下生成困惑度：让一个强大的语言模型，给生成结果"检查作业"，看看这些文本到底像不像真实人类写出来的语料。值越低，说明生成质量越高。

ELF到底做了什么¶

扩散语言模型主要有两种技术路线：

离散派（MDLM、Duo）：直接在token空间做扩散，每一步处理离散随机变量
连续派（Diffusion-LM、CDCD、DiffuSeq）：把token映成连续embedding，在连续空间里去噪此前，离散路线占据上风。原因很简单：语言本身就是离散的。恺明团队给出的判断恰恰相反——问题可能不是"语言必须离散"，问题可能是：前人根本没有让连续路线，连续到底。 Diffusion-LM这类方法虽然在embedding空间去噪，但每一步都要算一次token-level的交叉熵，把连续轨迹一路绑在词表上。后来的LD4LG、Cosmos走latent diffusion路线，去噪过程是连续了，但要单独训一个decoder把latent解回token，相当于多一个模块。 ELF的核心创新：把所有denoising全留在continuous embedding space；直到最后一步 t=1，才重新投回token。

核心技术细节¶

把token变成连续embedding¶

ELF先用T5预训练encoder把离散token映射为双向contextual embedding（也测试了jointly trained embedding和随机embedding方案）。注意：这个encoder只在训练阶段使用，推理时不额外增加模块。

在连续embedding空间里做Flow Matching¶

t=0时，是高斯噪声；t=1时，是干净的embedding；中间状态是rectified flow
x-prediction：直接预测干净embedding（而非传统的v-prediction），最小化MSE
论文给出两个选择x-prediction的理由：
高维表示（768维+）上更稳定
天然和最后一步"预测干净token"的目标对齐
v-prediction与denoising/decoding之间的权重共享不兼容

从连续embedding，再回到离散token¶

最后一步 t=1，把continuous embedding投回token空间。关键：decoder和前面的denoiser是同一个网络。具体做法：

最后一步额外加入一次token-level corruption，构造带扰动输入
同一个网络输出clean embedding，再通过可学习的unembedding矩阵 W 投影成token logits
训练目标是标准的token-level cross-entropy loss
整个网络共享同一套参数，并额外接收一个二值mode token（去噪模式/解码模式）

Self-CFG¶

ELF把图像生成里最常用的CFG（classifier-free guidance）搬过来了：用self-conditioning作为条件信号，套上training-time CFG（一次forward模拟两次推理，没有inference开销）。

实验对比¶

指标	ELF	主流离散扩散模型
生成困惑度（OpenWebText）	24	需要1024步才接近
采样步数	32步	1024步
训练token	45B	500B+
在WMT14机器翻译和XSum文本摘要等条件生成任务上，ELF也稳定超过现有扩散语言模型，甚至压倒了部分自回归baseline。
论文总结：ELF在生成质量、采样效率和训练成本之间实现了很强的trade-off。连续派不是不能打，只是以前没把连续这件事做到底。

深度分析¶

1. 连续扩散路线的"到底"哲学：一次算不算连续¶

ELF最核心的洞察，是对"连续"定义的重新审视。此前Diffusion-LM虽然在embedding空间去噪，但每一步都计算token-level交叉熵，本质上是把连续轨迹强行绑定到离散词表——这相当于在高速公路上每隔100米设一个收费站。LD4LG和Cosmos虽然用了latent diffusion，但额外的decoder模块带来了新的推理开销和训练复杂度。ELF的答案是：既然选择了连续空间，就让连续到底，从噪声到干净embedding全程在768维连续空间里游走，只在最后一刻才做离散化。

2. x-prediction替代v-prediction：预测目标的选择影响权重共享¶

论文选择x-prediction而非传统扩散模型偏好的v-prediction，背后有三个紧密关联的理由。高维表示（768维以上）上x-prediction更稳定；其次，x-prediction的目标——预测干净embedding——天然和最后一步"投回token"的解码目标对齐；第三，v-prediction与denoising/decoding之间的权重共享不兼容。值得注意的是，decoder和denoiser是同一个网络（共享参数），这要求预测目标必须同时服务于两个阶段，x-prediction正好满足这一约束。

3. 推理时零额外模块的设计美学¶

ELF的encoder（T5）只在训练阶段使用，推理时不需要任何额外的重建模块。这是一个非常"何恺明风格"的设计选择——他此前在图像领域的工作（如MAE、Masked Autoencoders）也一贯强调用尽可能少的结构实现最大化的表示能力。训练和推理的不对称性（训练用encoder，推理只用diffusion U-Net）体现了一种实用的工程哲学：训练时可以借助强大的预训练模型获得高质量的embedding，但推理时的复杂度必须严格控制。

4. Self-CFG：无推理开销的条件生成机制¶

Classifier-Free Guidance在图像生成中早已是标准配置，但ELF创造性地用self-conditioning作为条件信号，并配合training-time CFG实现了一次前向传播模拟两次推理的效果。这意味着条件生成（conditioned generation）相比无条件生成没有任何额外的推理成本——这对需要大规模部署的生产系统有直接的工程价值。恺明团队把图像领域的成熟技术迁移到文本，并针对文本生成的特性做了适配。

5. 参数量与训练效率的反直觉Scaling¶

105M参数+45B tokens对比其他扩散语言模型需要的500B+ tokens，这个比例关系暗示连续扩散路线可能在数据效率上有本质优势。如果这一结论在更大规模下仍然成立，可能会动摇"大力出奇迹"的 scaling 公理——至少对于扩散范式来说，更好的连续表示可能比更多的离散token更有效。

实践启示¶

1. 连续 embedding 扩散项目的架构选型¶

如果你的团队在探索 diffusion language model 新架构，ELF的"全程连续+最后离散"设计提供了一个清晰的架构参考：embedding编码阶段可用预训练LM（BERT/T5/CLIP），去噪阶段用标准U-Net/Transformer处理连续向量，decoding阶段通过共享参数的unembedding矩阵投影到token logits。避免在去噪过程中插入任何token-level的操作。

2. 高维表示预测目标优先选择 x-prediction¶

当模型需要在denoising和decoding阶段共享权重时，x-prediction（直接预测干净embedding）比v-prediction更合适。建议在768维以上的embedding维度上默认使用x-prediction，配合MSE损失函数。

3. 训练-推理不对称的实用主义设计¶

ELF的encoder只用于训练、推理时完全不用，这启示我们：训练阶段可以引入强大的辅助模型（类似知识蒸馏），但推理系统必须独立精简。在设计类似pipeline时，问自己一个问题：推理时能砍掉这个模块吗？如果不能，说明设计还不够彻底。

4. 用 Self-CFG 降低条件生成推理成本¶

在需要条件生成的文本任务（翻译、摘要、风格迁移）中，优先考虑ELF的self-conditioning + training-time CFG方案：用一次前向传播模拟两次推理的CFG效果，零额外推理开销。这比推理时多次采样平均的方案效率高得多。

5. 扩散语言模型的评测指标：优先看生成困惑度而非标准困惑度¶

传统语言模型用perplexity评估，但ELF展示的是"生成困惑度"（Generative Perplexity）——用强模型评估生成文本的质量。在做diffusion LM研究时，这个指标比直接借用AR LM的标准困惑度更能反映扩散模型的实际生成质量，建议作为主要评估维度。

参考¶

论文：https://arxiv.org/pdf/2605.10938
恺明团队半年前的工作：《Back to Basics: Let Denoising Generative Models Denoise》