跳转至

何恺明首个语言模型:105M参数,不走GPT自回归老路

Ch01.318 何恺明首个语言模型:105M参数,不走GPT自回归老路

📊 Level ⭐⭐ | 11.6KB | entities/elf-embedded-language-flows-hekaiming-105m.md

作者:量子位(henry 发自 凹非寺) 平台:微信 原始链接:https://mp.weixin.qq.com/s/RyuLfX29ZZP535uXveitug 抓取日期:2026-05-13 来源:量子位 | 公众号 QbitAI


何恺明,也下场做语言模型了。 只不过,这次他带队做的不是大家熟悉的、像ChatGPT背后那套"预测下一个词元"(next token prediction)的自回归范式。 而是另一条过去几年在图像领域大火、如今正被越来越多人搬进文本生成的新路线:扩散语言模型(Diffusion Language Model,DLM)。 在最新的论文中,何恺明团队放出全新连续扩散语言模型:ELF:Embedded Language Flows。 与不少还停留在token层面做扩散的语言模型不同,ELF把整个生成过程都留在了连续的embedding空间里,直到最后一步,才重新离散化,将表示变回token。 靠着这套设计,ELF只用了105M参数、45B训练token、32步采样,就正面跑赢了一批主流扩散语言模型。 最直观的一项指标是它在OpenWebText上,把生成困惑度(Generative Perplexity)直接压到了24

简单科普一下生成困惑度:让一个强大的语言模型,给生成结果"检查作业",看看这些文本到底像不像真实人类写出来的语料。值越低,说明生成质量越高。

ELF到底做了什么

扩散语言模型主要有两种技术路线:

  • 离散派(MDLM、Duo):直接在token空间做扩散,每一步处理离散随机变量
  • 连续派(Diffusion-LM、CDCD、DiffuSeq):把token映成连续embedding,在连续空间里去噪 此前,离散路线占据上风。原因很简单:语言本身就是离散的。 恺明团队给出的判断恰恰相反——问题可能不是"语言必须离散",问题可能是:前人根本没有让连续路线,连续到底。 Diffusion-LM这类方法虽然在embedding空间去噪,但每一步都要算一次token-level的交叉熵,把连续轨迹一路绑在词表上。 后来的LD4LG、Cosmos走latent diffusion路线,去噪过程是连续了,但要单独训一个decoder把latent解回token,相当于多一个模块。 ELF的核心创新:把所有denoising全留在continuous embedding space;直到最后一步 t=1,才重新投回token。

核心技术细节

把token变成连续embedding

ELF先用T5预训练encoder把离散token映射为双向contextual embedding(也测试了jointly trained embedding和随机embedding方案)。注意:这个encoder只在训练阶段使用,推理时不额外增加模块。

在连续embedding空间里做Flow Matching

  • t=0时,是高斯噪声;t=1时,是干净的embedding;中间状态是rectified flow
  • x-prediction:直接预测干净embedding(而非传统的v-prediction),最小化MSE
  • 论文给出两个选择x-prediction的理由:
  • 高维表示(768维+)上更稳定
  • 天然和最后一步"预测干净token"的目标对齐
  • v-prediction与denoising/decoding之间的权重共享不兼容

从连续embedding,再回到离散token

最后一步 t=1,把continuous embedding投回token空间。关键:decoder和前面的denoiser是同一个网络。 具体做法:

  • 最后一步额外加入一次token-level corruption,构造带扰动输入
  • 同一个网络输出clean embedding,再通过可学习的unembedding矩阵 W 投影成token logits
  • 训练目标是标准的token-level cross-entropy loss
  • 整个网络共享同一套参数,并额外接收一个二值mode token(去噪模式/解码模式)

Self-CFG

ELF把图像生成里最常用的CFG(classifier-free guidance)搬过来了:用self-conditioning作为条件信号,套上training-time CFG(一次forward模拟两次推理,没有inference开销)。

实验对比

指标 ELF 主流离散扩散模型
生成困惑度(OpenWebText) 24 需要1024步才接近
采样步数 32步 1024步
训练token 45B 500B+
在WMT14机器翻译和XSum文本摘要等条件生成任务上,ELF也稳定超过现有扩散语言模型,甚至压倒了部分自回归baseline。
论文总结:ELF在生成质量、采样效率和训练成本之间实现了很强的trade-off。连续派不是不能打,只是以前没把连续这件事做到底。

深度分析

1. 连续扩散路线的"到底"哲学:一次算不算连续

ELF最核心的洞察,是对"连续"定义的重新审视。此前Diffusion-LM虽然在embedding空间去噪,但每一步都计算token-level交叉熵,本质上是把连续轨迹强行绑定到离散词表——这相当于在高速公路上每隔100米设一个收费站。LD4LG和Cosmos虽然用了latent diffusion,但额外的decoder模块带来了新的推理开销和训练复杂度。ELF的答案是:既然选择了连续空间,就让连续到底,从噪声到干净embedding全程在768维连续空间里游走,只在最后一刻才做离散化。

2. x-prediction替代v-prediction:预测目标的选择影响权重共享

论文选择x-prediction而非传统扩散模型偏好的v-prediction,背后有三个紧密关联的理由。高维表示(768维以上)上x-prediction更稳定;其次,x-prediction的目标——预测干净embedding——天然和最后一步"投回token"的解码目标对齐;第三,v-prediction与denoising/decoding之间的权重共享不兼容。值得注意的是,decoder和denoiser是同一个网络(共享参数),这要求预测目标必须同时服务于两个阶段,x-prediction正好满足这一约束。

3. 推理时零额外模块的设计美学

ELF的encoder(T5)只在训练阶段使用,推理时不需要任何额外的重建模块。这是一个非常"何恺明风格"的设计选择——他此前在图像领域的工作(如MAE、Masked Autoencoders)也一贯强调用尽可能少的结构实现最大化的表示能力。训练和推理的不对称性(训练用encoder,推理只用diffusion U-Net)体现了一种实用的工程哲学:训练时可以借助强大的预训练模型获得高质量的embedding,但推理时的复杂度必须严格控制。

4. Self-CFG:无推理开销的条件生成机制

Classifier-Free Guidance在图像生成中早已是标准配置,但ELF创造性地用self-conditioning作为条件信号,并配合training-time CFG实现了一次前向传播模拟两次推理的效果。这意味着条件生成(conditioned generation)相比无条件生成没有任何额外的推理成本——这对需要大规模部署的生产系统有直接的工程价值。恺明团队把图像领域的成熟技术迁移到文本,并针对文本生成的特性做了适配。

5. 参数量与训练效率的反直觉Scaling

105M参数+45B tokens对比其他扩散语言模型需要的500B+ tokens,这个比例关系暗示连续扩散路线可能在数据效率上有本质优势。如果这一结论在更大规模下仍然成立,可能会动摇"大力出奇迹"的 scaling 公理——至少对于扩散范式来说,更好的连续表示可能比更多的离散token更有效。

实践启示

1. 连续 embedding 扩散项目的架构选型

如果你的团队在探索 diffusion language model 新架构,ELF的"全程连续+最后离散"设计提供了一个清晰的架构参考:embedding编码阶段可用预训练LM(BERT/T5/CLIP),去噪阶段用标准U-Net/Transformer处理连续向量,decoding阶段通过共享参数的unembedding矩阵投影到token logits。避免在去噪过程中插入任何token-level的操作。

2. 高维表示预测目标优先选择 x-prediction

当模型需要在denoising和decoding阶段共享权重时,x-prediction(直接预测干净embedding)比v-prediction更合适。建议在768维以上的embedding维度上默认使用x-prediction,配合MSE损失函数。

3. 训练-推理不对称的实用主义设计

ELF的encoder只用于训练、推理时完全不用,这启示我们:训练阶段可以引入强大的辅助模型(类似知识蒸馏),但推理系统必须独立精简。在设计类似pipeline时,问自己一个问题:推理时能砍掉这个模块吗?如果不能,说明设计还不够彻底。

4. 用 Self-CFG 降低条件生成推理成本

在需要条件生成的文本任务(翻译、摘要、风格迁移)中,优先考虑ELF的self-conditioning + training-time CFG方案:用一次前向传播模拟两次推理的CFG效果,零额外推理开销。这比推理时多次采样平均的方案效率高得多。

5. 扩散语言模型的评测指标:优先看生成困惑度而非标准困惑度

传统语言模型用perplexity评估,但ELF展示的是"生成困惑度"(Generative Perplexity)——用强模型评估生成文本的质量。在做diffusion LM研究时,这个指标比直接借用AR LM的标准困惑度更能反映扩散模型的实际生成质量,建议作为主要评估维度。

参考

  • 论文:https://arxiv.org/pdf/2605.10938
  • 恺明团队半年前的工作:《Back to Basics: Let Denoising Generative Models Denoise》

相关实体

原文存档

相关实体

  • 何恺明ELF论文版 — 论文版本的完整技术细节
  • AI模型效率曲线 — 小模型高效化的宏观趋势