Cola DLM：字节跳动连续潜空间扩散语言模型¶

Ch01.307 Cola DLM：字节跳动连续潜空间扩散语言模型¶

📊 Level ⭐⭐ | 12.0KB | entities/cola-dlm-byte-dance-continuous-latent-diffusion-language-model.md

Cola DLM：字节跳动连续潜空间扩散语言模型¶

摘要¶

字节跳动 Seed 团队发布的 Cola DLM（Continuous Latent Diffusion Language Model） 是 2026 年 LLM 架构探索的标志性工作。其核心主张是「Token ≠ 语义，表征（Representation）才是主角」——把语言生成从"恢复 token"升级为"transport latent prior"。在 ~2B 参数、约 2000 EFLOPs 的严格对照实验中，Cola DLM 展现出比自回归模型和主流离散 DLM 更稳定的 scaling 趋势。项目以"开源到底"方式释出论文、代码、模型权重和中文博客。

核心要点¶

核心主张：Token 是语言系统的表层载体，不是语义本身；表征（representation）才是模型应学习的对象
架构核心：Latent Prior（生成"潜在语义"）+ Decoder（把语义翻译成文字）；diffusion / flow matching 全程在 latent 空间而非 token 空间
Text VAE：Encoder 把离散文本压缩成连续 latent，Decoder 把 latent 还原回文本；latent 是可连续变化、可被概率建模的随机变量
block-causal DiT + Flow Matching prior：从高斯分布出发，学习向量场将噪声"运输"为有意义语义；block 结构实现局部并行 + 整体因果
Encoder 在 diffusion 阶段冻结：防止语义空间被 prior 任务污染；加入 BERT-style mask loss 防止 latent 坍塌
三目标分解：重建能力、压缩能力、拟合能力可单独诊断，支持稳定 scaling
Scaling 验证：~2B 参数、约 2000 EFLOPs 对照实验，趋势比 AR 和离散 DLM 更稳定
与何恺明 ELF 对比：ELF 在原 embedding 空间反复琢磨，Cola DLM 分"语义部 + 文字部"两阶段；底层关切一致（连续路线）
战略意义：为文本到连续多模态世界（图像/视频/音频）架桥

深度分析¶

为什么"Token ≠ 语义"是一个暴论¶

字节团队直接抛出一个"暴论"：Token 是人类语言系统的表层载体，不是语义本身。这个论断的论证很简洁：

我今天很开心。今天我心情很好。今天过得挺愉快。 token 差了一大堆，但语义还是那一个。

传统自回归 LLM 把这些不同说法当成几套不同的表达分别去学——明明背后是同一个语义，模型偏偏要在 token 这个表层挨个对齐。如果模型内部存在一种更稳定、更抽象的"语义状态"，那这些本质相同、只是说法不同的句子，其实没必要被分别记忆，而是可以在内部收敛到相近的表示。

这个论断对 LLM 架构设计有深远影响：如果表征是更基本的对象，那 Token 就只是表征的"实现细节"——是 tokenizer 工程和历史演化的副产物。这从根本上动摇了"以 token 为中心"的整个 LLM 范式。

Cola DLM 的生成模型分两段¶

Cola DLM 的生成模型只有两部分：

Latent Prior：负责生成"潜在语义"——一个从随机噪声到有意义潜在表示的 transformation
Decoder：负责把这些语义翻译成具体文字——一个从 latent 到 token 序列的 deterministic mapping

整个 diffusion / flow matching 过程都发生在 latent 空间里，而不是 token 空间里。Cola DLM 干的不是把一堆"脏 token 慢慢去噪成干净 token"，而是先在连续语义空间里把一团随机语义组织成有意义的潜在表达，最后再统一翻译成文字。

这与很多"diffusion 化"的语言模型有本质区别。很多 DLM 本质上还是围绕 token 做"修修补补"（如恢复被 mask 的 token、逐步还原离散文本）。Cola DLM 直接把 diffusion 从"文字层"搬到了"语义层"——diffusion 不再负责"生成 token"，而是负责"组织语义"。

关键创新一：Text VAE——latent 不是 embedding 替代品¶

很多人第一反应是"不就是在 word embedding 上做扩散嘛"。但 Cola DLM 专门搭了一套 Text VAE：

Encoder：把离散文本压缩成连续 latent（相当于提取"语义指纹"）
Decoder：把 latent 再还原回文本

差别在于：token embedding 还是和 token 一一绑定的（每个 token 一个向量，本质上还是 token 序列），而 Cola DLM 的 latent 是一个可以连续变化、可被概率建模的随机变量。模型处理的对象不再是"下一个 token"，而是"整段文本对应的语义状态"。

关键创新二：block-causal DiT + Flow Matching¶

Cola DLM 用 block-causal DiT + Flow Matching 实现 latent prior：

从高斯分布出发：初始 latent 是随机噪声
学习向量场：模型学习一个向量场，将噪声"运输"为有意义语义
block 结构：实现"局部并行 + 整体因果"——同一个 block 内的位置可以并行解码，不同 block 之间保持因果顺序

这比"全并行"更适合长文本生成，又比"全自回归"快很多。block 大小是效率/质量权衡的关键超参数。

关键创新三：Encoder 冻结 + mask loss 防止 latent 坍塌¶

训练时 Encoder 在 diffusion 阶段冻结，防止语义空间被 prior 任务污染。同时加入 BERT-style mask loss 防止 latent 坍塌——避免所有 latent 退化成同一点。

这两个设计都是"训练稳定性"的工程细节，但正是这些细节让 Cola DLM 能在 ~2B 参数规模上稳定 scaling。

关键创新四：三目标分解¶

Cola DLM 把训练目标拆成三个可独立诊断的项：

重建能力：Decoder 能否从 latent 还原出原文本
压缩能力：Encoder 能否把文本压缩成有意义的低维 latent
拟合能力：Prior 能否从高斯分布采样出有意义的 latent

这种三目标分解让 ablation 实验特别清晰——每个环节的贡献可以被独立测量。Scaling 过程中哪一环先出问题，可以精准定位。

与何恺明 ELF 的对比¶

何恺明团队同期推出的 ELF（Embedding Language Model） 也走连续路线，105M 参数就跑赢主流扩散语言模型，首次证明连续路线的潜力。Cola DLM 进一步把这一路线推到 2B 规模，并解决了"如何把语义和文字分层"的架构问题。

ELF 的做法：跳过 token 层，把整个生成过程留在连续 embedding 空间里完成
Cola DLM 的做法：分"语义部"和"文字部"两阶段——latent prior 生成语义，Decoder 翻译成文字

两者的底层关切一致（连续路线），但 Cola DLM 的"分阶段"设计让"语义"和"文字"成为两个相对独立的模块，便于扩展到多模态。

Scaling 验证：~2B 参数、2000 EFLOPs 的对照¶

Cola DLM 报告的 scaling 实验设置是严格的对照实验——同样的参数规模、训练算力（~2000 EFLOPs）、数据集，对比自回归、离散 DLM、Cola DLM 三种范式。结果是 Cola DLM 展现出比 AR 和离散 DLM 更稳定的 scaling 趋势。

"稳定"是关键词——scaling 曲线的斜率不一定比 AR 大，但 variance 小、可预测。这对实际生产部署尤其重要：你需要能可靠预测"训练多少天能达到什么效果"。

战略意义：通往多模态的桥梁¶

Cola DLM 的"语义部 + 文字部"分层，在多模态语境下有天然优势：

图像 → 文本：把图像编码为 latent（用图像 VAE），共享 latent prior，就可以从图像 latent 生成文本描述
文本 → 图像：把文本编码为 latent，latent prior + 图像 Decoder，文本到图像
视频 / 音频：同理，只需替换 Encoder / Decoder 模块，latent prior 通用

如果这条路被验证，多模态 LLM 不再需要"模态对齐层"——所有模态先转成 latent，在 latent 空间统一处理，最后再 Decoder 回各模态。这是表征中心范式（representation-centric）相对于 token 中心范式的核心优势。

实践启示¶

关注扩散模型在语言任务上的进展：这是超越自回归模型的重要方向。Cola DLM 和 ELF 在 2026 年给出了连续路线的稳定 scaling 证据
表征学习是下一代 LLM 的关键：从"预测下一个 token"升级到"理解语义状态"，是 LLM 从"模仿者"走向"理解者"的关键步骤
多模态融合为表征学习提供新突破口：统一 latent 空间是通往多模态 LLM 的更优雅路径
关注各公司在大模型架构上的差异化布局：字节（Cola DLM）、何恺明（ELF）、OpenAI（AR + 工具）、Anthropic（Constitutional）等路线分化，不应只比较"谁参数更多"
开源到底的策略值得借鉴：论文 + 代码 + 权重 + 中文博客的完整释出，对建立研究社区影响力效果显著
Text VAE 的 Encoder 冻结是工程关键：保护语义空间不被 prior 训练污染，是稳定 scaling 的关键设计
三目标分解提供 ablation 模板：把生成模型拆成可独立诊断的子模块，是架构研究的通用方法

Cola DLM：字节跳动连续潜空间扩散语言模型¶

Ch01.307 Cola DLM：字节跳动连续潜空间扩散语言模型¶

Cola DLM：字节跳动连续潜空间扩散语言模型¶

摘要¶

核心要点¶

深度分析¶

为什么"Token ≠ 语义"是一个暴论¶

Cola DLM 的生成模型分两段¶

关键创新一：Text VAE——latent 不是 embedding 替代品¶

关键创新二：block-causal DiT + Flow Matching¶

关键创新三：Encoder 冻结 + mask loss 防止 latent 坍塌¶

关键创新四：三目标分解¶

与何恺明 ELF 的对比¶

Scaling 验证：~2B 参数、2000 EFLOPs 的对照¶

战略意义：通往多模态的桥梁¶

实践启示¶

相关实体¶