跳转至

DiffusionGemma:扩散式文本生成模型(Google 26B MoE,4× 推理加速)

Ch01.688 DiffusionGemma:扩散式文本生成模型(Google 26B MoE,4× 推理加速)

📊 Level ⭐⭐ | 4.3KB | entities/diffusiongemma-4x-faster-text-generation-google-2026-06.md

DiffusionGemma:扩散式文本生成模型(Google 26B MoE,4× 推理加速)

原文存档:原文存档

概述

Google 2026-06-10 发布的实验性开放模型,Apache 2.0 协议,基于 Gemma 4 系列,集成 Gemini Diffusion 研究成果。采用 26B MoE(激活 3.8B)+ 扩散头(diffusion head)设计,从传统自回归 LLM 的逐 token 生成范式转为整段文本并行生成。在 H100 上达到 1000+ tokens/s,RTX 5090 上 700+ tokens/s,是标准 Gemma 4 的 4× 速度。

核心创新:将推理瓶颈从 memory-bandwidth bound 转为 compute bound。每次前向并行生成 256 个 token,所有 token 通过双向注意力(bi-directional attention)相互 attend。

关键架构特性

  • 26B MoE 总参 / 3.8B 激活:高稀疏度 MoE 设计,量化后 18GB VRAM 可装入消费级 GPU
  • 并行生成 256 tokens:每个前向传播生成整段文本块
  • 双向注意力:所有 token 相互 attend,特别适合非线性的内联编辑、代码填充、氨基酸序列、数学图等任务
  • 智能自校正:模型迭代精炼自身输出,整段评估并实时修正
  • 扩散头(diffusion head):在 Gemma 4 主体之上叠加的扩散模块,最大化生成速度

适用场景 vs 局限

场景 适合度
内联编辑(in-line editing) ★★★★★ 双向注意力天然支持
代码 infilling ★★★★★ Sudoku 类任务实测可用
快速原型迭代 ★★★★
数学图/氨基酸序列等非线性结构 ★★★★★
长文本高质量生产输出 ★★ 输出质量低于 Gemma 4 标准版

官方建议:速度优先、交互性优先的工作流用 DiffusionGemma;最大质量需求用标准 Gemma 4。

与传统自回归 LLM 的核心权衡

  • 云端批处理:自回归更高效(可批处理上千请求共享硬件)
  • 本地单用户推理:扩散模型更高效(GPU/TPU 利用率从"打字机"提升到"印刷机")

这是推理部署场景的根本性架构选择 — 不是简单的"快/慢"对比,而是不同 workload profile 的最优解。

性能指标

  • H100: 1000+ tokens/s
  • RTX 5090: 700+ tokens/s
  • VRAM 需求: 18GB(量化后)
  • 速度 vs Gemma 4: 4× 快

三个独有贡献(不应合并到现有 entity)

  1. 内存-计算瓶颈反转范式 — 首次在 26B 规模上将 text diffusion 从研究原型推到可用产品状态
  2. Sudoku 等非线性任务验证 — Unsloth 微调的 Sudoku 案例证明自回归的"未来依赖"问题在双向注意力下被天然解决
  3. MoE + 扩散头组合 — 26B 总参 / 3.8B 激活的稀疏 MoE + 扩散头是新颖的架构组合

相关主题

  • Gemini Diffusion (DeepMind 基础研究, pending entity)
  • Gemma 4 系列(待建)
  • MoE 架构 (pending concept)(待建)