提速4.48倍！哈工大华为新框架让扩散大模型精度无损、推理起飞¶

Ch01.199 提速4.48倍！哈工大华为新框架让扩散大模型精度无损、推理起飞¶

📊 Level ⭐⭐ | 18.3KB | entities/提速448倍哈工大华为新框架让扩散大模型精度无损推理起飞.md

提速4.48倍！哈工大华为新框架让扩散大模型精度无损、推理起飞¶

Dynamic-dLLM团队投稿¶

量子位 | 公众号 QbitAI 文本生成这件事，扩散大语言模型 _ （dLLMs） _ 正展现出巨大的潜力。但与此同时，它也面临着严重的计算瓶颈—— 为此，哈工大（深圳）与华为、深圳河套学院的研究团队提出了一套免训练加速框架 ** Dynamic-dLLM ** 。不同于主流的dLLM加速方案 _ （如dLLM-Cache、Fast-dLLM等） _ ，它们主要依赖静态缓存或固定阈值的并行解码策略，该框架则巧妙结合了动态缓存预算分配 _ （DCU） _ 与自适应并行解码 _ （APD） _ ，能够实现 ** 良好的性能保持 ** 以及 ** 显著的加速比 ** 。在多个代表性扩散大语言模型和主流权威基准上，Dynamic-dLLM均达成了SOTA。尤其是在LLaDA-8B-Instruct模型的GSM8k任务上，Dynamic-dLLM实现了 ** 4.48倍 ** 的吞吐量加速 _ （从8.32 TPS提升至37.29 TPS） _ ，在几乎无损精度的前提下，实现了跨任务平均 ** 3倍以上 ** 的加速。以下是更多详细内容。

研究背景¶

现有dLLMs加速框架尝试复用前一步骤的中间特征 _ （如Query、Key、Value） _ ，假设相邻步骤的特征相似度很高。然而，这种静态加速策略面临两大困境： ** 1、层级缓存更新需求差异巨大： ** 在实际解码中，浅层特征变化平缓，深层特征变化剧烈，需要更新缓存的Token比例随层数增加而单调上升。统一的缓存更新策略造成了极大的算力浪费。 ** 2、固定阈值并行解码阻碍了效率： ** 并行解码会在Token置信度超过设定阈值时将其固定 _ （Unmask） _ 。但处于早期步骤时，最高置信度的Token往往不是最终输出，固定阈值会导致“过早承诺”带来错误累积；而对于那些分布极其集中的Token，又因为绝对置信度没达到阈值而白白浪费计算步骤。如上图所示，不同层和步骤的Token特征相似度及更新需求差异显著。其中图(e)展现了使用固定阈值导致潜在正确候选被错误丢弃的现象。 ** 这证明了动态对齐模型内在层级与步骤级动态特性的必要性。 **

结合DCU和APD，实现动态极致加速¶

DCU：动态缓存更新¶

针对Token特征在层级间的异质动态特性，DCU实现了自适应的缓存预算分配： ** 1、层级自适应预算分配： ** 无需重新计算高开销的Value向量，DCU直接利用归一化后的Token输入计算相邻步骤间的余弦距离，以此作为表征变化的度量。通过汇总Token级别的变化，DCU动态计算各层的活跃度，并将总更新预算按比例倾斜给变化最剧烈的层。 ** 2、强制更新窗口（破除陷入泥潭问题）： ** 如果一个Token被分配到较低优先级未更新，其特征将保持静止，导致后续层测算时其变化度为0，从而引发Token跨层“卡死 _ （Stuck in the mud） _ ”。为此，基于局部性原理，DCU引入了固定大小的 ** 强制更新窗口 ** _ （Mandatory Update Window） _ ，确保关键Token及其周围的局部区域强制进行缓存更新，从而保障关键上下文响应局部变化。

APD：自适应并行解码¶

针对Token置信度随解码步波动的特点，APD引入了动态阈值校准机制，为每个Token定制独立的解掩码阈值： ** 1、基于置信度集中的阈值自适应： ** 通过计算Token预测分布最高概率与次高概率的差距 _ （集中度） _ ，对于分布高度集中 _ （极有可能不再改变） _ 的Token降低其阈值使其尽早固定；对分布分散的Token提高阈值防止错判。 ** 2、融合时序不稳定性： ** 结合相邻步骤间概率分布的余弦距离，量化该Token历史预测的动荡程度。如果预测极其不稳定，则施加更严格的阈值惩罚，防止过早解码。

实验结果¶

Dynamic-dLLM在3个主流扩散大语言模型以及5个具有挑战性的数据集上进行了全面评估。可以看出：

加速与性能保持如表 1、2、3 所示，无论 LLaDA-8B-Instruct还是Dream-v0-7B-Instruct，Dynamic-dLLM _ （及搭配并行解码的Dynamic-dLLM _ 版本）*均领先dLLM-Cache、dKV-Cache和Fast-dLLM方案。在保持甚至微升准确率的情况下，平均TPS提升均达到2.5x~3.2x。
跨模型泛化性在LLaDA-1.5上，GSM8k任务的加速比达到了4.46x _ （37.02 TPS vs 8.30 TPS） _ ，Dream模型的加速比同样达到3.91x，证明了该方法对于架构差异的泛化能力。另外，消融实验也展示了关键超参数对精度与吞吐量的权衡影响，同时证明了 ** 动态阈值 ** 相比于 ** 固定阈值 ** 能在不掉点的情况下进一步减少约30%的推理步骤。总的来讲，研究者敏锐地发现了非自回归生成的dLLM在推理时，特征更新与置信度随“层”和“步”存在剧烈的动态变化，而现有加速框架对此视而不见，导致了性能损耗与冗余计算。而本论文的贡献可归纳为： ** 1、揭示现有规则加速的局限性 ** ：发现了dLLMs层级与解码步间的动态变化规律会削弱静态缓存框架的有效性。 ** 2、提出无训练加速框架 Dynamic-dLLM ** ：巧妙结合动态缓存更新 _ （DCU） _ 和自适应并行解码 _ （APD） _ ，解决层级算力分配与动态置信度误判问题。 ** 3、即插即用的卓越性能 ** ：在主流开源扩散模型与多维基准测试上实现了一致的SOTA性能，在保持模型精度的同时，达成平均超过3倍的推理加速，为dLLMs的低延迟实际部署扫清了障碍。 _ 论文链接：https://openreview.net/forum?id=SdnkB5pGbq _ _ 代码链接：https://github.com/TianyiWu233/DYNAMIC-DLLM _ ** 一键三连 ** ** 「点赞」「转发」「小心心」 ** ** 欢迎在评论区留下你的想法！ ** — ** 完 ** —

深度分析¶

1. 层间特征异质性是 dLLM 推理的核心矛盾 现有加速框架默认相邻步骤间特征相似度高，因此可以复用缓存。但 Dynamic-dLLM 揭示了一个根本性误区：浅层（Bottom layers）特征变化平缓，深层（Top layers）特征变化剧烈，需要更新缓存的 Token 比例随层数增加而单调上升。这种层级间的非均匀动态特性，使得统一更新策略必然导致算力浪费或精度损失。 2. "陷入泥潭"（Stuck in the mud）问题——低优先级 Token 的级联失效 DCU 发现了一个此前未被命名的失效模式：当某个 Token 因优先级低而未被更新时，其特征保持静止，导致后续层测算时其变化度为 0，从而进一步降低其优先级，形成跨层"卡死"。这一问题揭示了纯优先级驱动缓存更新的根本缺陷——低置信度 Token 会形成自增强的冷启动障碍。强制更新窗口（Mandatory Update Window）的引入，正是针对这一问题的局部性原理修复。 3. Value 向量复用的计算洞察——方向感知的代价替代 DCU 没有选择重新计算高开销的 Value 向量，而是利用归一化后的 Token 输入计算相邻步骤间的余弦距离。这一设计背后的洞察是：缓存更新的本质是追踪"变化方向"而非"变化幅度"，余弦距离恰好捕获了方向变化，且计算代价远低于 Value 重算。这是一种以信息论为指导的工程取舍。 4. APD 双信号正交性——置信度集中度与时序不稳定性的互补 APD 同时引入了两个正交信号：置信度集中度（Token 预测分布的最高概率与次高概率之差）和时序不稳定性（相邻步骤间概率分布的余弦距离）。前者捕捉"当前步的输出确定性"，后者捕捉"历史步的预测震荡程度"。两者的融合使动态阈值能够同时应对"过早承诺"（分布集中但早期预测不稳定）和"白白浪费"（分布分散但已趋于收敛）两类问题。 5. 无训练加速的普适性意义——即插即用的工程价值 Dynamic-dLLM 是在不修改模型权重、不需要额外训练的情况下达成 3 倍以上加速的。这一特性使其可以直接集成到现有推理框架中，无需针对特定模型重新微调或蒸馏。论文在 LLaDA-8B-Instruct、LLaDA-1.5、Dream-v0-7B-Instruct 三个架构上的泛化性验证，证明了 DCU+APD 组合框架对不同扩散语言模型架构的适应性。

实践启示¶

1. 部署 dLLM 前先做层间特征变化分析 在将扩散大语言模型投入生产环境前，建议用代表性数据集对各层的 Token 特征变化率进行量化分析。变化率曲线能指导缓存预算的初始分配比例——那些层间变化方差大的模型（如 Deep dLLMs）从 DCU 类方案中获益最多。盲目套用静态缓存策略会导致深层精度显著下降。 2. 优先级队列需要配备显式刷新机制 如果你的推理系统使用了基于置信度的 Token 优先级调度，务必加入类似强制更新窗口的保护逻辑。每隔 N 步或当检测到 Token 变化率持续低于阈值时，强制提升该 Token 的更新优先级，防止"陷入泥潭"效应在长序列生成中累积。可通过监控 Token 在连续 K 层的变化率方差来自动触发刷新。 3. 动态阈值设计应解耦"即时置信度"与"历史稳定性" 在实现并行解码策略时，不要仅依据当前步的最高 Token 概率设定解掩码阈值，而应同时引入时序稳定性惩罚项。具体实现：对每个 Token 维护一个长度为 M 的历史概率分布窗口，计算当前置信度集中度与窗口内余弦距离的加权组合作为最终评分。这样可以有效避免早期步的"过早承诺"导致的错误级联。 4. 优先在 GSM8K 类推理任务上验证加速框架 论文中 4.48 倍加速的效果出现在 GSM8k 任务上，这是一个多步骤推理场景。扩散模型在推理任务中的 Token 生成具有明显的阶段性特征——早期发散、后期收敛——这恰好契合 APD 的双信号设计。如果你主要应用场景是代码生成、数学推理或规划类任务，Dynamic-dLLM 类方案的效果会更显著；如果是短回复闲聊场景，收益会相对有限。 5. 结合量化压缩进一步放大加速收益 Dynamic-dLLM 的加速来源于减少冗余计算，而非降低计算精度。将其与 INT4/INT8 量化推理框架结合，理论上可以将两个维度的加速效果叠加。建议采用混合精度策略：对 DCU 判断为"低变化率"的层保持低精度量化，对"高变化率"的深层保留 FP16 或更高精度，以在吞吐量和精度之间取得更细粒度的平衡。

关联阅读¶

我们正在招聘一名眼疾手快、关注AI的 ** 学术编辑实习生 ** 🎓 感兴趣的小伙伴欢迎关注 👉 了解详情

**** 🌟 点亮星标 🌟 ** ** ** 科技前沿进展每

提速4.48倍！哈工大华为新框架让扩散大模型精度无损、推理起飞¶

Ch01.199 提速4.48倍！哈工大华为新框架让扩散大模型精度无损、推理起飞¶

提速4.48倍！哈工大华为新框架让扩散大模型精度无损、推理起飞¶

Dynamic-dLLM团队 投稿¶

研究背景¶

结合DCU和APD，实现动态极致加速¶

DCU：动态缓存更新¶

APD：自适应并行解码¶

实验结果¶

深度分析¶

实践启示¶

关联阅读¶

相关实体¶

Dynamic-dLLM团队投稿¶