提速4.48倍!哈工大华为新框架让扩散大模型精度无损、推理起飞¶
Ch01.199 提速4.48倍!哈工大华为新框架让扩散大模型精度无损、推理起飞¶
📊 Level ⭐⭐ | 18.3KB |
entities/提速448倍哈工大华为新框架让扩散大模型精度无损推理起飞.md
提速4.48倍!哈工大华为新框架让扩散大模型精度无损、推理起飞¶
Dynamic-dLLM团队 投稿¶
量子位 | 公众号 QbitAI 文本生成这件事,扩散大语言模型 _ (dLLMs) _ 正展现出巨大的潜力。 但与此同时,它也面临着严重的计算瓶颈—— 为此,哈工大(深圳)与华为、深圳河套学院的研究团队提出了一套免训练加速框架 ** Dynamic-dLLM ** 。 不同于主流的dLLM加速方案 _ (如dLLM-Cache、Fast-dLLM等) _ ,它们主要依赖静态缓存或固定阈值的并行解码策略,该框架则巧妙结合了动态缓存预算分配 _ (DCU) _ 与自适应并行解码 _ (APD) _ ,能够实现 ** 良好的性能保持 ** 以及 ** 显著的加速比 ** 。 在多个代表性扩散大语言模型和主流权威基准上,Dynamic-dLLM均达成了SOTA。 尤其是在LLaDA-8B-Instruct模型的GSM8k任务上,Dynamic-dLLM实现了 ** 4.48倍 ** 的吞吐量加速 _ (从8.32 TPS提升至37.29 TPS) _ ,在几乎无损精度的前提下,实现了跨任务平均 ** 3倍以上 ** 的加速。 以下是更多详细内容。
研究背景¶
现有dLLMs加速框架尝试复用前一步骤的中间特征 _ (如Query、Key、Value) _ ,假设相邻步骤的特征相似度很高。然而,这种静态加速策略面临两大困境: ** 1、层级缓存更新需求差异巨大: ** 在实际解码中,浅层特征变化平缓,深层特征变化剧烈,需要更新缓存的Token比例随层数增加而单调上升。统一的缓存更新策略造成了极大的算力浪费。 ** 2、固定阈值并行解码阻碍了效率: ** 并行解码会在Token置信度超过设定阈值时将其固定 _ (Unmask) _ 。 但处于早期步骤时,最高置信度的Token往往不是最终输出,固定阈值会导致“过早承诺”带来错误累积;而对于那些分布极其集中的Token,又因为绝对置信度没达到阈值而白白浪费计算步骤。 如上图所示,不同层和步骤的Token特征相似度及更新需求差异显著。其中图(e)展现了使用固定阈值导致潜在正确候选被错误丢弃的现象。 ** 这证明了动态对齐模型内在层级与步骤级动态特性的必要性。 **
结合DCU和APD,实现动态极致加速¶
DCU:动态缓存更新¶
针对Token特征在层级间的异质动态特性,DCU实现了自适应的缓存预算分配: ** 1、层级自适应预算分配: ** 无需重新计算高开销的Value向量,DCU直接利用归一化后的Token输入计算相邻步骤间的余弦距离,以此作为表征变化的度量。 通过汇总Token级别的变化,DCU动态计算各层的活跃度,并将总更新预算按比例倾斜给变化最剧烈的层。 ** 2、强制更新窗口 (破除陷入泥潭问题) : ** 如果一个Token被分配到较低优先级未更新,其特征将保持静止,导致后续层测算时其变化度为0,从而引发Token跨层“卡死 _ (Stuck in the mud) _ ”。 为此,基于局部性原理,DCU引入了固定大小的 ** 强制更新窗口 ** _ (Mandatory Update Window) _ ,确保关键Token及其周围的局部区域强制进行缓存更新,从而保障关键上下文响应局部变化。
APD:自适应并行解码¶
针对Token置信度随解码步波动的特点,APD引入了动态阈值校准机制,为每个Token定制独立的解掩码阈值: ** 1、基于置信度集中的阈值自适应: ** 通过计算Token预测分布最高概率与次高概率的差距 _ (集中度) _ ,对于分布高度集中 _ (极有可能不再改变) _ 的Token降低其阈值使其尽早固定;对分布分散的Token提高阈值防止错判。 ** 2、融合时序不稳定性: ** 结合相邻步骤间概率分布的余弦距离,量化该Token历史预测的动荡程度。如果预测极其不稳定,则施加更严格的阈值惩罚,防止过早解码。
实验结果¶
Dynamic-dLLM在3个主流扩散大语言模型以及5个具有挑战性的数据集上进行了全面评估。 可以看出:
-
加速与性能保持 如表 1、2、3 所示,无论 LLaDA-8B-Instruct还是Dream-v0-7B-Instruct,Dynamic-dLLM _ (及搭配并行解码的Dynamic-dLLM _ 版本)*均领先dLLM-Cache、dKV-Cache和Fast-dLLM方案。 在保持甚至微升准确率的情况下,平均TPS提升均达到2.5x~3.2x。
-
跨模型泛化性 在LLaDA-1.5上,GSM8k任务的加速比达到了4.46x _ (37.02 TPS vs 8.30 TPS) _ ,Dream模型的加速比同样达到3.91x,证明了该方法对于架构差异的泛化能力。 另外,消融实验也展示了关键超参数对精度与吞吐量的权衡影响,同时证明了 ** 动态阈值 ** 相比于 ** 固定阈值 ** 能在不掉点的情况下进一步减少约30%的推理步骤。 总的来讲,研究者敏锐地发现了非自回归生成的dLLM在推理时,特征更新与置信度随“层”和“步”存在剧烈的动态变化,而现有加速框架对此视而不见,导致了性能损耗与冗余计算。 而本论文的贡献可归纳为: ** 1、揭示现有规则加速的局限性 ** :发现了dLLMs层级与解码步间的动态变化规律会削弱静态缓存框架的有效性。 ** 2、提出无训练加速框架 Dynamic-dLLM ** :巧妙结合动态缓存更新 _ (DCU) _ 和自适应并行解码 _ (APD) _ ,解决层级算力分配与动态置信度误判问题。 ** 3、即插即用的卓越性能 ** :在主流开源扩散模型与多维基准测试上实现了一致的SOTA性能,在保持模型精度的同时,达成平均超过3倍的推理加速,为dLLMs的低延迟实际部署扫清了障碍。 _ 论文链接:https://openreview.net/forum?id=SdnkB5pGbq _ _ 代码链接:https://github.com/TianyiWu233/DYNAMIC-DLLM _ ** 一键三连 ** ** 「点赞」「转发」「小心心」 ** ** 欢迎在评论区留下你的想法! ** — ** 完 ** —
深度分析¶
1. 层间特征异质性是 dLLM 推理的核心矛盾 现有加速框架默认相邻步骤间特征相似度高,因此可以复用缓存。但 Dynamic-dLLM 揭示了一个根本性误区:浅层(Bottom layers)特征变化平缓,深层(Top layers)特征变化剧烈,需要更新缓存的 Token 比例随层数增加而单调上升。这种层级间的非均匀动态特性,使得统一更新策略必然导致算力浪费或精度损失。 2. "陷入泥潭"(Stuck in the mud)问题——低优先级 Token 的级联失效 DCU 发现了一个此前未被命名的失效模式:当某个 Token 因优先级低而未被更新时,其特征保持静止,导致后续层测算时其变化度为 0,从而进一步降低其优先级,形成跨层"卡死"。这一问题揭示了纯优先级驱动缓存更新的根本缺陷——低置信度 Token 会形成自增强的冷启动障碍。强制更新窗口(Mandatory Update Window)的引入,正是针对这一问题的局部性原理修复。 3. Value 向量复用的计算洞察——方向感知的代价替代 DCU 没有选择重新计算高开销的 Value 向量,而是利用归一化后的 Token 输入计算相邻步骤间的余弦距离。这一设计背后的洞察是:缓存更新的本质是追踪"变化方向"而非"变化幅度",余弦距离恰好捕获了方向变化,且计算代价远低于 Value 重算。这是一种以信息论为指导的工程取舍。 4. APD 双信号正交性——置信度集中度与时序不稳定性的互补 APD 同时引入了两个正交信号:置信度集中度(Token 预测分布的最高概率与次高概率之差)和时序不稳定性(相邻步骤间概率分布的余弦距离)。前者捕捉"当前步的输出确定性",后者捕捉"历史步的预测震荡程度"。两者的融合使动态阈值能够同时应对"过早承诺"(分布集中但早期预测不稳定)和"白白浪费"(分布分散但已趋于收敛)两类问题。 5. 无训练加速的普适性意义——即插即用的工程价值 Dynamic-dLLM 是在不修改模型权重、不需要额外训练的情况下达成 3 倍以上加速的。这一特性使其可以直接集成到现有推理框架中,无需针对特定模型重新微调或蒸馏。论文在 LLaDA-8B-Instruct、LLaDA-1.5、Dream-v0-7B-Instruct 三个架构上的泛化性验证,证明了 DCU+APD 组合框架对不同扩散语言模型架构的适应性。
实践启示¶
1. 部署 dLLM 前先做层间特征变化分析 在将扩散大语言模型投入生产环境前,建议用代表性数据集对各层的 Token 特征变化率进行量化分析。变化率曲线能指导缓存预算的初始分配比例——那些层间变化方差大的模型(如 Deep dLLMs)从 DCU 类方案中获益最多。盲目套用静态缓存策略会导致深层精度显著下降。 2. 优先级队列需要配备显式刷新机制 如果你的推理系统使用了基于置信度的 Token 优先级调度,务必加入类似强制更新窗口的保护逻辑。每隔 N 步或当检测到 Token 变化率持续低于阈值时,强制提升该 Token 的更新优先级,防止"陷入泥潭"效应在长序列生成中累积。可通过监控 Token 在连续 K 层的变化率方差来自动触发刷新。 3. 动态阈值设计应解耦"即时置信度"与"历史稳定性" 在实现并行解码策略时,不要仅依据当前步的最高 Token 概率设定解掩码阈值,而应同时引入时序稳定性惩罚项。具体实现:对每个 Token 维护一个长度为 M 的历史概率分布窗口,计算当前置信度集中度与窗口内余弦距离的加权组合作为最终评分。这样可以有效避免早期步的"过早承诺"导致的错误级联。 4. 优先在 GSM8K 类推理任务上验证加速框架 论文中 4.48 倍加速的效果出现在 GSM8k 任务上,这是一个多步骤推理场景。扩散模型在推理任务中的 Token 生成具有明显的阶段性特征——早期发散、后期收敛——这恰好契合 APD 的双信号设计。如果你主要应用场景是代码生成、数学推理或规划类任务,Dynamic-dLLM 类方案的效果会更显著;如果是短回复闲聊场景,收益会相对有限。 5. 结合量化压缩进一步放大加速收益 Dynamic-dLLM 的加速来源于减少冗余计算,而非降低计算精度。将其与 INT4/INT8 量化推理框架结合,理论上可以将两个维度的加速效果叠加。建议采用混合精度策略:对 DCU 判断为"低变化率"的层保持低精度量化,对"高变化率"的深层保留 FP16 或更高精度,以在吞吐量和精度之间取得更细粒度的平衡。
关联阅读¶
我们正在招聘一名眼疾手快、关注AI的 ** 学术编辑实习生 ** 🎓 感兴趣的小伙伴欢迎关注 👉 了解详情
**** 🌟 点亮星标 🌟 ** ** ** 科技前沿进展每
相关实体¶
- 读完这篇你就搞懂 Deepseek V4 了 V2
- Glm5 Scaling Pain Inference
- Cloudflare Glasswing Mythos Security
- Langgraph State Machine Under The Hood
- Continuous Async
- MOC