Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention¶
Ch01.405 Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention¶
📊 Level ⭐⭐ | 8.8KB |
entities/recent-developments-in-llm-architectures-kv-sharing-mhc-and-compressed-attention.md
核心主题¶
2026年4-5月推出的主要开源权重模型(Gemma 4、Laguna XS.2、ZAYA1-8B、DeepSeek V4)共同指向一个核心趋势:长上下文效率优化。随着推理模型和 Agent 工作流需要保留更多 token,KV-cache 大小、内存带宽和注意力计算成本成为主要瓶颈,各大厂商纷纷引入架构层面的 trick 来降低这些成本。
主要模型架构分析¶
Gemma 4:KV Sharing + PLE¶
Gemma 4 E2B/E4B 引入两项效率优化: Cross-Layer KV Sharing(跨层 KV 共享):后续层复用前面层的 key-value 状态,而非每层独立计算 K/V 投影。E2B 共35层,前15层独立计算 KV,后20层复用;E4B 共42层,前24层独立计算,后18层共享。该设计可将 128K 上下文下的 KV cache 内存减少约一半(E2B 节省 2.7GB,E4B 节省 6GB)。代价是模型容量略有降低,但对小模型影响较小。 Per-Layer Embeddings(PLE,每层嵌入):Gemma 4 E2B 标称 2.3B 有效参数,实际含嵌入层共 5.1B;E4B 标称 4.5B,实际含嵌入层共 8B。PLE 在注意力/FFN 主路径之后增加一层专属的 token 向量,通过门控机制添加到残差路径中,以低成本增加表征容量,而不扩大整个 transformer 堆栈的参数量。
Laguna XS.2:Layer-wise Attention Budgeting¶
Poolside 推出的 Laguna XS.2 共40层,其中30层为滑动窗口注意力(512 tokens window)、10层为全局注意力。核心创新在于每层差异化 Query Head 数量:滑动窗口层每 KV head 配 8 个 Q head,全局层每 KV head 配 6 个 Q head(KV head 固定为8个)。全局注意力成本更高(需看到完整上下文),因此分配更少的 Query Head 以节省计算。
ZAYA1-8B:Compressed Convolutional Attention (CCA)¶
ZAYA1-8B 采用 CCA + 4:1 GQA 布局。与 MLA(压缩 K/V 表示但每 token 保留一条 latent entry)不同,CCA 直接在压缩后的 latent 空间执行注意力计算,同时在压缩后的 Q、K 上应用卷积混合(convolution mixing),为压缩后的向量注入局部上下文信息。优势在于不仅减少 KV cache,还减少 prefill 和训练阶段的注意力 FLOPs。实验表明 CCA 在相同压缩比下性能优于 MLA。
DeepSeek V4:mHC + CSA/HCA¶
DeepSeek V4 引入两大架构变化: mHC(Manifold-Constrained Hyper-Connections):基于 Hyper-Connections(将单一残差流扩展为多条并行残差流 + 线性映射),mHC 对残差映射施加流行约束——投影到双随机矩阵空间(非负、行列和为1),使信息跨流重分布更加稳定。4路残差流(n=4)仅增加 6.7% 训练时间开销。mHC 改善了残差路径的信息流动效率,与注意力侧的 CSA/HCA 形成互补。 CSA/HCA(Compressed Sparse Attention / Heavily Compressed Attention):与 MLA(压缩每 token 的 KV 表示但保留每 token 一条 entry)不同,CSA/HCA 在序列维度上压缩。CSA 以 m=4 的压缩率 + DSA 风格 top-k 选择;HCA 以 m'=128 的重度压缩,然后对高度压缩后的 entries 执行密集注意力。两者均保留最近128 tokens 的滑动窗口分支。DeepSeek V4-Flash 在 1M token 上下文下仅需 DeepSeek V3.2 的 10% FLOPs 和 7% KV cache。
深度分析¶
长上下文效率:架构演进的主轴¶
2026年春季的这批开源模型释放了一个明确信号:LLM 架构设计进入"效率优先"阶段。GQA(Grouped Query Attention)作为经典方案已被普遍采用,而新一代方案则从不同维度进一步压缩: | 优化维度 | 技术方案 | 代表模型 | |---------|---------|---------| | KV cache 跨层共享 | Cross-Layer Attention | Gemma 4 | | 参数量感知的 Embedding 扩展 | PLE | Gemma 4 | | 每层注意力预算差异化 | Layer-wise Q Head Budgeting | Laguna XS.2 | | 注意力计算压缩 | CCA(Latent Space Attention) | ZAYA1-8B | | 序列维度压缩 | CSA/HCA | DeepSeek V4 |
压缩范式的本质区别¶
两代压缩技术有本质差异:
- MLA 系列:压缩的是每条 entry 的表示维度(per-token latent representation),KV cache 长度不变、宽度收窄
- CSA/HCA 系列:压缩的是序列长度本身,多个 token 被合并为一个压缩 entry DeepSeek V4 的 CSA/HCA 代价更高(丢失 token 级细节),但通过 CSA(轻压缩+稀疏选择)和 HCA(重压缩+密集注意力)的交替使用,在效率和建模质量间取得平衡。 See also Context Window Management
mHC 的意义:从"注意力改造"到"残差流改造"¶
大多数架构改进聚焦于注意力机制(MQA→GQA→MLA→DSA→CCA)或 MoE 路由,而 mHC 首次在生产级大模型中验证了"残差路径宽化"的价值。传统观点认为残差连接已足够高效,但 mHC 证明通过多条并行残差流 + 约束性映射,可以在几乎不增加 FLOPs 的前提下提升信息流动性。这与 CSA/HCA 在注意力侧的优化形成正交互补。
复杂度 vs 效率的权衡¶
这些优化显著增加了实现复杂度。基本 transformer block 可用约50-100行 PyTorch 实现,而当前这些注意力变体的组合实现可能10倍于此。但这是有意义的复杂——每个优化都在降低运行时成本,而非增加功能。架构演进的方向是让相同的定稿模型在推理时消耗更少资源,同时保持建模质量。
实践启示¶
对模型选择的影响¶
当需要超长上下文(>128K)应用时,DeepSeek V4 的 CSA/HCA 架构提供了最激进的效率收益(1M token 下 FLOPs 降至10%)。但需要注意,这是以更复杂的实现和潜在的 token 级细节丢失为代价的。对于中等上下文长度(32K-128K),Gemma 4 的 KV 共享方案在实现复杂度与效率收益间有更好的平衡。
对 Agent 系统设计的启发¶
Agent 工作流通常需要长时间记忆和上下文窗口。架构层面的 KV cache 优化直接降低了长程推理的成本。这意味着:
- 未来 Agent 系统可以更激进地保留更多对话历史
- 滑动窗口 + 全局注意力分层设计(如 Laguna XS.2)适合"近期上下文高分辨率、远期上下文低分辨率"的 Agent 记忆模式
对自研模型的建议¶
- 小模型(<10B):优先考虑 KV 共享和 PLE,可在小参数预算下获得更高有效容量
- 长上下文场景:关注 CSA/HCA 或类似序列压缩方案,但要预留足够测试验证压缩率对任务的影响
- 资源受限部署:ZAYA1-8B 的 CCA 方案值得关注,它同时压缩了计算和缓存
警惕点¶
这些架构优化大多有隐含代价:KV 共享降低模型容量、CSA/HCA 丢失 token 级精度、mHC 增加实现复杂度。在生产环境中引入前,建议:
- 评估压缩导致的精度损失是否在业务可接受范围
- 确认硬件和框架对这些注意力变体的支持程度
- 预留足够的基准测试和 A/B 对比实验
[!contradiction] 相关矛盾 - MLA、DSA、GQA 等注意力变体的详细解释可参考各模型官方技术报告