跳转至

Transformer 的拓扑麻烦:DeepMind 论证状态追踪是架构性缺陷,CoT 只是补丁

Ch01.577 Transformer 的拓扑麻烦:DeepMind 论证状态追踪是架构性缺陷,CoT 只是补丁

📊 Level ⭐⭐ | 6.1KB | entities/topological-trouble-transformers-state-tracking-deepmind-2026-06-17.md

Transformer 的拓扑麻烦:DeepMind 论证状态追踪是架构性缺陷,CoT 只是补丁

摘要

DeepMind 论文《The Topological Trouble With Transformers》(arXiv:2604.17121)论证:Transformer 架构本身不擅长追踪状态,思维链(CoT)不过是在给这个结构性缺陷打补丁。第一作者 Michael C. Mozer 是 1991 年就研究 RNN 梯度消失的资深研究者。论文用猜数字游戏和 bank 歧义测试展示了 Gemini 3 的状态追踪失效,通过 Patchscopes 工具揭示根因:状态更新结果埋得太深,后续浅层处理无法访问。核心主张:将研究重心从"外显思维链"转向"隐式激活动态",即用循环架构替代纯前馈结构。

深度分析

1. 核心问题:Transformer 的状态追踪缺陷

Transformer 的核心策略是把整个对话历史装进上下文窗口,通过注意力机制检索过去信息。这绕开了 RNN 难以记住远距离信息的问题,但有一个根本性缺陷——状态追踪(State Tracking)。

"楼层"比喻:把 Transformer 想象成一栋楼,信息从底层流向顶层。每处理一个新输入,模型的"状态表示"就得搬到更高一层。楼层不是无限的,搬到顶了就搬不动了。

2. 两个典型失败案例

猜数字游戏:Gemini 3(Fast)心里想一个 1-100 的数字,用户猜 60→"更小",猜 41→"更小",猜 70→"更大"——前后矛盾。Gemini 3 Thinking 在思考阶段明确写下"我选定了数字 42",但用户猜 42 时依然回答"更小"。

bank 歧义测试:第一轮正确判断"弗雷德去的是河边",第二轮被问到"有没有 ATM"时改口说"有,大多数银行旁边都有 ATM"。Patchscopes 揭示根因:模型对 bank 的语义消歧发生在第六层(较深),但后续输入处理时浅层(1-5 层)看不到这个消歧结果,只能基于词频关联("银行"→"ATM")给出反应。

3. CoT 是补丁,不是解决方案

CoT 的原理是把埋得很深的状态"打印出来"变成可见文字再重新读入,将深层信息搬运到新一轮处理的表层。这确实有效,但代价大:大量计算用于输出中间思考,上下文窗口被大量占用,推理成本飙升。论文指出:"对于人们自动完成、毫无意识的推断,比如判断一个词的含义,根本不需要诉诸繁复的外显思考。"

4. 解决方向:重新拥抱循环

论文将"循环 Transformer"按两个维度分类:循环发生在哪个轴(深度方向 vs 序列方向)、每个循环步骤处理几个输入词。

方向 代表架构 评价
深度方向循环 Looped Transformer、Universal Transformer 同一组层反复使用,但状态仍会被推向更深层,只是慢了一点
序列方向循环 MAMBA、RWKV-7、DeltaNet 每处理新输入将前一步状态向量显式传递,真正能做到无限期状态追踪

DeltaNet 改进版:将特征值范围扩展至负数,在保留并行训练优势的同时实现超越标准 Transformer 的状态追踪能力,在大规模语言建模测试中展现竞争力。

其他研究方向:更粗粒度循环(以句子为单位而非词元)、利用残差连接表示对齐降低循环训练成本、分阶段训练(先标准前馈预训练再引入循环微调)。

5. 核心洞察

"一个人读一本小说,不需要每翻一页就把前面发生的事朗读出来,才能记住故事线索。这种背景性的、流动的状态维护,对人类来说几乎是零成本的。而大模型现在做不到这件事。"

下一代基础模型必须超越"反复检索历史文本"的策略,转而构建"流动的、持续演化的现实表示",横跨多个时间尺度。这不只是效率问题,而是通向真正稳定、连贯的长时认知的必由之路。

实践启示

  1. CoT 的成本天花板是架构性的:不是模型不够强,而是 Transformer 的前馈结构决定了状态追踪必须付出 O(n) 的深度代价。
  2. SSM/线性注意力不是"复古"而是"补课":MAMBA、RWKV、DeltaNet 等序列方向循环架构,是在补 Transformer 从一开始就缺失的状态维护能力。
  3. 分阶段训练是务实路径:先用标准前馈预训练利用现有基础设施,再引入循环微调获得状态追踪能力。

相关页面