跳转至

LLM 工作机制与可解释性

Ch01.476 LLM 工作机制与可解释性

📊 Level ⭐⭐ | 7.4KB | entities/llm-language-thinking-mechanisms.md

核心观点(李航等,2026)

  1. LLM 学到的是高阶模式:不仅学到词汇/语法低阶模式,还学到语义/语用/世界知识高阶模式
  2. NTP 只是表面:整体能力由策略、模型、算法、数据共同决定
  3. 内部机制可解析:SAE、CLT 等工具已揭示大量可解释特征

特征叠加(Superposition)

Anthropic 提出:神经网络一层可表示远大于神经元数量的特征,代价是特征间干扰。

  • 宽层:稀疏特征向量(独立)
  • 实际层:稠密特征向量(叠加) 高维几何理论保证:d 维空间可有 exp(d) 个近乎正交基向量。

SAE(稀疏自编码器)

作用:将稠密特征向量「解压」为稀疏特征向量 结构

  • 编码器:非线性变换 → 高维稀疏特征
  • 解码器:线性变换 → 重构输入 发现

  • 数十万到百万量级特征

  • 层次化:浅层(词法) → 中间层(语义) → 深层(推理)

功能词元假说(Function Token Hypothesis)

字节跳动李航团队:特征的记忆和检索围绕功能词元展开

  • 功能词元:高频词元(the、逗号、句号、换行符)
  • 前10个高频词元激活70%特征
  • 推理时动态激活最具预测性的特征

CLT(跨层转码器)

作用:分析跨层特征连接 输出:归因图(Attribution Graph)

  • 节点:激活的特征/词元嵌入
  • 边:影响关系

与现有知识的链接

深度分析

李航等(2026)的工作将 LLM 可解释性研究从"神经元级"推进到"特征级"和"回路级",形成了一个完整的多层次解释框架。这一框架的核心贡献在于揭示了 LLM 能力的本质来源并非 NTP 这一简单机制,而是高阶模式的层级化习得特征叠加(Superposition) 是理解 LLM 内部表示的关键入口。传统神经网络解释假设"一个神经元 = 一个特征",但这在实际网络中极为罕见。Superposition 揭示了神经网络的"压缩智慧":通过将稀疏的高维特征压缩到稠密的低维向量,模型可以在有限参数中表示指数级的特征数量。这种压缩是有损的,代价是特征间干扰——这解释了为什么 LLM 有时会混淆语义相近的概念。Anthropic 的理论保证(d 维空间可容纳 exp(d) 个近乎正交基向量)为这一现象提供了几何基础。 SAE 的突破性在于它提供了解压工具。SAE 将压缩后的稠密向量重新投影到高维稀疏空间,使研究人员能够直接"观察"模型在思考什么。数十万到百万量级的特征被提取出来,且呈现清晰的层次化结构:浅层处理词法与语法、中间层处理语义与基本推理、深层处理复杂推理与输出生成。这一发现对 AI 工程具有直接指导意义——不同层的特征应被用于不同类型的 Agent 工具调用决策。 功能词元假说是字节跳动团队最独特的贡献。它揭示了 LLM 记忆的"索引结构":高频功能词元(the、逗号、句号、换行符)激活了 70% 的特征。这不是一个偶然现象,而是 LLM 在训练中自然形成的记忆检索策略——功能词元类似于书籍的章节标题和索引,是激活相关上下文的触发器。这一发现可以解释为什么 prompt 工程中"分隔符"和"结构化格式"往往能显著提升模型表现:它们帮助模型更精准地定位相关记忆特征。 CLT(跨层转码器) 将可解释性从单层拓展到跨层回路分析。归因图(Attribution Graph)将 LLM 的计算过程可视化为一个有向无环图,其中节点是激活的特征、边是影响关系。这为理解 LLM 的推理路径提供了"电路图"级别的可视化能力。结合 SAE 的特征提取和 CLT 的回路追踪,研究者已经可以在一定程度上"读懂"模型的推理过程。 从哲学层面看,这篇文章回应了乔姆斯基对 LLM 的批评。乔姆斯基认为 LLM 仅学到表层统计规律,但功能词元激活 70% 特征这一发现表明,LLM 实际上学到的是高度结构化的语义和语用知识。不过李航等也坦承 LLM 的根本局限:幻觉是统计规律的数学必然,无法从内部消除,只能通过 RAG 等外部机制缓解。具身认知的缺失则将 LLM 与人类智能的差距限制在"语言表示空间"内。

实践启示

  1. 基于 SAE 层次化特征开发诊断工具:在构建 Agent 系统时,可以利用 SAE 特征分析来诊断模型在特定任务中的激活模式。如果某类任务持续激活异常特征,可能表明模型对该任务的处理路径不稳定,需要额外引导或微调。
  2. 在 Prompt 工程中利用功能词元机制:功能词元是记忆检索的触发器。在复杂多步推理的 prompt 中,使用明确的分隔符(换行符、冒号、XML 标签)可以帮助模型更精准地激活相关特征,提升指令执行准确性。
  3. 区分 Agent 工具调用决策的层次:浅层特征适合用于快速词法匹配型工具路由(如正则提取、格式转换),中间层特征适合用于语义理解型工具(如 RAG 检索、实体识别),深层特征适合用于复杂推理型工具(如代码执行、多步规划)。
  4. 用 RAG 而非微调解决幻觉问题:文章明确指出幻觉是 NTP 本质问题,无法通过模型自身消除。对于需要事实准确性的 Agent 场景,RAG 提供外部知识锚点是将幻觉概率降至可接受水平的唯一可靠路径。
  5. 在模型选型时评估特征清晰度:不同模型家族(Anthropic、字节、Google)在 SAE 特征提取中的表现差异显著。特征可解释性高的模型更适合构建需要可审计推理过程的 Agent 系统,尤其在合规要求严格的金融、医疗场景。