Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework¶

Ch01.853 Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework¶

📊 Level ⭐⭐⭐ | 19.9KB | entities/memory-in-the-llm-era-iclr2026.md

概述¶

Memory in the LLM Era 是 ICLR 2026 投稿论文，系统性梳理了大语言模型 Agent 记忆（Agent Memory）的架构设计与工程策略。该论文提出了统一四组件框架，将 Agent 记忆系统拆解为：信息提取（Information Extraction）、记忆管理（Memory Management）、记忆存储（Memory Storage）、信息检索（Information Retrieval）四个核心模块。

该工作基于 RAG 范式向深层记忆管理的演进趋势，针对当前 LLM Agent 在多轮对话、长期任务中面临的上下文窗口溢出、token 成本高、推理延迟增加等核心痛点提出系统性解决思路。

论文信息¶

arXiv：https://arxiv.org/abs/2604.01707
代码：https://github.com/Yanchen398/Memory-in-the-LLM-Era
来源：微信公众号 NewGridAI（微橙酒），2026-04-30 ingestion

背景问题¶

LLM Agent 在多轮对话、长期任务中需要持续积累过去的交互、偏好、事实变化和任务状态。Naive long-context prompting（将历史全部放入 prompt）的问题：上下文窗口溢出、token 成本高、推理延迟增加、模型难以找到真正相关证据。

核心洞察：Context window 扩展解决的是带宽问题，不是建模问题。 benchmark 已经证实：拉到 35 个 session、300 个 turn 的尺度上，长上下文和 RAG 在时间推理、长程一致性上仍然明显落后于人类。

核心贡献：四组件统一框架¶

1. Information Extraction（信息提取）¶

信息提取解决的是"记什么"的问题——从持续积累的交互历史中筛选、压缩、结构化有价值的信息。论文将提取策略分为三类：

直接归档（Direct Archival）：原样保留原始交互记录，适用于信息密度高、压缩损失大的场景
总结式提取（Summarization-based Extraction）：通过 LLM 抽象生成摘要，牺牲细节换取存储与检索效率
基于图的提取（Graph-based Extraction）：将交互建模为实体-关系图结构，保留语义关联拓扑

不同提取策略直接影响下游 agent-memory 的质量上限，总结式提取最为常见但存在摘要偏置风险，基于图的方法在复杂推理任务中表现更优。

2. Memory Management（记忆管理）¶

记忆管理处理"怎么维护"——对已存储记忆进行连接、整合、迁移、更新、过滤五类操作。

这是上下文管理架构模式中的核心挑战之一。层级迁移（Hierarchical Migration）机制允许记忆在长短期存储层级间流动：高频访问内容上升至短期记忆，重复模式下沉至长期存储。过滤无用信息则防止记忆库膨胀污染检索信号。

五类核心操作： 1. 连接（Link）：将相关经验关联形成结构化知识网络 2. 整合（Integrate）：把碎片信号聚合成结构化信念 3. 迁移（Migrate）：在长短期存储层级间调整记忆位置 4. 更新（Update）：修正已过期的信念或新增信息 5. 过滤（Filter）：清除低价值或干扰性信息

3. Memory Storage（记忆存储）¶

存储层解决"存在哪"的问题，组织结构与表示方式两个维度：

维度	扁平式	层级式
组织结构	JSON/队列	树结构（MemTree）、长短分离
表示方式	向量嵌入（Vector Embedding）	图结构（Graph Representation）

层级式树结构（如 MemTree、MemoryOS）表现突出，能够同时保留高层摘要与底层原始证据，支持自顶向下与自底向上的多粒度检索路径。

4. Information Retrieval（信息检索）¶

检索层解决"如何取回"的问题，论文覆盖四类检索范式：

词汇匹配检索（Lexical Matching）：BM25、Jaccard 系数等传统稀疏检索方法
向量检索（Vector Retrieval）：余弦相似度、ANN（近似最近邻）算法，稠密向量表示
结构检索（Structural Retrieval）：图/树遍历，利用拓扑结构约束检索路径
LLM 辅助检索（LLM-augmented Retrieval）：让 LLM 参与相关性判断，提升语义理解深度

检索策略选择影响最终任务表现，向量检索在语义匹配上优于词汇检索，但在精确事实回溯场景下 BM25 仍具竞争力。

检索方法对比¶

类型	代表方法	适用场景	局限
词汇匹配	BM25、Jaccard	精确匹配实体、名称、关键词	无法处理语义相关性
向量检索	余弦相似度、ANN	语义相似召回	语义近≠任务相关
结构检索	图/树遍历	关联路径发现	需要显式结构
LLM 辅助	LLM 判断相关性	复杂推理任务	增加 token 开销

实验设计与评估¶

论文在两个基准数据集上系统评估 10 种代表性 Agent Memory 方法：

LOCOMO：人类长期对话数据集，模拟真实用户交互模式
LONGMEMEVAL：用户与 AI 长期交互评估集，覆盖多会话场景

任务类型涵盖：单跳问答、多跳推理、时间推理、开放域知识、信息提取、多会话推理、知识更新等七类，覆盖 llm-agent 核心能力维度。

关键发现¶

1. 层次化方法显著领先¶

MemTree、MemoryOS、MemOS 等树状层次方法在各项任务中表现突出。树结构天然支持多粒度记忆组织：高层节点存储抽象摘要，低层节点保留具体证据，检索时可以自适应选择粒度。

这一发现与 Hierarchical Memory 概念高度一致，印证了层级化是 agent-memory 系统的主流演进方向。

深层原因分析： 层次结构天然实现了重要性分流——摘要层过滤低价值信号，底层保留高 provenance 证据。检索时从高层向下剪枝，比在扁平结构中做全量相似度匹配更高效。

2. 粗粒度处理降低 Token 消耗¶

将多轮对话作为整体进行处理（粗粒度）而非逐条细粒度输入，能够在保持任务性能的同时显著降低 token 开销。适当的信息压缩与聚合反而有助于模型聚焦关键记忆，提升检索信噪比。

3. 上下文扩展脆弱性¶

当上下文规模扩展到 200% 时，几乎所有方法都出现性能下降。层次管理方法（Hierarchical Management）相对更稳定，但仍未完全免疫。这一发现揭示了 long-context 处理中普遍存在的扩展性瓶颈。

本质洞察： 扩展上下文窗口解决的是带宽问题，但 retrieval 的瓶颈在于信号与噪声的比值——向模型喂更多上下文，并不改善检索质量，因为无关信息稀释了相关信号。

4. 证据位置敏感性¶

多数方法在关键证据位于更早会话时，更容易被后续信息干扰而检索失败——即"新人覆盖老人"问题。这对 agent-memory 系统的时序建模能力提出了更高要求。

5. 底层 LLM 决定上限¶

从 Qwen2.5-7B 扩展到 72B 后，多数方法都有明显提升。基础模型能力是 agent-memory 系统的性能天花板，记忆机制优化无法突破基础模型的认知上限。

新 SOTA 算法：lme-sota¶

论文组合 MemTree/MemOS 的树状组织能力与 MemoryOS 的分层存储架构，设计出低 token 开销的新框架 lme-sota。该框架在保持层次化记忆优势的同时，通过粗粒度处理与选择性检索将 token 消耗控制在较低水平。

框架本质：治理分工而非功能切分¶

论文将 Agent Memory 拆解为四组件，但这三个组件并非平等的"功能模块"。治理的主轴在 Management 层：Extraction 是入口过滤器，Storage 是组织结构，Retrieval 是读取策略——而 Management 决定哪些记忆被保留、演化或遗忘，直接决定了系统随时间是否保持有效。

核心判断：Memory 是治理问题，不是容量问题。 扩展上下文窗口解决带宽，层次化架构解决组织，但真正决定系统能否随时间进化的，是 Management 层的修正与遗忘机制是否闭环运转。

深度分析¶

1. 四组件框架的理论意义：从功能分解到信息生命周期治理¶

论文将 Agent Memory 拆解为 Extraction → Management → Storage → Retrieval 的流水线，这一拆解的意义远超功能模块化。它本质上是一个信息生命周期（Information Lifecycle）管理框架在 LLM Agent 场景下的实例化。

在传统软件系统中，信息生命周期管理（ILM）早已是数据库与存储系统的核心设计理念——数据从写入到衰减，经历热、温、冷的层级迁移，最终被归档或丢弃。将这一思想移植到 LLM Agent 的记忆系统，意味着记忆并非静态存储的\"事实清单\"，而是随时间不断演化、需要主动管理的动态实体。

论文的五个 Management 操作（连接、整合、迁移、更新、过滤）对应了信息生命周期中的五个关键治理节点。这一框架的理论贡献在于：它证明了 LLM Agent 的记忆瓶颈不是存储容量问题，而是治理闭环的缺失问题。 多数系统有 Extraction（有写入）和 Retrieval（有读取），但缺乏 Migration（层级流动）和 Filter（主动遗忘），导致记忆库单向膨胀、噪声累积。

2. 层次化优于扁平化的深层原因：认知负荷的工程等价¶

论文发现 MemTree/MemoryOS 等树状层次方法显著优于扁平向量存储，并将其归因于\"重要性分流\"和\"检索剪枝效率\"。这一发现的政策含义值得进一步剖析。

从认知科学角度看，人类记忆天然呈现层次结构——工作记忆（3-7 个 chunk）→情景记忆→语义知识。层次化记忆系统与这一认知结构形成工程对应，因此在多粒度推理任务中表现更优并非偶然。扁平向量存储要求模型在 N 个等权重向量中做全量相似度匹配，等价于强迫模型在无结构噪声中进行穷举搜索——这正是 Retrieval 性能瓶颈的根源。

层次结构的另一个关键优势在于检索路径的可解释性：从高层摘要向下追溯具体证据，是一条有方向的推理路径，而非黑箱相似度排序。这意味着当 Agent 做出错误决策时，可以沿着树结构反向定位是哪个层级的记忆引入了错误信号——这对 Debug 和系统迭代至关重要。

3. 上下文窗口扩展的失败揭示的根本性限制¶

论文的实验结果表明，将上下文规模扩展到 200% 时几乎所有方法都出现性能下降，且这一现象在长程一致性和时间推理任务上尤为突出。这一发现的政策含义远超本文范围。

核心问题在于：Transformer 的注意力机制是位置编码与内容编码的联合产物，上下文越长，模型越倾向于\"近因偏差\"（recency bias）——最近的信息在注意力权重上占优，早期关键证据被稀释。即使是层次化管理方法，虽然相对更稳定，也无法完全免疫这一限制。

这意味着，单纯依靠扩大上下文窗口或改进 RAG 策略，无法根本解决 LLM Agent 的长程记忆问题。论文的实验已经证明，在 35 个 session、300 个 turn 的规模上，现有方法仍然明显落后于人类表现。突破这一瓶颈需要的不是更大的上下文窗口，而是新的记忆架构——可能是外部化的、可微调的记忆模块，而非将所有信息编码在模型权重中。

4. Extraction 策略的选择决定系统的认知Bias¶

三种 Extraction 策略（直接归档、总结式提取、图结构提取）并非只是工程实现的选择，它们直接决定了 Agent 记忆系统的认知特性。

总结式提取最常用但风险最高：LLM 的摘要过程引入了归纳偏置——模型倾向于保留\"主流叙事\"而过滤边缘信号。这在偏好建模场景中尤为危险：用户的真实偏好往往体现在少数例外行为中，而非平均行为中。论文的实验已经揭示了\"摘要偏置\"的存在，但对其长期影响尚未有充分评估。

基于图的提取在语义关联保留上具有优势，但图的构建质量高度依赖 Extraction 阶段对实体与关系的识别准确性。如果初始 Extraction 引入错误的关系建模，后续 Management 和 Retrieval 都将在错误结构上运作，形成\"级联偏置\"。

直接归档保留了信息的完整性和 provenance，但在规模化后面临检索质量下降的问题——高保真不等于高可用。这三种策略实际上对应了有损压缩的不同策略选择，系统设计者需要根据具体任务场景在保真度与可用性之间做显式权衡。

5. 基础模型能力作为天花板：记忆优化的隐性边界¶

论文最发人深省的发现之一是：底层 LLM 从 7B 扩展到 72B 后，几乎所有记忆方法都获得明显提升。这意味着记忆机制的设计边界由基础模型能力决定——再精巧的记忆管理架构，也无法突破基础模型的认知上限。

这一发现的政策含义是：对于基础能力较弱的模型（如 7B 量级），记忆优化的边际收益有限，应优先提升基础模型能力；对于基础能力较强的模型（如 72B 及以上），记忆架构的精细化设计才具有更高的投入产出比。

同时，这一发现也揭示了当前评估框架的一个潜在问题：论文在 Qwen2.5-7B/72B 上的实验结论，是否可以推广到其他基础模型（如 Llama、Claude、GPT 系列）？不同基础模型的注意力机制和位置编码方式存在差异，对层次化记忆结构的适应性可能不同。记忆架构与基础模型的联合优化（joint optimization）是一个尚未被充分探索的研究方向。

6. "新人覆盖老人"问题的系统性根源¶

论文指出多数方法在关键证据位于更早会话时更容易检索失败，将这一现象描述为\"新人覆盖老人\"问题。深入分析，这一问题的根源是系统性的，而非某一种检索算法的缺陷。

在技术层面，Transformer 注意力机制的近因偏差（recent bias）使得后期会话在attention权重计算中占优。在架构层面，层次化存储中的\"向上迁移\"机制倾向于将高频访问的新记忆沉淀在较高层级，而早期记忆如果缺乏持续访问则逐渐下沉到底层——检索时从高层向下搜索的路径设计，使得到达底层的概率低于顶层。

在语义层面，用户的偏好和事实会随时间漂移（preference drift、fact drift），后期会话可能包含对早期信念的更新或否定。如果记忆系统缺乏显式的\"时间戳\"和\"有效性窗口\"标注，检索返回的可能是已被更新但未标记为过期的旧信息。

解决这一问题需要三个层次的协同：注意力机制层面需要更好的位置编码策略（如相对位置编码的改进）；存储架构层面需要在迁移机制中加入\"时间衰减\"和\"更新传播\"；管理层层面需要显式的信念状态跟踪（belief state tracking），而非仅依赖时间顺序的\"最新优先\"逻辑。

实践启示¶

1. 优先投资 Management 层，而非存储层¶

大多数 Agent 实现先选向量数据库/图数据库，但真正区分记忆质量的是 Management 策略：写入时做边际价值判断而非全量存储，管理层实现冲突保留（而非"以最新为准"的简单覆盖），遗忘机制主动清除失去更新通道的旧信念。

2. 层次化存储 + 任务约束检索是当前最优架构组合¶

论文的 SOTA 结果（MemTree/MemOS 树状组织 + MemoryOS 分层存储）和 Architecture essence 的"检索-推断耦合"方向一致。在工程实现中，可以先以扁平向量存储为主体，但在 Management 层增加摘要/图提取 pipeline，按会话/主题/时间切片建立层次索引；检索时先由任务理解层判断决策约束，再做定向召回。

3. 管理好 Extraction 的信息损失¶

不要只用摘要做 Extraction——关键决策、偏好漂移的触发点、Agent 失败的场景，需要保留结构化证据而非仅保留结论。提取策略应区分"高确定性事件"（直接归档）和"推断性信号"（需要来源和置信度标注）。

4. 评测从 recall 转向治理能力¶

论文已指出方向：从"能不能 recall"到"能不能 update、能不能 handle drift、能不能 selective forget"。设计评测集时，应覆盖：记忆冲突场景（同一偏好有正反证据）、漂移场景（旧信念被新事实否定）、选择性遗忘场景（无关信息不应干扰决策）。

5. Memory 子系统的 Debug 链路¶

当 Agent 给出错误响应时，追溯路径应该是：检索层（召回是否正确）→ Management 层（信念是否过期/被错误应用）→ Extraction 层（关键信号是否被误过滤）。在回答层打补丁而不修正上游假设，等于没有学习。