State of Memory in Agent Harness — mem0 视角的九大 harness 横评¶

Ch04.130 State of Memory in Agent Harness — mem0 视角的九大 harness 横评¶

📊 Level ⭐⭐ | 13.7KB | entities/state-of-memory-in-agent-harness-mem0-2026.md

State of Memory in Agent Harness — mem0 视角的九大 harness 横评¶

出处: 原文存档 · 作者 mem0 · 2026-06-11 原帖: x.com/mem0ai/status/2061822612398014782

TL;DR¶

mem0 团队系统横评了 9 个主流 agent harness 的 memory 机制（Claude Code、Anthropic Managed Agents、OpenAI Codex、GitHub Copilot、OpenClaw、Hermes Agent、AWS Bedrock AgentCore、Windsurf、Devin），得出三个结论：（1）memory 已经是 harness 的核心能力；（2）大多数实现停留在"本地、有限、关键词式、难共享"阶段；（3）这些限制本质上是 harness boundary 的限制，因此 mem0 把自己定位为 cross-harness 的基础设施层。

Memory 三层分类法¶

文章先建立分析框架：把 memory 按"存在哪里"而非"存什么"划三层，因为失败模式不同。

层	载体	边界	Production 现状 (2026)
Working memory	上下文窗口	session 结束即重置	普遍存在，瓶颈是压缩策略
External memory	vector store / graph / 文件	跨 session 持久化	几乎所有 production memory
Parametric memory	训练写入 weights	全局通用	基本无 production 部署

这套划分与 agent memory architecture essence 中"存什么"的认知科学三分法（semantic / episodic / procedural）正交：前者是物理位置，后者是内容类型。

九大 Harness 横评¶

设计模式对照表¶

Harness	写入策略	检索方式	独特机制	主要短板
Claude Code	Auto-extraction agent 写笔记	小模型按文件名选文件	CLAUDE.md + 自动笔记双线	非语义、静默截断
Anthropic Managed	Append-only event log	workspace 共享 store	历史可审计、多 agent 共享	偏 workspace、容量小 (8×100KB)
OpenAI Codex	LLM 自主写 markdown	substring grep	summary 优先读	grep-only、token budget 静默截断
GitHub Copilot	结构化 memory 项	Just-in-time citation verification	28 天自动过期（staleness 机制最强）	— (作者最推崇)
OpenClaw	上下文满时触发 LLM 决定写什么	embedding + hybrid retrieval	SQLite + embedding 完整栈	写入质量强依赖单轮 LLM 判断
Hermes Agent	working/skills/session 三层各自写入	FTS5 + 可接 Mem0	skills 沉淀 procedural memory	默认无 semantic retrieval
AWS Bedrock AgentCore	三种异步提取 (facts/preferences/narrative)	—	INVALID 标记保留 lineage	AWS 锁定、公开分数一般
Windsurf	Cascade 生成	workspace-scoped	记 codebase 模式与约定	跨项目/跨设备弱
Devin	人工审核后写入	—	Knowledge + DeepWiki 双库	门槛高、没人审则不沉淀

几个真正的亮点¶

GitHub Copilot 的 just-in-time citation verification + 28 天 staleness 是文章里被点名"目前最强的过时处理方案之一，而且有真实 A/B 结果"。这与 Hermes Agent 自己的 memory 体系形成对比 — Hermes 靠 skills 层做 procedural 沉淀，但 staleness 处理依然偏弱（与作者列出的"共同短板"一致）。

AWS Bedrock AgentCore 的 INVALID 标记 + lineage 保留 是另一个被点名的工程优点：变更事实不是物理删除，而是状态翻转，可以追溯历史。

Devin 的 人工审核制 Knowledge 是质量光谱的另一极：质量上限高，但依赖人工运营，"没人审，很多东西就不会沉淀下来"。

Benchmark 批判¶

文章对现有 memory benchmark 给出了相当直接的判断：大多不好。它们多数在测"能不能回忆过去对话里的事实"，已经接近饱和，而且高分不等于能做出更好的决策。

Benchmark	问题 / 评价
LoCoMo	仅 10 段对话不稳定、很多题不需要 memory、adversarial 题与目标太像
LongMemEval	覆盖广（extraction / multi-session / temporal / updates / abstention），但仍偏 recall
MemoryArena, Anatomy of Agentic Memory	把问题说更清楚：真正该测的是 memory 能不能指导行动
BEAM	少数在 10M+ token 规模上设计的 benchmark（其它多卡在 1.5M）

这一段与 agent memory evaluation landscape 中"benchmark 偏 recall"的判断完全一致，可视为 mem0 角度的第二信源验证。

共同短板与 harness boundary 论点¶

把九家拉通看，作者总结出五个共同短板： - 存储 bounded 且 local - 检索大多是 keyword 式 - memory 常常只属于某个 harness（不跨 agent） - staleness 处理弱 - isolation 不够（cross-user contamination 风险）

"这些限制，本质上是 harness boundary 的限制。"

这是 mem0 论证的关键转折：单个 harness 内部再怎么优化 memory，都受限于 harness 的边界 — 数据不出 harness、格式不互通、生命周期跟 harness 走。这与 harness 的持续性 vs 侵蚀 中讨论的 harness 锁定问题是同一个论域。

研究层未解决的三个坑¶

外部 memory 并没有把问题"解决"，只是把它从 weights 挪到了检索层。

稳定性 vs 可塑性：catastrophic forgetting 在外部 memory 层仍未消除
选择性遗忘：删过时事实同时保住结构，依然难
安全性：memory 是新的攻击面（cross-user contamination, poisoning）

Mem0 的定位¶

Mem0 把 memory 做成 基础设施层而非 harness 内部功能。混合架构： - vector store → semantic retrieval - knowledge graph → relational reasoning - key-value → 元数据与快速访问

v3 算法（2026 年 4 月）方向：single-pass ADD-only extraction、multi-signal retrieval、vector store 内的 entity linking。目标是 portable + semantically searchable + cross-agent + production token volume。

价值与局限¶

这篇文章在已有大量 harness engineering 文献中的独特价值： - 横评最广：现有横评（如 Claude Code vs OpenClaw、Hermes vs OpenClaw）通常只对比 2–3 家；这篇拉通了 9 家 - 来自 mem0 视角：作者本身在做跨 harness memory 层，对"共同短板"的归纳带有实践基础 - benchmark 部分干货足：明确点出 BEAM 是少数 10M+ token 规模 benchmark，这是其它综述较少强调的

局限性： - mem0 是利益相关方，论证倾向"单 harness memory 注定有限 → 需要 mem0 这样的基础设施"，结论可能被立场影响 - 九家细节都偏简略，深度细节需对照单独条目（如 Hermes、OpenClaw、AgentCore）

深度分析¶

一、harness boundary 是 memory 系统的根本限制。九大 harness 共同面临的五个短板（bounded local 存储、keyword 式检索、memory 不跨 harness、staleness 处理弱、isolation 不够），本质上都来自"数据不出 harness"这个边界约束。这不是任何一家公司工程能力不足的问题，而是单 harness 架构的固有局限。跨 harness 的 memory layer 之所以难，不是因为技术复杂，而是因为行业没有动力去标准化。

二、现有 memory benchmark 偏重 recall 而非 decision quality，是系统性偏差。LoCoMo 只有 10 段对话、很多题不需要 memory；LongMemEval 覆盖 extraction/multi-session/temporal，但仍然偏 recall。真正该测的是"memory 能不能指导更好的行动"，而不仅仅是"能不能回忆起事实"。BEAM 是少数在 10M+ token 规模上设计的 benchmark，这才是 production agents 的真实量级。

三、Parametric memory 是 memory 架构中被忽视的"第三层"。Working memory 和 external memory 都在讨论，但 parametric memory（通过训练更新 weights 里的知识）基本没有 production 部署。外部 memory 实际上只是把问题从 weights 挪到了检索层——catastrophic forgetting 的挑战并没有被消解，只是在不同层次之间转移了。

四、GitHub Copilot 的 staleness 处理代表当前最强工程实践。28 天自动过期 + just-in-time citation verification（有真实 A/B 结果支撑）是目前唯一被明确验证过的过时处理方案。这说明 memory 的"新"和"旧"不能只靠时间判断，还需要验证"引用的上下文是否还成立"——这对代码类 memory 尤其重要。

五、Mem0 的跨 harness 定位是务实的，但壁垒是生态而非技术。Mem0 把 memory 做成 portable + semantically searchable + cross-agent + production token volume 的基础设施层，逻辑上优雅。但这个定位要求所有 harness 都开放接口——这是行业协调问题，不是技术问题。Mem0 的成功不取决于它自己有多强，而取决于有多少 harness 愿意接入。

实践启示¶

用"存在哪里"的三层分类法评估 memory 架构：Working memory（上下文窗口，会话结束即重置）、External memory（vector store/graph/文件，跨 session 持久化，是 2026 年 production 的主力）、Parametric memory（训练进 weights，基本无 production 部署）。先搞清楚需求属于哪层，再选对应技术方案。
设计 memory benchmark 时，测 decision quality 而非 recall：传统 recall benchmark 已经接近饱和，真正有价值的评估维度是"有了这段 memory，agent 的最终决策/输出是否更好"。参考 BEAM 的 10M+ token 规模设计，这是 production agents 的真实工作负载。
staleness 处理在系统设计之初就要考虑：不能靠简单的 TTL 过期。GitHub Copilot 的 just-in-time citation verification + 28 天 staleness 是目前最强方案；AWS Bedrock AgentCore 的 INVALID 标记 + lineage 保留是另一个值得参考的工程实践。设计 memory 系统时，问自己：如果记忆所依赖的上下文变了，系统能感知到吗？
memory 安全是一等公民：cross-user contamination 和 poisoning 风险是真实存在的攻击面。在设计 memory 系统时，isolation 机制要从一开始就作为核心需求来考虑，而不是后期打补丁。
如果选 Mem0 这类跨 harness 基础设施，先评估生态接入成本：Mem0 的方案逻辑上完整，但实际价值取决于有多少 harness 愿意开放接口。在选型时，不仅看技术指标，还要看目标 harness 是否已经支持或计划支持 Mem0 的接入协议。

State of Memory in Agent Harness — mem0 视角的九大 harness 横评¶

Ch04.130 State of Memory in Agent Harness — mem0 视角的九大 harness 横评¶

State of Memory in Agent Harness — mem0 视角的九大 harness 横评¶

TL;DR¶

Memory 三层分类法¶

九大 Harness 横评¶

设计模式对照表¶

几个真正的亮点¶

Benchmark 批判¶

共同短板与 harness boundary 论点¶

研究层未解决的三个坑¶

Mem0 的定位¶

价值与局限¶

深度分析¶

实践启示¶

相关页面¶

相关实体¶