跳转至

Memento-Skills:让 Agent 通过技能外部记忆持续进化

Ch04.343 Memento-Skills:让 Agent 通过技能外部记忆持续进化

📊 Level ⭐⭐ | 7.3KB | entities/memento-skills-agent-self-evolving.md

Memento-Skills:让 Agent 通过技能外部记忆持续进化

AI热力论文社 | 2026-04-01 | arXiv 2603.18743 LLM 部署后无法继续学习——预训练依赖海量算力,微调成本高昂,生产环境积累的交互经验难以被模型吸收复用。 Memento-Skills 的路径:在完全冻结模型参数的前提下,通过持续进化的技能内存(Skill Memory)让 Agent 在真实任务中持续成长。 将状态从 s_t(当前任务)扩展为 x_t = (s_t, M_t)(任务状态 + 技能内存),重新获得马尔可夫性,保证系统收敛性。

相关实体

原文存档

深度分析

1. Memento-Skills 的核心创新是将"模型参数"与"技能记忆"分离,突破了 LLM 无法在部署后持续学习的根本限制

传统 LLM 的知识更新依赖预训练或微调,两者的共同问题是成本高昂且无法捕获生产环境的实时交互经验。Memento-Skills 通过将状态空间从 s_t(任务状态)扩展为 x_t = (s_t, M_t)(任务状态 + 技能内存),将"学会执行任务"与"模型参数"解耦。这意味着 Agent 可以在完全冻结模型的情况下,通过技能内存的读写和进化持续提升任务执行能力。这一设计的理论意义在于重新获得马尔可夫性——给定当前任务和技能内存,下一步行动是确定的,系统收敛性得到数学保证。

2. 读写反射五步循环中的"Write"步骤是系统持续进化的核心机制,包含效用更新、失败归因和新技能创建三层逻辑

Write 步骤不是简单的"记录成功",而是包含精细的进化逻辑:成功时更新技能效用评分(success/(success+failure));失败时将通用提示加入提示内存并定位错误技能;若效用低于阈值且有足够样本,则创建新技能补充技能库;否则原地优化现有技能(加防护逻辑或替换策略)。这种"成功强化、失败归因、阈值触发新技能创建"的机制,使系统具备了自我优化的能力,而非简单的经验累积。更关键的是,所有修改都需经过单元测试门验证,防止功能退化——这保证了技能库的进化是可控的。

3. 行为对齐路由(Behavior-Aligned Retrieval)解决了传统语义路由"找得到但执行无效"的根本问题

传统路由只看语义相似度,导致检索结果可能在语义上相关但在实际执行中无效。Memento 的方案是用单步离线 RL 训练对比检索模型,优化目标从"语义相似度"转为"技能成功概率"。具体流程是:合成正负任务样本 → LLM Judge 筛选 → 多正例 InfoNCE 训练行为对齐嵌入 → Boltzmann 策略平衡利用与探索。实验结果显示 Recall@1 从 0.32(BM25)提升到 0.60(+87.5%),端到端命中率从 0.29 提升到 0.58(+29pp),Judge 成功率从 0.50 提升到 0.80。这证明"语义相关"与"执行有效"之间存在显著差距,行为对齐路由是缩小这一差距的关键。

4. 技能库的进化轨迹揭示了系统能力的"结构化形成"而非"数量累积"

从初始 5 个原子技能 → GAIA 学习后 41 个技能(分布紧凑)→ HLE 学习后 235 个技能(自动聚类成语义组),t-SNE 投影显示技能不是简单的线性累积,而是形成了语义聚类的能力结构。这说明 Memento-Skills 的进化机制不是"记住更多成功案例",而是"将经验抽象为结构化的能力模块"。这种结构性形成意味着系统具有真正的泛化能力——面对新任务时,可以组合多个相关技能形成解决策略,而非逐个匹配记忆案例。

实践启示

1. 在设计生产级 Agent 系统时,采用"读写反射循环"作为基本架构范式,而非单次调用模式

Observe → Read → Act → Feedback → Write 的五步循环为 Agent 系统提供了持续自我优化的基础架构。即使不实现完整的 Memento-Skills 机制,也应在 Agent 设计中引入"执行结果反馈 → 更新系统知识状态"的循环机制。这意味着每个 Agent 应维护自己的"经验记录",在遇到成功或失败后主动更新其行为策略,而非每次任务都从零开始。

2. 构建技能路由系统时,优先采用"行为对齐"训练而非纯语义相似度匹配

对于拥有多个技能/工具的 Agent 系统,语义相似度路由的局限性会在技能数量增长时显著显现。建议采用 Memento 的方案:用合成样本训练对比检索模型,以"技能执行成功率"而非"语义相关性"作为优化目标。具体实践路径:收集历史任务-技能匹配数据 → LLM Judge 标注正负样本 → InfoNCE 训练检索模型 → 在线部署时结合 BM25 + 稠密检索 + RRF 融合 + 重排序。

3. 为技能库设置效用阈值触发的新技能创建机制,避免技能库无限膨胀

Memento-Skills 的技能创建不是"每次失败都创建新技能",而是"效用低于阈值且有足够样本"时才触发创建。这意味着在实现类似机制时,需要设置两个关键参数:效用阈值(决定何时认为现有技能无效)和样本数量阈值(决定何时认为样本足够支持创建新技能)。同时,Write 步骤中的"原地优化现有技能"机制(非创建新技能)对于处理偶发失败很重要——它避免了技能库的膨胀,同时保留了通过改进现有技能来提升能力的路径。

4. 将单元测试门作为技能修改的必要验证步骤,保证技能库进化的可靠性

"所有修改要经过单元测试门验证,防止功能退化"这一设计细节值得所有 Agent 系统借鉴。在 Agent 系统的实践中,技能的自我优化可能导致"改进了任务 A 的执行但破坏了任务 B 的能力"的情况。引入自动化的单元测试门可以在技能修改时自动验证其对已有能力的影响,将"技能进化"从盲目试错转变为有验证保障的可靠过程。