跳转至

Agent 自我改进的六条路

Ch04.047 Agent 自我改进的六条路

📊 Level ⭐⭐ | 23.8KB | entities/agent-self-improvement-six-mechanisms.md

概述

J0hn/AGI Hunt 梳理 Agent 不重新训练就能变强的六种机制:输出自审、持久记忆、进化搜索、对抗训练、自我修改、编排自优化。核心命题:AI 学习正从训练阶段溢出到部署阶段——权重冻结下通过外部状态层积累知识是毕业后的自学能力。

可视化

架构图(Excalidraw / 推荐使用 ✨)

打开方式:将 agent-self-improvement-six-mechanisms.excalidraw 拖到 excalidraw.com 即可在浏览器中编辑,或在 Obsidian 中直接渲染(需安装 Excalidraw 插件)。

Shareable link: https://excalidraw.com/#json=V1TZR8SVycPL0VJvBiYhU,bLOKZsFPtzVew1TG82VleA

文件位置:assets/entities/agent-self-improvement-six-mechanisms.excalidraw

手绘风格(Virgil 字体)+ 完美文字渲染 + 可编辑。这是本实体的主推荐可视化——比 AI 生成图更清晰,比 Mermaid 更直观。

架构图(Mermaid / 知识源 / 可嵌入)

graph TB
    L1["L1 Reflection<br/>输出自审<br/><i>单次执行内 Critic 循环</i>"]
    L2["L2 Persistent Memory<br/>持久记忆<br/><i>跨 session 状态层</i>"]
    L3["L3 Evolutionary Search<br/>进化搜索<br/><i>轨迹级因果归因</i>"]
    L4["L4 Adversarial Training<br/>对抗训练<br/><i>双 Agent 零数据动力学</i>"]
    L5["L5 Self-Modification<br/>自我修改<br/><i>改进改进过程本身</i>"]
    L6["L6 Meta-Harness<br/>编排自优化<br/><i>Big Harness &gt; Big Model</i>"]

    L1 ==>|"持久化是基础"| L2
    L2 ==>|"需要足够轨迹"| L3
    L3 ==>|"需要压力测试"| L4
    L4 ==>|"暴露改进过程"| L5
    L5 ==>|"可优化 Harness"| L6

    L6 -.feedback.-> L1
    L2 -.feedback.-> L1
    L5 -.feedback.-> L2

    P1["LangGraph<br/>Reflection"]
    P2["Letta Code<br/>Agent Zero<br/>Hermes Agent"]
    P3["EvoAgentX<br/>AgentEvolver"]
    P4["Agent0<br/>Qwen3-8B +18%"]
    P5["HyperAgents<br/>autoresearch"]
    P6["Stanford<br/>Meta-Harness"]

    L1 --- P1
    L2 --- P2
    L3 --- P3
    L4 --- P4
    L5 --- P5
    L6 --- P6

    INS["💡 训练 = 上学<br/>六机制 = 毕业后的自学能力"]
    L6 -.- INS

    classDef layer1 fill:#dbeafe,stroke:#2563eb,color:#1e3a8a
    classDef layer2 fill:#d1fae5,stroke:#059669,color:#064e3b
    classDef layer3 fill:#fef3c7,stroke:#d97706,color:#78350f
    classDef layer4 fill:#fee2e2,stroke:#dc2626,color:#7f1d1d
    classDef layer5 fill:#ede9fe,stroke:#7c3aed,color:#4c1d95
    classDef layer6 fill:#0f172a,stroke:#000,color:#fff
    classDef project fill:#f3f4f6,stroke:#6b7280,color:#1f2937
    classDef insight fill:#fef9c3,stroke:#ca8a04,color:#713f12

    class L1 layer1
    class L2 layer2
    class L3 layer3
    class L4 layer4
    class L5 layer5
    class L6 layer6
    class P1,P2,P3,P4,P5,P6 project
    class INS insight

封面图(AI 生成 / 装饰参考,仅供参考)

Agent Self-Improvement 6 Layers

Agnes image-2.0-flash 生成的 1536×1024 封面。文字可能有拼写错误(典型的 AI 图像模型问题),仅作视觉参考,请以上方 Excalidraw / Mermaid 图为准

三种可视化对比

格式 文字准确性 可编辑 风格 推荐场景
Excalidraw ✓ 完美 ✓ 浏览器/插件可改 手绘 (Virgil) ✨ 首选:演示、分享、嵌入
Mermaid ✓ 完美 ✓ 修改 .md 即可 干净矢量 代码嵌入、文本搜索、版本控制
AI 图像 ✗ 常拼错 ✗ 像素锁定 手绘 (AI 模拟) 装饰、封面、社交分享卡

如何读架构图

  1. 自下而上:每一层是上一层的「基础设施」——没有持久记忆(L2),进化搜索(L3)就找不到可分析的轨迹
  2. 自上而下:每一层是下一层的「元升级」——自我修改(L5)能反过来优化 L2 的记忆策略
  3. 主流项目都同时使用多层机制(Hermes = L1 + L2 + L3 的组合)
  4. 选型建议:从 L1 开始,L2 是必经节点,L5/L6 是研究前沿

六种机制详解

1. 输出自审(Reflection)

  • 代表:LangGraph Reflection
  • 结构:双 Agent 循环(Generator → Critic → 修改建议 → 循环)
  • 终止条件Critic 不返回消息 = 通过,无需额外阈值
  • 硬限制:只发生在单次执行内,无跨 session 学习

2. 持久记忆

三种路径:

  • Letta Code:API 层持久化,记忆绑定在 Agent 而非 LLM 上
  • Agent Zero:动态工具生成 + 记忆,小模型驱动
  • Hermes Agent(最完整):自动技能提炼 + 定期回顾 nudging 共同洞见:不改权重,改状态。在 LLM 参数冻结下通过外部持久化状态层积累知识。

3. 进化搜索

  • EvoAgentX:三条优化线并行(Prompt/拓扑/配置),HotPotQA +7.44%,MATH +10%
  • AgentEvolver(阿里巴巴):ADCA-GRPO 算法做轨迹级因果信用分配,7B 模型 AppWorld 1.8% → 32.4%

4. 对抗训练

  • Agent0(北卡+Salesforce):零数据双 Agent 对抗,Qwen3-8B 数学推理 +18%,零标注胜过有标注

5. 自我修改

  • HyperAgents(Meta):Meta Agent 能改 Task Agent,也能改自己;跨领域迁移 imp@50 达 0.630(学通用改进策略,非领域技巧)
  • autoresearch(Karpathy):自动化实验但 Agent 本身不变——自动化 ≠ 自我改进

6. 编排自优化

  • Meta-Harness(斯坦福):Claude Code + Opus 4.6 迭代优化 Harness,文本分类比 ACE 高 7.7 个百分点
  • 关键发现:给完整文件系统(50%)vs 只给摘要(34%),消融证明摘要丢掉关键决策线索
  • 两层天花板:Big Model 决定理论上限,Big Harness 决定实际达到的高度

与现有 Wiki 的关联

Hermes Agent Deep Dive 互补:Hermes Agent 的 Skill 提炼和 nudging 在本文有更系统化的分类定位。 与 Hermes Agent 互补:self-evolution 主题的完整六条路归类,ADCA-GRPO/HyperAgents/Meta-Harness 是新维度。 与 Harness Engineering Framework 互补:第六条"编排自优化"是 Harness 工程化的最新前沿(Stanford Meta-Harness)。 与 Agent Engineering Principles Architecture Practice 互补:后者 Harness 比模型关键 → 前者第六条机制具体展示如何自动化 Harness。

核心命题

AI 的学习正在从训练阶段溢出到部署阶段。过去十年模型变强的唯一方式是改权重,这些项目展示了另一种可能:权重冻结下通过外部记忆、行为搜索、对抗训练、代码自修改、编排自优化来持续积累能力。 训练 = 上学,这些机制 = 毕业后的自学能力

相关实体

深度分析

六条路的层次结构

六种机制并非在同一平面竞争,而是在认知层次上层层递进: L1 反应层(输出自审):单次执行内的反思修正,无持久化。Critic 循环通过「无话说 = 通过」实现自洽,但知识不过夜。 L2 记忆层(持久记忆):跨越 session 积累知识。Letta Code 绑定在 Agent 层,Hermes Agent 的 Skill 提炼实现了「用中改」——知识在复用中被修正。核心突破:不改权重,改状态——LLM 参数冻结下通过外部持久化层积累能力。 L3 搜索层(进化搜索):从经验中搜索更好的配置。EvoAgentX 的三条优化线和 AgentEvolver 的 ADCA-GRPO 实现了轨迹级因果归因——不是给整条轨迹打分,而是分析每一步的因果贡献。这解决了传统 RL 的信用分配难题。 L4 生成层(对抗训练):不再依赖外部数据或 reward model。Agent0 的双 Agent 对抗动力学——Executor 变强 → Curriculum Agent 被迫加难度——产生了自我驱动的课程。零标注胜过有标注,证明精心策划的对抗压力比精心标注的数据更能激发潜力L5 反思层(自我修改):HyperAgents 突破了「改进工具」和「改进结果」的区别,实现了改进过程本身的改进。最惊人的是它自己发明了持久化记忆和性能追踪机制——没有人预设,Agent 判断需要就自己加。这是真正的元认知萌芽。 L6 系统层(编排自优化):Meta-Harness 揭示了 Big Model(理论上限)和 Big Harness(实际达到的高度)的两层天花板。消融实验证明:给完整文件系统(50%)vs 只给摘要(34%),摘要丢掉的不只是边角细节,而是做正确决策的关键决策线索

机制间的协同效应

六种机制并非互斥:主流项目都是组合使用。Hermes Agent 同时用了反思、记忆和技能进化;AgentEvolver 混合了对抗生成变体和进化搜索;Meta-Harness 的内部循环本身也包含反思和进化。这不是偶然——越高阶的机制越需要低阶机制作为基础设施

自我修改的本质:HyperAgents 的突破

autoresearch vs HyperAgents 的本质区别:autoresearch 改进的是实验结果,HyperAgents 改进的是改进过程本身。DGM-H 跨领域迁移 imp@50 达 0.630,而原版 DGM 约等于 0——差别在于前者学到的是通用的「如何改进」策略(持久化记忆、趋势分析),后者学到的是领域特定技巧。这指向一个核心洞见:最可迁移的能力是「改进能力」本身

两层天花板的工程意义

Meta-Harness 提出的 Big Model / Big Harness 框架有直接的工程含义:模型能力是分子,Harness 质量是分母。业界普遍高估分子(不断换模型),低估分母(不愿意在 Harness 工程上投入)。Meta-Harness 用 7 轮迭代把文本分类推到比 ACE 高 7.7 个百分点,context 用量只有 1/4——这是 Harness 工程的胜利。

实践启示

选型建议

从 L1 开始,不要一上来就做 L5。输出自审最容易实现(Critic 循环),持久记忆其次,进化搜索需要足够的数据积累,对抗训练需要精心的动力学设计,自我修改目前只有 Meta 的研究验证。 持久记忆是必经节点。无论最终选择哪条路,持久记忆都是构建真正 Agent 的基础设施——它解决了知识不过夜的问题。没有持久记忆,所有「学习」都只是当次执行内的优化。 Harness 工程被严重低估。Meta-Harness 的消融实验应该成为所有 Agent 开发者的警醒:给 AI 完整信息(50%)vs 摘要(34%),差距远比模型切换(Claude 3.5 → 4)带来的收益大。

实现优先级

  1. 立即可做:给 Agent 加持久记忆层(参考 Hermes Agent 的 Skill 提炼 + nudging)
  2. 短期可做:引入 Critic 循环实现输出自审,用 Pyright/ESLint 等工具做代码级验证
  3. 中期可做:如果有多 Agent 场景,引入对抗训练动力学(Agent0 范式)
  4. 长期关注:HyperAgents 的自我修改范式——尤其是「系统自己发明持久化记忆」这一现象

避免的陷阱

  • 自动化 ≠ 自我改进(autoresearch 的教训):能跑实验但 Agent 本身不变,是强大的自动化工具,不是自我改进
  • 摘要不是替代品:Meta-Harness 的消融明确证明,摘要会丢掉关键决策线索。给 AI 完整信息,不要高估自己的摘要能力
  • 单机制不够:实践中的系统需要多层机制协同,单独依赖任一机制都会遇到天花板

核心行动项

原文存档

如果你只记住一件事:权重冻结下的外部状态层(记忆 + 搜索 + 对抗 + 自修改)是 AI 部署后持续变强的主流范式。训练 = 上学,这些机制 = 毕业后的自学能力。现在是做 Agent Harness 工程的最佳时机——因为这层的回报率比换模型高得多。

第 2 来源(2026-06 新智元):OpenAI Tax AI 生产案例 + 三招具体化机制

新智元 2026-06 翻译解读 OpenAI 官方博客「Building Self-Improving Tax Agents with Codex」,把上面六条框架映射到 OpenAI 联合 Thrive Holdings / Crete 会计师联盟落地的一个报税 AI(Tax AI)的真实生产数据上。是同主题的生产实证而非平行新论。

生产数据:6 周 25%→86%,7000 份税表

  • 资深会计师单季报税时间:180 小时 → 15 小时(节省 91.7%)
  • 整个赛季处理 7000 份税表,最高准确率 97%,产能提升 约 50%
  • 字段完成准确率:6 周前 25% → 6 周后 86%(6 周翻 3.4 倍,曲线仍在加速)
  • 渐进复杂度:6 周前只能处理 W-2/1099(最简单)→ 6 周后能处理 Schedule C、Schedule A、K-1
  • 单一字段(租赁房产「公平出租天数」)从「几乎不可用」→「6 周 90% 精确率 + 90% 召回率」

三招具体化的自我改进机制(映射到六条框架)

招数 做了什么 映射到六条框架 价值点
第 1 招 会计师每次纠错 → 结构化数据(AI 预测 / 改成 / 最终用) L2 持久记忆 + L3 进化搜索的中间桥梁:纠错即训练样本 把人的反馈变成可学习的样本
第 2 招 全链路 trace(OCR → 提取 → 引用 → 映射 → 纠正 → 报税) Meta-Harness 揭示的「给完整信息 50% vs 摘要 34%」的工程化:留痕即决策线索 错误可定位到具体节点(OCR 错 / 映射 gap / 表格不支持)
第 3 招 用 Codex 把反复出现的错误 pattern 打包成"有明确成功标准"的工程任务 → Codex 自我定位 → 写修复 → 跑 targeted eval → 跑回归 → 生成 PR L5 自我修改 + L6 编排自优化:Codex 即 Meta-Harness 的 production 版 模糊证据时路由回产品团队(避免幻觉塞进流程)

关键洞见:三招都不是新概念(六条框架里都有),但组合方式是 OpenAI 第一次公开的"在生产环境跑通"的范例——前两招把数据 + 决策线索沉淀下来(基础设施层),第三招把 Codex 接到这条流水线上(执行层)。这就是 Meta-Harness 论文里说"Big Model 决定上限,Big Harness 决定实际达到高度"在生产中的具象化。

上下文:OpenAI 2026 上半年的自我改进暗线

  • 2 月:GPT-5.3-Codex 参与自身构建(OpenAI 官方原话:"我们第一个在创造自身过程中发挥了关键作用的模型")— 模型层
  • 4 月:开源 Symphony(Codex + Linear 编排层),单工程师可并行 3-5 个 Codex 会话,部分团队产出翻倍 — 工程层
  • 4 月:ICLR 2026 在里约办「AI 递归自我改进」workshop — 学术层
  • 5 月:MOSS 论文(arXiv 2605.22794),在 OpenClaw 平台上让 Agent 改写自己源码,4 任务平均 0.25 → 0.61 — 源码层

新智元编辑的判断:「模型智能是起点,系统智能才是终局」——OpenAI 用 Codex 驱动的 eval 闭环让 Agent 在生产中自己修 bug,Anthropic 用 Memory Files + Dreams 让 Agent 在会话间自己整理经验,方法不同,赌的是同一件事——Agent 能不能从一次性工具变成越用越强的系统

商业信号:Thrive Holdings 拿全部 IP

Tax AI 的全部知识产权归 Thrive Holdings(Joshua Kushner 创办,OpenAI 最大投资方之一),OpenAI 派了 6 个月工程师、给模型、给深度集成,最后连 IP 都没留——在硅谷大厂 AI 合作里极其罕见。 - OpenAI 图的不是报税产品 IP,而是「可复制的自我改进方法论」——一个生产验证的飞轮范式 - Thrive Holdings 已经在把同样闭环复制到 记账、审计、IT 运维 - 这与 Foundation Capital agent era 中"infra 厂商抢应用层 IP"的趋势一致,但 OpenAI 反向操作:放弃应用层 IP 换生产方法论——是更上游的卡位

与现有六条框架的对应与扩展

OpenAI 元素 对应六条框架 本文新增洞见
GPT-5.3-Codex 参与自身构建 L5 自我修改 模型权重未动,Codex 用早期版本调自己的训练流程——是自我修改的训练基础设施而非模型本身
Symphony 编排层 L6 编排自优化 把"管 3-5 个 Agent 的工程师注意力"作为新瓶颈的命名(人类注意力 = Agent 产能的天花板
Tax AI 三招 L2 记忆 + L3 搜索 + L5/L6 编排 第一次把六条框架的生产落地路径完整跑通——前两招建基础设施,第三招连 Codex 闭环
MOSS 源码级自改写 L5 自我修改(极端形态) 突破"改 prompt/workflow"边界,直接改 Agent 自己的代码——是 L5 的源码实现
Conway / Memory Files / Dreams L2 持久记忆 + 异步整合 Anthropic 路线:用文件系统 + 异步梦境做 Agent 永久大脑

6 个机制 → 11 个具体项目/案例映射。新智元文章的最大价值不是新机制,而是给六条框架的每个 L 都举出 2026 年的生产案例 + 量化数据——这是六条框架从「理论分类」到「生产验证」的关键一步。

实践启示:从框架到生产

  • L2+L3+L5+L6 的"基础设施三件套"是落地前提:先建记忆层(纠错即样本)、再建决策线索层(全链路 trace)、最后接 Codex 闭环——顺序不能颠倒
  • 模糊证据路由回产品团队是抗幻觉的关键设计:Codex 不是万能的,不知道就是不知道,硬塞流程会污染训练集
  • 3-5 个 Agent 的工程师注意力上限是工程现实——Symphony 的"管工作不管 Agent"思路值得借鉴
  • 6 周 25%→86% 的曲线证明:自我改进不是匀速,而是指数加速(更复杂的问题被解决 → 每份省下的人工时间越多 → 反哺训练 → 处理更复杂的问题)
  • 生产方法论 > 应用层 IP:OpenAI 放弃 Tax AI IP 换范式,是把"自我改进工程"作为下一代护城河,与 Harness Engineering 长程任务 中"Big Harness > Big Model"的判断完全一致

第 2 原文存档