AutoResearch 分类法:四种 Agent 循环设计与四维分析框架¶
Ch04.106 AutoResearch 分类法:四种 Agent 循环设计与四维分析框架¶
📊 Level ⭐⭐ | 15.4KB |
entities/autoresearch-taxonomy-chengzihong-chengzihong.md
AutoResearch 分类法:四种 Agent 循环设计与四维分析框架¶
→ 原文存档
摘要¶
"白白小白"(陈子弘)系统性整理 AutoResearch(自动机器学习研究)领域的四种主流 Agent 循环设计:线性 Keep-or-Discard、树搜索、遗传进化池、异步多 Agent 进化。文章核心价值在于给出一个通用四维分析框架(搜索拓扑、反馈信号、记忆架构、决策主体),可解构任何新的 AutoResearch 方法并直接评估其优劣势。当基模固定时,Agent 循环设计就是研究效率竞争的本质——这正是 Yann Dubois 强调的"AutoResearch = 基模 + Agent Loop"。
核心要点¶
- AutoResearch = 基模 + Agent Loop:基模固定时,方法循环设计是研究效率竞争的本质。
- 四种循环设计:
- 线性 Keep-or-Discard(Karpathy autoresearch):最简单,固定时间预算,无并行能力。
- 树搜索(AIDE、AI Scientist v2):节点=完整方案,边=代码变换;可回溯、可并行。
- 遗传进化池(FunSearch、AlphaEvolve、GEPA):种群演化,无严格父子拓扑。
- 异步多 Agent 进化(CORAL):多个独立 Agent 通过共享持久记忆间接协调。
- 四维分析框架:搜索拓扑、反馈信号、记忆架构、决策主体——任何 AutoResearch 方法都可用此框架解构。
- UCB 平衡利用与探索:在树搜索中,UCB(node) = 平均收益 + C × sqrt(ln(总访问次数) / 该节点访问次数) 解决"贪婪策略导致其他子树被饿死"的问题。
- GEPA 的关键创新:用文本反馈取代标量奖励驱动突变——LLM 阅读完整执行轨迹后归因原因、提出针对性修改。
- CORAL 的去中心化:通过文件系统实现共享记忆(attempts/、notes/、skills/),无显式通信协议——Agent 通过符号链接按需读取避免上下文过载。
深度分析¶
一、为什么"Agent Loop 设计"是研究效率竞争的本质¶
基模的差距在缩小,但研究效率的差距在扩大——这是 AutoResearch 领域的核心判断。当所有人都用相似基模(GPT-5.4、Claude Opus 4.6、Gemini Pro)时,区别在于 Agent 如何用它们:
- 同样的 GPT-5.4 在 Karpathy autoresearch(线性循环)下 vs AIDE(树搜索)下产出的论文质量差异巨大
- 同样的 Claude Opus 在 AI Scientist v2(树搜索 + Agent 自主选择)下 vs CORAL(异步多 Agent)下,产出效率完全不同
这呼应了 Nathan 评测 GPT 5.4 时的核心论点:模型权重之外的"系统"才是真正的差异化来源。Agent Loop 就是研究的"系统"。
二、四种循环的工程取舍¶
2.1 线性 Keep-or-Discard¶
代表:Karpathy autoresearch
核心约束:固定 5 分钟时间预算,强制思考"什么改动能在极短训练后产生可测量收益"。
优势: - 极简(3 个文件 + Markdown 指令) - 自主执行,无人工干预
局限: - 无法并行探索多个方向 - 失败实验的经验未结构化保存(可能反复尝试同一 idea 死循环) - 短时间约束易陷入局部最优 - 仅看最终标量指标,可解释性不足
2.2 树搜索¶
代表:AIDE、AI Scientist v2
核心数据结构:树中每个节点是完整可独立运行的 Python 脚本(从数据加载到模型训练到输出指标的完整 ML pipeline),边是三种算子:
| 算子 | 输入 | 输出 | 关键约束 |
|---|---|---|---|
| Draft | 任务描述 + 已有方案摘要 + "不要重复"指令 | 全新方案 | 每个 draft 用不同方向(XGBoost / NN / feature engineering) |
| Debug | 完整 buggy 代码 + 终端输出 + traceback | 修复后代码 | 修复后仍可继续 debug 直到深度上限 |
| Improve | 当前方案代码 + 成功方案摘要 | atomic improvement | 每次只改一个东西(只换特征工程或只换超参数) |
关键设计哲学:"atomic improvement"——每次只改一个东西,可清楚归因效果。
选择策略: - AIDE 贪婪策略:总是选当前最优节点做 improve → 收敛快但易陷入局部最优(其他 draft 被"饿死") - MCTS/UCB 策略:用 Upper Confidence Bound 公式平衡利用与探索 - AI Scientist v2 完全去公式化:让 Agent 自主判断"现在应该深耕哪个方向"
2.3 遗传进化池¶
代表:FunSearch(DeepMind, 2023)、AlphaEvolve(2024)、GEPA(2025)
核心思想:维护候选种群,选择优秀个体,施加 LLM 突变,评估后代适应度,逐代推动种群向更优方向进化。
关键差异(vs 树搜索):进化池中的个体之间没有严格的父子拓扑——任何个体都可被选为突变起点,多个个体可被交叉组合。
FunSearch 创新:使用 MAP-Elites 算法,不只保留最优个体,而是在多个行为维度的每个 niche 中都保留最优个体,从而维持种群的多样性。
GEPA 革命:用文本反馈取代标量奖励驱动突变——系统先对当前候选进行 rollout,记录完整的执行轨迹(推理过程、工具调用、输出),然后让 LLM 阅读这些轨迹来诊断问题、归因原因、提出针对性修改。这与 Yann 提到"RL 的归因难题"形成对照:GEPA 不通过 RL 自动归因,而是用 LLM 阅读 + 推理进行归因。
2.4 异步多 Agent 进化¶
代表:CORAL(2026)
核心思想:多个 Agent 各自独立运行完整的搜索循环,通过共享持久记忆间接协调,无需任何显式通信协议。
共享记忆结构(文件系统实现): - attempts/:所有历史评估记录(JSON 格式,按 commit hash 索引) - notes/:观察和反思(Markdown 格式,支持合并和分类) - skills/:可复用的过程和工具(自然语言描述 + 可执行脚本)
关键设计:每个 Agent 通过符号链接访问共享记忆,按需读取以避免上下文过载,且 Agent 可以主动整理和重组记忆结构。
这与 多 Agent 编排的本质区别:CORAL 没有中央协调器——所有协调通过共享文件系统隐式完成,更接近"分布式系统"而非"主从架构"。
三、四维分析框架的实战价值¶
任何 AutoResearch 方法都可用此框架解构:
| 维度 | 决定什么 | 极端选择 | 工程含义 |
|---|---|---|---|
| 搜索拓扑 | 系统如何在解空间中行走 | 线性 / 树 / 池 / 异步 | 决定并行能力、回溯能力、局部最优风险 |
| 反馈信号 | 系统从每次实验中学到多少 | 标量 / 结构化 / 文本 | 决定下一次决策质量、信息密度 |
| 记忆架构 | 系统能否从历史中学习 | 无 / Git / 解树 / 文件系统 / 知识图谱 | 决定跨实验的知识复利、上下文管理 |
| 决策主体 | 谁在控制搜索过程 | 人类硬编码 / Agent 自主 | 决定系统的自适应能力、人类工作量 |
实战示例——用框架评估 GEPA: - 搜索拓扑:池(无严格父子) - 反馈信号:文本(执行轨迹) - 记忆架构:解树 / 文件系统(取决于实现) - 决策主体:Agent 自主(用 LLM 阅读轨迹诊断)
优势:文本反馈比标量反馈信息密度高得多,能传达"哪个模块出了问题" 劣势:处理文本反馈的计算成本也高得多,且需要 LLM 能可靠归因(不一定)
四、与"传统 AutoML"的本质区别¶
传统 AutoML(Auto-sklearn、Optuna、FLAML)主要在固定特征工程 + 模型选择的组合空间内搜索,调优超参数。AutoResearch 的本质区别在于:
- 解空间维度更高:不仅调模型超参,还生成新的 feature engineering、新的模型架构、新的训练流程
- LLM 作为算子:传统 AutoML 用贝叶斯优化/进化算法生成候选;AutoResearch 用 LLM 生成候选(语义级别的代码生成)
- 反馈维度更丰富:传统 AutoML 仅用标量指标;AutoResearch 可用执行轨迹、文本反馈
- 研究本身是产物:传统 AutoML 输出模型;AutoResearch 输出可发表的研究(论文 + 代码 + 实验数据)
五、循环设计的"复杂度 vs 性能"权衡¶
| 循环类型 | 工程复杂度 | 适用场景 | 典型场景 |
|---|---|---|---|
| 线性 | 极低 | 单方向研究、简单任务 | 单变量 ablation |
| 树搜索 | 中 | 多方向对比、需要回溯 | ML 竞赛、新模型探索 |
| 遗传进化池 | 中高 | 多样性优先、长期演化 | 数学发现、算法优化 |
| 异步多 Agent | 高 | 大规模并行、长时间运行 | 大型研究项目、跨团队协作 |
实践启示¶
- 基模趋同时,差异化在 Agent Loop:当所有团队用相似基模时,研究效率的差异完全由 Agent 循环设计决定。
- 新 AutoResearch 方法出现时,用四维框架快速评估:在选择/实现新方法前,先用"搜索拓扑/反馈信号/记忆架构/决策主体"四维解构,避免盲目跟随。
- 从线性循环起步,按需升级:MVP 阶段用 Karpathy autoresearch 的线性循环;遇到需要并行/回溯时升级到 AIDE 树搜索;遇到需要多样性时升级到遗传进化池;遇到需要长时间大规模并行时升级到 CORAL。
- "Atomic improvement"是工程纪律:每次只改一个东西,可清楚归因效果——这是 AIDE 的核心工程哲学,应作为所有 AutoResearch 实验的默认纪律。
- 文本反馈 > 标量反馈(当 LLM 归因能力可用时):GEPA 表明用 LLM 阅读执行轨迹归因,比用标量奖励更有效。但前提是 LLM 归因能力本身靠谱。
- 共享记忆是异步多 Agent 的关键基础设施:CORAL 的文件系统实现(attempts/notes/skills)可作为企业内部多 Agent 协作的参考架构。
- UCB 公式解决"贪婪导致的早期饿死"问题:在树搜索中,如果担心某些 draft 的子树被过早忽略,使用 UCB 公式引入"好奇心加分"。
相关实体¶
- Yann Dubois Openai Post Training Matt Turck Interview
- What Comes Next With Open Models
- Harness Engineering
- Multi-Agent Orchestration
- Monte Carlo Tree Search
- AutoML
- Atomic Experiment Design
- MOC