两篇Harness论文：微软M⋆记忆进化 + 谷歌AutoHarness动作约束¶

Ch01.567 两篇Harness论文：微软M⋆记忆进化 + 谷歌AutoHarness动作约束¶

📊 Level ⭐⭐ | 6.3KB | entities/two-harness-papers-microsoft-google.md

两篇Harness论文：微软M⋆记忆进化 + 谷歌AutoHarness动作约束¶

AI研究风向变了：从"如何让模型更聪明"转向"如何给Agent配一个更合适的Harness框架"。

一、M⋆：每个任务都值得拥有专属的记忆Harness¶

当前LLM Agent的记忆系统采用"一刀切"设计——对话Agent用语义检索、代码Agent用技能系统、专业领域用结构化数据库。但为一个领域优化的记忆设计无法迁移到其他领域。

对话任务（LoCoMo）：实体关系图追踪人物关系

深度分析¶

1. 记忆结构具有强任务特异性，跨任务迁移甚至有害。 M⋆在 LoCoMo、ALFWorld、HealthBench、PRBench 四个不同 Benchmark 上进化出截然不同的记忆结构——t-SNE 可视化显示各任务收敛于不同结构聚类（LLM-Centric、Semantic Search、Hybrid Retrieval 等）。更关键的是，跨任务迁移实验证明将 A 任务进化出的记忆程序用于 B 任务，表现甚至不如通用基线。这说明记忆结构必须与任务协同优化，无法通用化。

2. 可执行程序表示解锁记忆进化空间。 M⋆将记忆 Harness 表示为 Python 记忆程序（Schema + Logic + Instruction），而非静态数据结构。反射式代码进化流程通过验证循环采样→编码 Agent 生成补丁→约束检查与自动修复，实现记忆程序的自动化迭代优化。这种"程序即记忆"的表示方式让记忆系统可以被进化优化，而非手工设计。

3. 专用 Harness 可以让小模型击败大模型。 AutoHarness 实验显示 Gemini-2.5-Flash（较小）+ Harness 对阵 Gemini-2.5-Pro（较大）取得 9/16 胜率，总体胜率 56.3% vs 38.2%。这与"缩放定律越大越好"的直觉相悖——专用框架的杠杆效应可以弥补模型规模差距。更极端的是 Harness-as-Policy 模式：16 个 1P 游戏取得 0.870 平均奖励，超越 GPT-5.2-High（0.844），且测试时零 LLM 调用成本。

4. 动作约束是代码生成系统和游戏 Agent 的核心失败原因。 在 Kaggle GameArena 国际象棋比赛中，78% 的 Gemini-2.5-Flash 失败都源于非法移动。这一数字揭示了一个被忽视的瓶颈：当前 LLM 在严格定义环境中的动作合法性极差。传统方法需要为每个游戏手工编写约束代码，既费力又容易出错，AutoHarness 的树搜索+Thompson 采样方法实现了自动化。

5. AI 研究风向从"模型中心"转向"Harness 框架中心"。 两篇论文共同指向一个趋势：模型能力提升的边际收益在递减，而为模型配置合适的 Harness 框架带来的收益越来越显著。M⋆证明记忆结构需要任务协同优化，AutoHarness 证明动作约束可以弥补模型能力不足。这不是某篇论文的偶然发现，而是整个领域正在发生的范式转移。

实践启示¶

采用"M⋆思维"为不同任务类型配置专用记忆 Harness。 不要用通用记忆系统处理所有任务。在项目早期就识别出核心任务类型（对话、代码、具身智能、专业查询等），为每类任务设计专用的记忆结构和检索策略。通用记忆系统在特定任务上的表现必然不如专用设计。
建立可进化的 Harness 程序库积累最佳实践。 M⋆的开源方法表明记忆程序可以被积累和复用。团队应该建立内部 Harness 库，记录每类任务的最优记忆程序配置（Schema、Logic、Instruction），而非每次重新设计。新项目从库中选取相近任务类型的程序作为起点，通过进化微调优化。
代码生成和游戏类 Agent 必须集成 Harness 动作约束。 如果你的 Agent 在严格定义环境中失败率较高，第一反应应该是检查是否缺少动作合法性约束，而非尝试更强的模型。AutoHarness 的三种模式（action-filter、action-verifier、policy）中，action-verifier 是大多数场景的最佳起点。
在 AutoHarness 的树搜索范式中探索其他严格约束场景。 Thompson 采样引导的树搜索不只适用于游戏环境。任何有明确合法动作空间、可以返回奖励信号的严格定义环境（代码编译器、安全策略、金融交易等）都可以用这一框架自动合成 Harness。
优先测试 Harness-as-Policy 模式以降低推理成本。 当任务稳定且动作空间可枚举时，Harness-as-Policy 可以在测试时完全消除 LLM 调用，成本接近零且性能更高。这对于需要高频率调用、延迟敏感的生产环境尤其有价值。
在 Agent 框架选型时关注任务特异性和框架效率，而非单纯模型规模。 评估标准应该包括：框架是否支持可进化的 Harness、是否能配置专用记忆结构、动作约束机制是否完善。以"小模型 + 专用 Harness"能击败"大模型 + 通用框架"为评估目标。

→ 原文存档

两篇Harness论文：微软M⋆记忆进化 + 谷歌AutoHarness动作约束¶

Ch01.567 两篇Harness论文：微软M⋆记忆进化 + 谷歌AutoHarness动作约束¶

两篇Harness论文：微软M⋆记忆进化 + 谷歌AutoHarness动作约束¶

一、M⋆：每个任务都值得拥有专属的记忆Harness¶

相关实体¶

深度分析¶

实践启示¶