清华自进化Skill双星:EmbodiSkill + SkillEvolver¶
Ch01.605 清华自进化Skill双星:EmbodiSkill + SkillEvolver¶
📊 Level ⭐⭐ | 5.6KB |
entities/tsinghua-self-evolving-skill-agent.md
核心问题¶
传统 Agent 依赖静态技能手册——遇到手册未覆盖的新情况就犯错,且每次犯同一个错,只能不断手动更新手册。核心矛盾:Agent 能否自己识别技能缺陷并自动修复?
EmbodiSkill:诊断层——先判断"哪里"出了问题¶
四种反思类型(关键创新)¶
Agent 失败后先判断问题根源,而不是无脑改技能 :
| 类型 | 判断问题 | 动作 |
|---|---|---|
| 执行失败反思 | 操作步骤本身有问题 | 更新操作步骤 |
| 规范失败反思 | 注意事项/踩坑记录过时 | 更新注意事项 |
| 理解失败反思 | Agent 误解了操作意图 | 重写操作意图描述 |
| 组合失败反思 | 操作步骤和意图衔接有问题 | 重写两者衔接 |
消融实验:去掉任何一种反思都会导致性能明显下降。
技能结构¶
技能组织成 {意图} + {操作} + {注意事项} 三元组 :
- 意图(Intent):核心操作目标
- 操作(Operation):具体执行步骤
- 注意事项(Caveats):踩坑记录和边界条件
"执行→反思→更新"螺旋¶
每次反思后,Agent 更新技能的对应部分,进入下一轮螺旋上升迭代 。
性能¶
- 超过 GPT-5.2 直接执行(显著)
- 超过 G-Memory(显著)
- 比技能无感知进化方法相对提升(显著)
SkillEvolver:生成层——自动生成技能改进方案¶
核心定位¶
SkillEvolver 本身是一个元技能(Meta-Skill)——管理其他技能进化的技能 。
方案多样性(Population-based)¶
每次迭代生成多个候选改进方案(激进/保守/不同路径),避免陷入"每次用同一个方式失败"的困境 。
轨迹对比 + 机械检查¶
- 轨迹对比:成功轨迹 vs 失败轨迹,从差异中提炼改进点
- Validator:执行 9 项机械检查(格式完整性、一致性、可执行性等),拦截低质量更新
关键特性¶
- 更新的是技能的参数化表示,不是模型权重
- Skill-agnostic:与模型无关,任何 Agent 都能用
深度分析¶
诊断层 vs 生成层的分工¶
EmbodiSkill 和 SkillEvolver 代表自进化系统的两个必要层次 :
- EmbodiSkill = 诊断:知道技能哪里出了问题(精确归因)
- SkillEvolver = 修复:自动生成改进方案并验证(自动修复)
没有 EmbodiSkill,SkillEvolver 的候选方案是盲目的;没有 SkillEvolver,EmbodiSkill 的诊断结论无法自动落地。
为什么是"技能"而不是"模型"¶
两篇论文都选择更新技能的参数化表示而非模型权重,原因在于 : 1. 可解释性:技能文档人类可读,可审查、可版本控制 2. 可迁移性:同一技能可在不同 Agent 间复用 3. 可控性:更新技能不会影响模型在其他任务上的表现
与 OpenAI Codex /goal 的互补¶
Codex /goal 解决的是目标状态机 + 完成审计(外部验证层),而 EmbodiSkill/SkillEvolver 解决的是技能自我诊断和进化(内部进化层)。两者可以结合:/goal 提供目标状态管理,SkillEvolver 提供技能进化引擎。
实践启示¶
1. 让技能具备自我诊断能力。 EmbodiSkill 的四种反思类型提供了一个可操作的技能诊断框架:失败后先归因(手册错了 vs 没按手册做 vs 理解错了 vs 衔接问题),再针对性修复。
2. 元技能是 Agent 系统化的方向。 SkillEvolver 作为管理其他技能的技能,证明了"让 Agent 学习如何学习"的可行性。这种元认知设计是 Agent 从"工具"到"员工"的关键一步。
3. 候选多样性是突破局部最优的机制。 Population-based 方法(多个候选方案)比单一方案搜索更能避免陷入"每次用同一个方式失败"的困境。在实际 Agent 系统中,这个思路可以迁移到任务重规划、Prompt 调优等场景。
4. 机械检查是自动化的安全阀。 SkillEvolver 的 Validator 执行 9 项机械检查拦截低质量更新,说明自动化进化必须配备质量门禁——纯模型自评不足以保证更新质量。
参考链接¶
- EmbodiSkill: https://arxiv.org/abs/2605.10332
- SkillEvolver: https://arxiv.org/abs/2605.10500