清华自进化Skill双星：EmbodiSkill + SkillEvolver¶

Ch01.605 清华自进化Skill双星：EmbodiSkill + SkillEvolver¶

📊 Level ⭐⭐ | 5.6KB | entities/tsinghua-self-evolving-skill-agent.md

传统 Agent 依赖静态技能手册——遇到手册未覆盖的新情况就犯错，且每次犯同一个错，只能不断手动更新手册。核心矛盾：Agent 能否自己识别技能缺陷并自动修复？

Agent 失败后先判断问题根源，而不是无脑改技能：

消融实验：去掉任何一种反思都会导致性能明显下降。

技能组织成 {意图} + {操作} + {注意事项} 三元组：

每次反思后，Agent 更新技能的对应部分，进入下一轮螺旋上升迭代。

SkillEvolver 本身是一个元技能（Meta-Skill）——管理其他技能进化的技能。

每次迭代生成多个候选改进方案（激进/保守/不同路径），避免陷入"每次用同一个方式失败"的困境。

EmbodiSkill 和 SkillEvolver 代表自进化系统的两个必要层次：

没有 EmbodiSkill，SkillEvolver 的候选方案是盲目的；没有 SkillEvolver，EmbodiSkill 的诊断结论无法自动落地。

两篇论文都选择更新技能的参数化表示而非模型权重，原因在于： 1. 可解释性：技能文档人类可读，可审查、可版本控制 2. 可迁移性：同一技能可在不同 Agent 间复用 3. 可控性：更新技能不会影响模型在其他任务上的表现

Codex /goal 解决的是目标状态机 + 完成审计（外部验证层），而 EmbodiSkill/SkillEvolver 解决的是技能自我诊断和进化（内部进化层）。两者可以结合：/goal 提供目标状态管理，SkillEvolver 提供技能进化引擎。

1. 让技能具备自我诊断能力。 EmbodiSkill 的四种反思类型提供了一个可操作的技能诊断框架：失败后先归因（手册错了 vs 没按手册做 vs 理解错了 vs 衔接问题），再针对性修复。

2. 元技能是 Agent 系统化的方向。 SkillEvolver 作为管理其他技能的技能，证明了"让 Agent 学习如何学习"的可行性。这种元认知设计是 Agent 从"工具"到"员工"的关键一步。

3. 候选多样性是突破局部最优的机制。 Population-based 方法（多个候选方案）比单一方案搜索更能避免陷入"每次用同一个方式失败"的困境。在实际 Agent 系统中，这个思路可以迁移到任务重规划、Prompt 调优等场景。

4. 机械检查是自动化的安全阀。 SkillEvolver 的 Validator 执行 9 项机械检查拦截低质量更新，说明自动化进化必须配备质量门禁——纯模型自评不足以保证更新质量。