阿里SkillClaw：让 Agent 技能在真实使用中集体进化¶

Ch04.441 阿里SkillClaw：让 Agent 技能在真实使用中集体进化¶

📊 Level ⭐⭐ | 4.7KB | entities/skillclaw-alibaba-paperagent.md

阿里SkillClaw：让 Agent 技能在真实使用中集体进化¶

原文：https://mp.weixin.qq.com/s/NunzqJYxpt5Gc_NmpL1U1Q 来源：PaperAgent | 2026-04-22 论文：https://arxiv.org/abs/2604.08377 代码：https://github.com/AMAP-ML/SkillClaw

深度分析¶

1. 技能静态性是 Agent 落地的核心瓶颈。 当前大多数 Agent 系统在部署后技能便冻结不变，但真实使用中暴露的问题（参数格式错误、工具调用顺序错误、环境配置缺失）只能通过多轮试错被当前会话解决，无法固化为系统层面的知识。SkillClaw 首次在系统层面引入了"集体进化闭环"，将用户交互视为技能改进的信号源，而非噪音。

2. 聚合多用户自然消融实验是发现技能改进方向的关键方法。 单个用户的数据无法区分"通用改进"和"特例修复"，但当不同用户在真实场景下调用同一技能时，成功/失败模式构成对技能行为边界的自然消融实验。社交交互在 Day 2 即达稳态，而安全对齐提升较晚，说明不同类型的技能改进有不同的收敛速度。

3. Evolver 的三操作设计（Refine/Create/Skip）防止了过度优化。 通过始终联合分析成功和失败会话，成功会话定义"不变量"（必须保留的有效部分），失败会话定义"目标"（需要修正的具体行为），SkillClaw 有效防止了"修一个 bug 引入三个新 bug"的常见失败模式。

4. 夜间验证机制保证了单调部署行为。 候选技能在真实环境中与旧技能 s 并行执行，仅当 s' 确实优于 s 时才接受部署。这保证了已部署的技能池不会随时间退化，是系统在开放环境中持续可信运行的关键保障。

5. 技能进化对程序性知识缺失类任务效果显著，对细微推理类任务效果有限。 实验数据显示基础提取提升 +47.8%、保存报告提升 +71.7%，但截止日期解析仅提升 +6.9%。这说明当失败源于缺失或不正确的程序性知识时，技能进化特别有效。

实践启示¶

1. 在 Agent 系统中引入会话轨迹采集机制。 将每个交互会话转化为结构化轨迹（用户提示 → Agent 动作 → 环境反馈 → 最终响应），并按引用的技能分组存储，为后续的技能进化提供数据基础。G(s) 代表调用技能 s 的会话，G(∅) 代表未调用任何技能的会话（可用于发现缺失的可复用流程）。

2. 建立"夜间批进化 + 灰度验证"的技能迭代流程。 白天收集用户交互数据，夜间基于失败模式对技能进行 Refine/Create/Skip 操作，次日将候选技能在真实环境中与旧技能并行验证后择优部署。这套流程与机器学习的在线学习 + 验证集评估范式高度一致。

3. 区分"不变量"和"待改进目标"，避免过度优化。 在每次技能迭代时，显式地从成功会话中提取必须保留的有效部分（不变量），从失败会话中提取具体需要修正的行为（目标），两者联合分析后再决定进化方向。

4. 针对不同类型的技能改进设置不同的收敛预期。 社交交互类任务收敛快（第 2 天即达稳态），安全对齐类任务收敛慢，需要更长的多轮循环才能看到稳定提升。在资源分配和排期规划时，应对不同类型的技能给予不同的进化周期。

5. 优先将技能进化应用于"程序性知识缺失"而非"细微推理"类场景。 当 Agent 失败源于工具调用顺序错误、参数格式错误等程序性问题时，技能进化收益最大；如果失败源于复杂的多步推理或需要领域专业知识细微判断，则不宜依赖程序性更新来解决。

阿里SkillClaw：让 Agent 技能在真实使用中集体进化¶

Ch04.441 阿里SkillClaw：让 Agent 技能在真实使用中集体进化¶

阿里SkillClaw：让 Agent 技能在真实使用中集体进化¶

相关实体¶

深度分析¶

实践启示¶