Agent Skills 系统性综述:表示→获取→检索→进化¶
Ch04.340 Agent Skills 系统性综述:表示→获取→检索→进化¶
📊 Level ⭐⭐ | 7.4KB |
entities/agent-skills-comprehensive-survey.md
核心问题¶
你让 AI Agent 帮你写一段代码,它做得很好。第二天你让它做一件几乎一样的事,它又从头推理一遍——卡住、报错、重试。就好像它完全没做过上一次。这不是模型不够聪明。而是它缺了一种人类天然具备的能力:把重复经验变成可复用的肌肉记忆。
技能是什么:S = (M, R, C) 三元组¶
论文定义:技能是一个三元组 S = (M, R, C) :
- M(Main instruction):主指令文档,告诉 Agent 怎么做
- R(Resources):辅助资源(模板、脚本、参考资料等)
- C(Condition):触发条件,什么时候该用这个技能 See also Harness Engineering
三种技能类型¶
| 类型 | 特点 | 代表 |
|---|---|---|
| 纯文本型 | 参考文档、示例、模板、评分标准。可读性强,执行确定性弱 | CLAUDE.md 纯文字规则 |
| 纯代码型 | 可执行脚本、函数、封装。执行可靠,维护成本高 | MCP Server |
| 混合型 | 文本 + 代码。兼顾可读性和可执行性,一致性维护最复杂 | Claude Code 技能系统(CLAUDE.md + 辅助脚本)、Cursor 规则文件 |
技能获取:四条路径(不互斥,最强技能库是组合结果)¶
1. 人类专家手写(精确但慢)¶
医生写诊疗流程、工程师写排障手册、策略专家写审核标准。精度最高,扩展性差。通常作为"种子层",后续交给自动化补充。
2. 从经验中提炼(目前最主流)¶
从成功轨迹中提取可复用操作模式 :
- Voyager:Minecraft 中把成功操作序列保存成可执行代码技能
- Reflexion:从失败中提炼纠错规则
- ExpeL:把多次成功/失败的教训压缩成高层经验教训
操作包括:筛选、抽象压缩、记忆重组、流程打包四个环节。
3. 遇到新任务时即时构建¶
让 LLM 直接生成候选技能,执行后根据结果决定保留/修改/丢弃 。代表:CREATOR、ToolMakers。
4. 从外部资料中挖掘¶
从文档、代码仓库、Kaggle 竞赛方案、API 文档等外部语料提取可复用操作流程。适合冷启动——Agent 还没有自己的经验,但从别人经验中学习。
技能检索:召回率 ≠ 执行成功率¶
当技能库扩展到 70 万+ 技能(SkillsMP)时,核心问题从"有没有这个技能"变成"能不能在正确时刻找到并激活正确的技能"。
关键警告:语义上相关的技能,可能在当前环境下根本跑不起来。检索召回率 ≠ 执行成功率。
四类检索策略¶
| 策略 | 原理 | 局限性 |
|---|---|---|
| 语义向量检索 | 任务描述和技能描述映射到同一向量空间,找最近邻 | 语义近 ≠ 适用 |
| 关键词检索 | 按技能名称、元数据精确匹配 | 简单但不可靠,适合补充过滤 |
| 生成式检索 | 让模型直接生成技能 ID | 融入推理过程,但覆盖率和正确性难保证 |
| 结构化检索 | 利用技能库层级结构或依赖关系缩小搜索范围 | 适合大规模有组织库 |
技能进化:五环节生命周期¶
1. 修订(Revision)¶
执行失败后修改技能本身内容 。Memento-Skills:执行后归因失败 → 重写技能指令 → 通过单元测试决定是否保留修改。
2. 验证(Validation)¶
改了之后必须通过测试才能进入正式技能库 :
- SkillWeaver:用自动生成的测试用例验证 Web Agent 的 API 技能
- PSN:引入"成熟度门槛"和回滚验证机制
3. 策略耦合(Policy Coupling)¶
技能库成为策略训练的一部分 。SkillRL:在强化学习过程中同时优化策略和技能库——技能库不再是静态上下文,而是可训练参数。
4. 仓库级进化(Repository Evolution)¶
从单个技能进化扩展到整个技能仓库治理 。SkillClaw:多个用户的执行轨迹汇聚 → 验证后同步更新到共享仓库。
5. 运行时治理(Runtime Governance)¶
进化过的技能可能可执行但不安全 。"投毒技能"风险:第三方技能文档可能隐藏恶意逻辑,被 Agent 当作可信操作指南执行。
技能生态系统¶
- SkillNet:30 万+ 技能
- ClawHub:4 万+ 技能
- SkillsMP:70 万+ 技能
技能正在成为独立的基础设施层,而非附属在某个 Agent 产品里的次要功能。
深度分析¶
模型是大脑,技能是肌肉记忆¶
这篇综述的核心观点 :Agent 的下一个关键竞争力不是模型更强,而是技能管理能力更强。大脑再聪明,没有肌肉记忆也快不起来。
技能生命周期管理比技能本身更重要¶
技能不是存了就完,需要持续检索、验证、进化、治理。这个生命周期视角直接影响了产品架构——需要的不只是技能存储,还需要检索系统、测试框架、版本管理和安全审核。
与清华 SkillEvolver/EmbodiSkill 的关系¶
清华的 SkillEvolver 和 EmbodiSkill 分别对应进化五环节中的修订+验证(SkillEvolver 的 Validator 机制)和修订前的归因(EmbodiSkill 的四种反思类型)。这篇综述把它们放在了更大的技能生命周期框架中。
实践启示¶
1. 构建技能库时从"种子层"开始。 人类专家手写的技能作为种子,保证核心领域精确性,后续靠自动化补充规模。
2. 检索系统需要同时考虑召回率和执行成功率。 语义相似度只是第一层,还需要对技能在目标环境中的可执行性做验证。
3. 技能进化必须配备质量门禁。 验证(单元测试/成熟度门槛)是防止"投毒技能"的必要机制。
4. 关注技能库的平台化机会。 技能正在成为独立基础设施层,SkillNet/ClawHub/SkillsMP 已经验证了规模需求。
参考链接¶
- 论文:https://arxiv.org/abs/2605.07358v1
- GitHub:https://github.com/JayLZhou/Awesome-Agent-Skills