Agent Skills 系统性综述：表示→获取→检索→进化¶

Ch04.340 Agent Skills 系统性综述：表示→获取→检索→进化¶

📊 Level ⭐⭐ | 7.4KB | entities/agent-skills-comprehensive-survey.md

核心问题¶

你让 AI Agent 帮你写一段代码，它做得很好。第二天你让它做一件几乎一样的事，它又从头推理一遍——卡住、报错、重试。就好像它完全没做过上一次。这不是模型不够聪明。而是它缺了一种人类天然具备的能力：把重复经验变成可复用的肌肉记忆。

技能是什么：S = (M, R, C) 三元组¶

论文定义：技能是一个三元组 S = (M, R, C) ：

M（Main instruction）：主指令文档，告诉 Agent 怎么做
R（Resources）：辅助资源（模板、脚本、参考资料等）
C（Condition）：触发条件，什么时候该用这个技能 See also Harness Engineering

三种技能类型¶

类型	特点	代表
纯文本型	参考文档、示例、模板、评分标准。可读性强，执行确定性弱	CLAUDE.md 纯文字规则
纯代码型	可执行脚本、函数、封装。执行可靠，维护成本高	MCP Server
混合型	文本 + 代码。兼顾可读性和可执行性，一致性维护最复杂	Claude Code 技能系统（CLAUDE.md + 辅助脚本）、Cursor 规则文件

技能获取：四条路径（不互斥，最强技能库是组合结果）¶

1. 人类专家手写（精确但慢）¶

医生写诊疗流程、工程师写排障手册、策略专家写审核标准。精度最高，扩展性差。通常作为"种子层"，后续交给自动化补充。

2. 从经验中提炼（目前最主流）¶

从成功轨迹中提取可复用操作模式：

Voyager：Minecraft 中把成功操作序列保存成可执行代码技能
Reflexion：从失败中提炼纠错规则
ExpeL：把多次成功/失败的教训压缩成高层经验教训

操作包括：筛选、抽象压缩、记忆重组、流程打包四个环节。

3. 遇到新任务时即时构建¶

让 LLM 直接生成候选技能，执行后根据结果决定保留/修改/丢弃。代表：CREATOR、ToolMakers。

4. 从外部资料中挖掘¶

从文档、代码仓库、Kaggle 竞赛方案、API 文档等外部语料提取可复用操作流程。适合冷启动——Agent 还没有自己的经验，但从别人经验中学习。

技能检索：召回率 ≠ 执行成功率¶

当技能库扩展到 70 万+ 技能（SkillsMP）时，核心问题从"有没有这个技能"变成"能不能在正确时刻找到并激活正确的技能"。

关键警告：语义上相关的技能，可能在当前环境下根本跑不起来。检索召回率 ≠ 执行成功率。

四类检索策略¶

策略	原理	局限性
语义向量检索	任务描述和技能描述映射到同一向量空间，找最近邻	语义近 ≠ 适用
关键词检索	按技能名称、元数据精确匹配	简单但不可靠，适合补充过滤
生成式检索	让模型直接生成技能 ID	融入推理过程，但覆盖率和正确性难保证
结构化检索	利用技能库层级结构或依赖关系缩小搜索范围	适合大规模有组织库

技能进化：五环节生命周期¶

1. 修订（Revision）¶

执行失败后修改技能本身内容。Memento-Skills：执行后归因失败 → 重写技能指令 → 通过单元测试决定是否保留修改。

2. 验证（Validation）¶

改了之后必须通过测试才能进入正式技能库：

SkillWeaver：用自动生成的测试用例验证 Web Agent 的 API 技能
PSN：引入"成熟度门槛"和回滚验证机制

3. 策略耦合（Policy Coupling）¶

技能库成为策略训练的一部分。SkillRL：在强化学习过程中同时优化策略和技能库——技能库不再是静态上下文，而是可训练参数。

4. 仓库级进化（Repository Evolution）¶

从单个技能进化扩展到整个技能仓库治理。SkillClaw：多个用户的执行轨迹汇聚 → 验证后同步更新到共享仓库。

5. 运行时治理（Runtime Governance）¶

进化过的技能可能可执行但不安全。"投毒技能"风险：第三方技能文档可能隐藏恶意逻辑，被 Agent 当作可信操作指南执行。

技能生态系统¶

SkillNet：30 万+ 技能
ClawHub：4 万+ 技能
SkillsMP：70 万+ 技能

技能正在成为独立的基础设施层，而非附属在某个 Agent 产品里的次要功能。

深度分析¶

模型是大脑，技能是肌肉记忆¶

这篇综述的核心观点：Agent 的下一个关键竞争力不是模型更强，而是技能管理能力更强。大脑再聪明，没有肌肉记忆也快不起来。

技能生命周期管理比技能本身更重要¶

技能不是存了就完，需要持续检索、验证、进化、治理。这个生命周期视角直接影响了产品架构——需要的不只是技能存储，还需要检索系统、测试框架、版本管理和安全审核。

与清华 SkillEvolver/EmbodiSkill 的关系¶

清华的 SkillEvolver 和 EmbodiSkill 分别对应进化五环节中的修订+验证（SkillEvolver 的 Validator 机制）和修订前的归因（EmbodiSkill 的四种反思类型）。这篇综述把它们放在了更大的技能生命周期框架中。

实践启示¶

1. 构建技能库时从"种子层"开始。 人类专家手写的技能作为种子，保证核心领域精确性，后续靠自动化补充规模。

2. 检索系统需要同时考虑召回率和执行成功率。 语义相似度只是第一层，还需要对技能在目标环境中的可执行性做验证。

3. 技能进化必须配备质量门禁。 验证（单元测试/成熟度门槛）是防止"投毒技能"的必要机制。

4. 关注技能库的平台化机会。 技能正在成为独立基础设施层，SkillNet/ClawHub/SkillsMP 已经验证了规模需求。

参考链接¶

论文：https://arxiv.org/abs/2605.07358v1
GitHub：https://github.com/JayLZhou/Awesome-Agent-Skills