跳转至

Skill Craft — Claude Skill 质量工程框架

Ch07.041 Skill Craft — Claude Skill 质量工程框架

📊 Level ⭐⭐ | 7.8KB | entities/skill-craft.md

7 类系统性失效模式

# 模式 描述
1 约束衰减 对话一长,规则越来越像没写
2 工具选择漂移 指定工具超时后自行替换替代方案
3 输出膨胀 要简明结论,回一篇论文;消耗上下文
4 依赖链断裂 Step 之间对象数量不一致(29→20,9个蒸发)
5 并行孤岛 子 Agent 结论矛盾,主 Agent 不做去重直接合并
6 触发模糊 随口一问被误判为完整执行流程
7 幻觉填充 工具没查到,\"补一个像样的答案\"
关键:这 7 类会连锁触发(输出一膨胀→上下文挤满→约束衰减→工具漂移/幻觉填充更常见)。

四模式架构

模式 生命周期阶段 核心机制
check 评估 8 结构模块 + 7 类反模式 + 3 条完整性原则
fix 修复 回归验证(修完重跑评估)+ 四类关联检查
create 创建 轻量/中等/重型分级 + smoke check
audit 治理 多 Skill 路由边界/职责分工/真值源统一

三层评估体系

第一层:8 个结构模块 触发条件 · 行为准则 · 工具优先级 · 输出约束 · 流程 Checkpoint · 依赖链 · 子 Agent 委派规则 · 幻觉防护 第二层:7 类反模式风险 结构有没有防御力,而非有没有模块。 第三层:3 条完整性原则 1. 可计数验收 — \"处理数必须等于总数\"而非\"逐个处理\" 2. Checkpoint 阻断 — 每步有中间输出,防止跳到最后 3. 失败路径定义 — 不能只有正常路径没有 else(else 默认往往是 skip)

fix 模式:四类关联检查

每次修复后要求检查:

  • 引用方有没有同步
  • 对称方有没有同步
  • 消费方有没有同步
  • 同层结构有没有类似问题

深度分析

从\"有功能\"到\"有质量\"的范式转移

Skill Craft 的核心贡献在于重新定义了 Skill 的质量问题。大多数人关注 Skill \"能不能用\"——功能是否完整、指令是否清晰。但 Skill Craft 指出真正的问题:Skill 能否在生产环境中持续可靠地运行。这个问题不是写好 instructions 能解决的,需要结构性的防御机制。

七类失效的根因:上下文压缩与约束稀释

约束衰减和输出膨胀是连锁的。输出越长,上下文窗口被塞得越满,前面写的约束就越容易被\"忽略\"。这不是模型的 bug,而是 LLM 的注意力机制在超长上下文中天然倾向于\"跟着最近的指令走\"。因此 Skill Craft 强调:

  • Checkpoint 机制:强制在每步输出中间结果,防止模型\"一口气跑到底\"
  • 可计数验收:用具体的数字约束替代模糊的\"逐个处理\",让模型在每步都能自我检验

并行孤岛:多 Agent 系统的同步失效

子 Agent 独立工作却不共享上下文,是并行孤岛的根本原因。主 Agent 在合并结果时如果不做去重,会导致矛盾输出直接暴露给用户。Skill Craft 的解法是:在 Skill 层面预设\"一致性校验\"步骤,而非事后人工检查。

触发模糊:边界定义决定系统可控性

Skill 的触发条件如果写得不严格,用户随口一问就会触发完整执行流程——既浪费资源,又容易给出不匹配需求的答案。最容易被忽略的反而是 \"DO NOT trigger\" 条件——明确什么时候不该触发,比写清楚什么时候该触发更重要。

audit 模式的意义:从单体到系统的治理升维

当 Skill 数量达到 5 个以上,单个 Skill 的质量已经无法保证整体系统的可靠性。路由边界重叠、文档版本不一致、引用链断裂等问题开始出现。这时的核心矛盾是:每个 Skill 单独看都没问题,放在一起却开始冲突。audit 模式就是为这个阶段准备的。

实践启示

1. 设计新 Skill 时,从\"防御\"而非\"功能\"出发

先想:这个 Skill 在什么情况下会乱触发、什么时候会不触发、什么时候会跑偏。围绕这三点设计防御结构,再补充功能实现。

2. 验收标准要\"可计数\",不要\"模糊描述\"

  • ❌ \"逐个处理所有文件\"
  • ✅ \"处理文件数 == 扫描到的文件数,跳过需有明确记录\"

3. 每加入一个子 Agent,必须同时定义\"合并规则\"

没有合并规则的并行任务,是制造矛盾输出的流水线。

4. 修复后必须回归验证,不能\"凭感觉修完\"

Skill Craft fix 模式要求修完后重新跑评估,确认分数提升。修复前后的分数对比是判断修复有效的唯一客观依据。

5. Skill 数量 ≥ 5 时,启动 audit 模式

路由边界、职责分工、真值源统一、文档传播链路——这四件事在单体阶段可以忽略,进入系统阶段后必须定期审计。

6. 幻觉防护的底线:\"没有来源就不输出\"

不是写\"请注意准确性\",而是在 Skill 里明确要求:工具查不到结果时,必须返回\"未找到\"而非猜测

与 Harness Engineering 的关系

Skill Craft 和 Harness Engineering 都关注 LLM 系统的工程化治理,但侧重点不同:

  • Harness Engineering:经验如何沉淀成下一轮默认存在的能力(宏观框架)
  • Skill Craft:Skill 本身的结构质量和系统级治理(微观工具) Skill Craft 的 fix 回归验证逻辑与 Harness 的 Generator/Evaluator 循环有共通之处——都是通过持续验证防止能力退化。

关联阅读

相关实体

原文存档

使用

# 把 Skill 放进 ~/.claude/skills/ 后
评估 /path/to/my-skill