跳转至

AI Skill 测评指标体系

Ch01.383 AI Skill 测评指标体系

📊 Level ⭐⭐ | 9.4KB | entities/ai-skill-metrics-system.md

八个核心指标

指标 公式/定义 核心阈值(S级)
通过率 断言通过数/总断言数×100% ≥ 95%
触发率 正确触发次数/总测试次数×100% ≥ 95%(精确)/ TP≥80%(AI估算)
增益 Δ with_skill通过率 − without_skill通过率 > 0(硬红线,Δ<0禁止发布)
IFR 正确遵循硬性规则次数/触发硬性规则总次数×100% = 100%
一致性 关键字段完全一致对比组数/总组数×100% full模式才系统计算
稳定性 样本标准差(n-1公式) σ < 0.05
幻觉检测 无法追溯来源的声明数量 0次
覆盖率 功能×0.5+路径×0.3+断言×0.2 ≥ 95%

Δ < 0:最危险的指标组合

通过率 Δ 诊断 行动
Skill 质量好 ✅ 正常发布
≈0 Skill 无增量价值 评估是否需要存在
>0 方向对但执行有问题 继续优化
<0 Skill帮倒忙 🔴 停止发布
覆盖率<50% 补充用例
SkillsBench研究:84个任务中19%出现负向增益。

权威来源 vs 经验值

有学术/工业来源: 通过率(OpenAI Evals/HELM)、Δ(SkillsBench论文arxiv.org/abs/2602.12670)、触发率(Recall/Precision)、幻觉检测(TruthfulQA/FactScore)、稳定性(统计学标准差) 内部经验值(无直接学术背书): S级通过率≥95%、IFR=100%、σ<0.05 → 原文存档AI Skill 测评体系:从零到一(系列主框架)

相关实体

深度分析

九层洋葱结构的本质含义

AI Skill 测评指标体系的九层结构(触发→输出→规则→对话→容错→效率→设计→覆盖→维护)并非随意排列,而是一条从用户感知到工程内核的洋葱剖面。每一层对应不同的质量维度,层级越高意味着该维度的验证成本越大,但对发布决策的影响力也越直接。 三层测评模式(quick/standard/full)的递增覆盖逻辑揭示了一个关键规律:外层指标(触发、输出)出问题,用户立刻能感知;内层指标(设计、覆盖、维护)出问题,则需要累积才能暴露。这意味着 quick 模式通过不等于发布安全——它只是拿到了"用户体验层"的及格证。

增益 Δ 为什么是最危险的指标

SkillsBench 论文(arxiv.org/abs/2602.12670)对 84 个任务的研究揭示了一个被严重低估的事实:19% 的任务出现了负向增益。这意味着每约 5 个上线的 Skill 中,就有 1 个在帮倒忙。 Δ 的危险性在于它的隐蔽性。一个 Skill 的通过率可能是 92%(接近 S 级),但 Δ 为负值——模型在没有 Skill 辅助时反而表现更好。这种情况通常出现在 Skill 过度约束了模型的自由度的场景:规则写得太死,模型无法发挥本身能力。单纯盯通过率的团队会认为"92% 很不错",但忽略了"这个 Skill 让模型变笨了"这个核心问题。 三条件对比范式(A/B/C)提供了一种更精细的判断框架:人工精心设计的 Skill 未必优于模型自生成的 Skill。B > C 说明人工约束有价值;B ≈ C 说明人工 Skill 边际收益低;B < C 说明人工 Skill 过度约束。

IFR 与通过率的解耦发现

传统认知中,通过率是综合指标,IFR 是其子集。但实际情况恰恰相反:IFR 揭示了通过率可能掩盖的问题。一个 Skill 可以通过率 92% 但 IFR 只有 80%——意味着有 20% 的情况下违反了关键硬性规则(如必须、禁止、固定为这类强制指令)。 这说明通过率是"总分",IFR 是"关键科目的单科成绩"。通过率达标不能掩盖 IFR 不合格。S 级要求 IFR = 100% 是有道理的:涉及资金、审批、报销等场景下,20% 的规则违反概率可能导致严重的业务风险。

一致性评分与触发率的深层矛盾

一致性(Consistency Score)和触发率(Trigger Rate)之间存在一个深层张力:触发率衡量的是"该出手时是否出手",一致性衡量的是"出手后输出是否稳定"。前者是召回问题,后者是精度问题。 Claude 的 undertrigger 倾向揭示了一个工程实现上的陷阱:Description 写得过于中性,模型会选择保守策略不触发 Skill,导致触发率偏低。解决方案是让 Description 稍微"pushy"——明确写出"即使用户没有明确说,遇到 X 情况也要使用"。

实践启示

诊断优先级:Δ → 通过率 → 覆盖率

看到测评结果时,第一眼应该看 Δ,而不是通过率。Δ < 0 是硬红线,无论通过率多高都要停止发布。通过率 < 95% 但 Δ > 0 说明方向对了,只是执行有问题,应该继续优化而非停止。 覆盖率是第三个参考维度:高通过率 + 正 Δ + 低覆盖率(<50%)意味着测评不充分,需要补充用例。完整模式下的覆盖率计算(功能×0.5+路径×0.3+断言×0.2)是目前最合理的综合评分方式。

INCONCLUSIVE 的处理原则

INCONCLUSIVE(无法验证)不等于失败,但必须单独处理。原则是:INCONCLUSIVE 用例不计入通过率,但必须配套补充计划。常见根因有三类:测试资产不匹配(如测发票检测但只有汽油发票)、账号权限受限、数据过期。补充对应资产后重新跑用例,不能直接跳过。

Claude undertrigger 的应对策略

如果 AI 估算的触发率 TP 值偏低(70-80%),首要排查的是 Description 是否足够"pushy"。具体做法:在 Description 中明确列出触发场景,尤其是"即使用户没有明确说,遇到以下情况也要使用"这类表述。不要假设模型会主动推断——明确写出来。

稳定性监控的行动阈值

标准差 σ 是最直接的稳定性预警信号:< 0.05 正常;0.05-0.10 观察;0.10-0.30 检查 prompt 歧义;> 0.30 立即排查 Skill 规则冲突。不要等到上线后才发现稳定性问题——测评阶段 σ > 0.30 应该立即停止发布流程。

纯文本 Skill 的特殊考量

纯文本 Skill(text_generation 类型,如写作、分析、问答)无法通过工具调用验证执行记录,幻觉检测难度更大。这类 Skill 的幻觉检测依赖评审 Agent 提取输出中的"隐含声明"并逐一核查。对于 S 级纯文本 Skill,0 次幻觉的要求意味着每一句涉及执行状态的描述都需要有对应证据。