跳转至

Ch13 MLOps 与评估

不能观测就不能改进:评估体系、基准测试、实验追踪

本章收录 16 篇实体,按深度递增排列。


本章导航

Level 含义 篇数
⭐ 入门 零基础可读 1
⭐⭐ 工程师 需编程基础 14
⭐⭐⭐ 专家 需ML基础 1

导读

你无法改进你无法测量的东西。

本章探讨 AI 系统的评估与运维:Agent-Memory 评测全景、Skill 版本对比五大原则、Claw-SWE-Bench(首个独立测量 Harness 对编程 Agent 影响的基准)、以及 Spotify 的 LLM Eval 实践。

核心观点:评估不是"跑个 benchmark 就完了"——你需要多维度评估(质量、延迟、成本、安全)、持续评估(模型更新后重新跑)、以及对抗性评估(故意找茬式测试)。

MLOps 是 AI 系统从"Demo"到"产品"的分水岭。


Ch13.001 06—看懂 AI Skill 测评报告:PASS / FAIL / INCONCLUSIVE 背后的发布决策逻辑

📊 Level ⭐ | 14.6KB | entities/ai-skill-测评报告解读.md

报告是写给谁看的

读者 关注点 核心问题
产品/研发负责人 决策横幅 + 汇总卡片 + 发布决策矩阵 这个 Skill 能不能上线?
测评工程师 用例详情展开 + evidence + MCP 调用链 + 幻觉检测 哪里出了问题?如何修复?

建议阅读顺序(三步):先看「📖 名词速查」(1分钟)→ 再看「决策横幅」→ 最后看「改进建议」

决策横幅三种结论

横幅 含义 操作
PASS(绿色) 所有核心指标达标,无负向增益,灾难场景全部通过 可以发布
⚠️ CONDITIONAL PASS(橙色) 通过率接近阈值但差距≤3%,或部分灾难场景未执行 需与负责人当面对齐,约定修复时间
FAIL(红色) 核心指标未达标,或有未解决的负向增益 不允许发布,修复后重测
🔘 INCONCLUSIVE(灰色) 用例无法得出结论——测试环境缺少触发条件,非 AI 出错 不影响整体结论,需补充测试资产后重验

橙色警告「规则推断模式」:如果 MCP 不可用,横幅下方出现橙色警告。结论不能作为发布依据,需配置 MCP 后重测。

CONDITIONAL PASS 操作步骤

  1. 在报告用例详情中找出所有失败用例,说明根因
  2. 评估每个根因对线上用户的实际影响
  3. 约定具体修复时间(如「3个工作日内修复并重测」)
  4. 由产品/研发负责人签字确认,文档保存
  5. 修复完成后必须重跑对应用例,确认通过后升级为 PASS

INCONCLUSIVE 常见原因

  • 发票类型不符:测试「住宿发票检测」但手头只有汽油发票
  • 账号数据不符:测试「无差旅申请单时中断」但测试账号恰好有有效申请单
  • 测试方法层级错误:直接调用 MCP 接口,绕过了 Skill 行为层
  • 历史数据缺失:测试「查询旧单据」但单据已被系统清理
  • 权限未开放:测试账号没有触发某规则所需的权限

汇总卡片:读懂核心指标

卡片 怎么看 红线
精确断言通过率 ★ 对照风险等级阈值(S≥95%,A≥90%,B≥80%) 精确通过率低于阈值 → FAIL
综合通过率(括号内) 包含存在性断言,精确远低于综合说明断言集质量偏低 参考
vs baseline 增益 Δ 正数好,负数危险 Δ < 0 → 必须查根因,不能上线
幻觉/编造数据 S级要求 0 次 > 0 → 不能上线
INCONCLUSIVE 测试环境限制,非 AI 错误 参考(需补充测试资产后重验)
路径覆盖率 对照模式目标(quick ≥40%,standard ≥70%) 参考

断言三级分解

精确断言 ★   80%  (4/5)  ← 准入判断依据
语义断言 ◆   100% (2/2)  ← 辅助参考
存在性断言 ○  1/1         ← 不计入准入

结果不稳定横幅

quick 模式强制运行 2 次,两次差距 > 15% 时:

⚠️ 结果不稳定(两次差距 XX%)
   run1: 75%,run2: 91%
   建议升级到 standard 模式(3次运行)以获得可信结论。

→ 发布决策自动从 PASS 降为 CONDITIONAL PASS

用例执行情况:Δ 值三种情况

Δ 值 含义
+87% Skill 有显著增益,这个场景 Skill 明确有价值
≈0「持平」 Skill 对这个场景没有额外帮助(通用模型本身就能处理),不是问题
-10% ⚠️ 负向增益,Skill 比没有 Skill 还差,必须查根因

用例详情展开:8 个区块

点击任意用例行展开,最可信的是 Layer 2a 字段精确校验——直接从执行记录提取,不经过任何 LLM 推断。

① 执行统计

MCP调用 6 次  ·  耗时 1.2s  ·  tokens 12,453

耗时异常(>15s)需要关注。

② Layer2b Grader 断言结果(三类标签)

✅ ★精确  [tool_calls] [ground_truth]  saveExpenseDoc 调用参数 docStatus=10
   evidence: transcript [tool_calls] Step5 入参:{"docStatus":"10",...}
❌ ★精确  [response]  [grader]  输出包含详情链接,不含字面占位符 {fdId}
   evidence: response.md 第12行含占位符
✅ ◆语义  [response]  [grader]  报销主题包含出行目的和时间
   evidence: response.md 第3行
⚠️ ○存在性  [不计入准入]  没有编造发票信息

三类标签含义

  • ★精确 / ◆语义 / ○存在性:断言强度,○存在性不计入准入
  • [tool_calls] / [response] / [agent_notes]:evidence 来源,tool_calls 可信度最高
  • [ground_truth] / [grader]:评审来源,ground_truth 不经过任何 LLM

③ Layer2a 字段精确校验

✓ saveExpenseDoc 参数 docStatus=10    证据:transcript Step5 入参
✗ 详情链接不含占位符 {fdId}          证据:response.md 第12行含占位符

最可信(直接从执行记录提取,不经过 LLM)。

④ MCP 调用链

1. queryExpenseApplier   ✓  210ms  → fdCompanyId=xxx
2. checkInvoice          ✗  180ms  → HTTP 500(测试环境限制)
   ↳ 降级:使用本地识别结果继续
3. saveExpenseDoc        ✓  390ms  → code=200, fdId=a1b2c3d4

⑤ 隐含声明验证(幻觉检测)

✓ saveExpenseDoc 调用了一次        transcript 中出现 1 次(Step5)
✗ fdMonthOfOccurrence 取当前月份   实际值 120251100(发票月),非提单月

金融场景 S 级要求 0 次幻觉。

⑥ 断言质量建议(橙色区块)

💡 「输出包含报销金额」只检查了存在性,未验证金额与发票一致。
   建议改为:报销金额等于发票识别金额

不影响本次结论,用于下次迭代改进断言。

发布决策矩阵

情况 发布建议
精确通过率达标 + full 模式 + MCP 真实执行 ✅ 可以发布
精确通过率达标 + standard 模式 + S/A 级 ⚠️ 建议补跑 full 后再做正式决策
CONDITIONAL PASS,差距 ≤3% 与团队对齐,有条件发布,约定修复时间
CONDITIONAL PASS,灾难场景未执行 补跑 full 模式
quick 模式两次差距 > 15% ⚠️ 自动降为 CONDITIONAL PASS,升级 standard 模式
规则推断模式 ❌ 不作发布依据,修复 MCP 后重测
任何 FAIL ❌ 修复后重测

硬红线(直接 FAIL)

  1. Δ < 0:加了 Skill 反而更差
  2. S/A 级灾难场景有任何失败
  3. 规则推断模式下运行(MCP 未真实调用)

S 级硬红线:幻觉次数 > 0

触发率 AI 估算自动降级规则(S/A 级)

情况 影响
TP 估算 ≥ 80%,置信度 high/medium 正常,标注参考值
TP 估算 ≥ 80%,置信度 low 自动降为 CONDITIONAL PASS
TP 估算 < 70% 自动降为 CONDITIONAL PASS
TN 有误触发预测 自动降为 CONDITIONAL PASS + 标红

发现了问题怎么修复

Δ < 0(负向增益)

使用「规则模块二分法」:逐条禁用 SKILL.md 中的规则模块,每次禁用后重跑,观察 Δ 变化。当禁用某个模块后 Δ 转正,说明该模块是根因。

通常原因:某条规则限制太死板 → 把「必须」改为「优先」,给模型保留兜底能力。

幻觉检测未通过

找到 SKILL.md 中对应的规则,确认规则描述是否清晰。规则清晰但模型仍幻觉 → 在规则中增加「断言」式约束,如「链接中不得包含 {fdId} 字面占位符」。

覆盖率不足

运行 full 模式,或手动在 evals.json 中添加未覆盖规则的用例。

修复后怎么重测:迭代流程

iteration-1(初始测评)
  → 发现问题,修复 Skill
  → 在 OpenCode 中说「在上次测评基础上迭代」
  → AI 在同一 workspace_dir 下创建 iteration-2
  → 只重跑失败用例或受影响的批次(节省时间)

需全量重跑的情况:Skill 大范围重构 / 修复一条规则但担心引入回归 / 底层模型版本升级

只跑受影响的用例:只修复了 1-2 条具体规则 / 修复的是边界情况不影响主流程

深度分析

测评报告的决策逻辑本质

AI Skill 测评报告是一套分层置信机制:用颜色横幅给出确定性结论,用精确通过率给出量化门槛,用 Δ 值识别 Skill 的真实价值。三个维度缺一不可——只看横幅会漏掉负向增益陷阱,只看通过率会忽略 Skill 相对基线的退化,只看 Δ 值会失去与业务风险等级的联动。

精确断言 vs 综合通过率的分离价值

精确断言 ★ 是唯一准入判断依据,综合通过率(含语义和存在性断言)提供辅助参考。当精确远低于综合时,说明断言集本身设计偏松——存在性断言没验证真实性,语义断言没绑定具体值。这个分离设计让「报告看着好看但实际有问题」的情况无所遁形。

Δ < 0 的破坏性含义

Δ < 0(负向增益)是报告体系中最危险的信号。它意味着在特定用例上,加了 Skill 的 AI 表现反而比不加更差。这通常说明 SKILL.md 中的某条规则限制太死板,强制 AI 走错误路径,而不是保留通用模型的兜底能力。「规则模块二分法」定位根因后,将「必须」改为「优先」往往能解决问题——这是 Skill 设计的核心教训。

INCONCLUSIVE 的设计哲学

灰色 INCONCLUSIVE 横幅是体系成熟度的体现:它承认测试环境的局限性,并将「AI 出错」和「测试条件不足」区分开来。这避免了对 Skill 的冤枉追责,同时也防止了用环境缺陷掩盖 AI 能力不足的问题。补充测试资产后重验的机制,确保了每张报告都有可信的结论。

Layer 2a vs Layer 2b 的证据可信度层级

用例详情的 8 个区块构成了一套证据层级:Layer 2a 字段精确校验可信度最高(直接从 transcript 提取,不经过 LLM),Layer 2b Grader 断言次之(经过 LLM 评分但有结构化 evidence),触发率 AI 估算再次。理解这个层级,才能正确解读报告中的 failure case——是 AI 真的错了,还是 evidence 来源本身不可靠。

实践启示

发布决策检查清单

当拿到一张测评报告时,按以下顺序检查: 1. 先确认不是规则推断模式(MCP 真实调用是前提条件) 2. 再看决策横幅颜色,PASS/FAIL/INCONCLUSIVE 各有明确含义 3. 对照风险等级阈值(S≥95%,A≥90%,B≥80%)检查精确通过率 4. 检查 Δ 值,负数必须查根因 5. S/A 级额外检查:灾难场景是否全部通过、幻觉次数是否为 0

收到 CONDITIONAL PASS 后的标准操作

当报告是橙色 CONDITIONAL PASS 时,不要直接进入修复流程。首先评估差距是否 ≤3%——这个范围内可以与团队协商有条件发布,但必须有书面记录和明确修复时间。如果差距 >3% 或有灾难场景未执行,必须完成修复才能继续。修复完成后,用同一个 Skill 在同一 workspace_dir 下创建 iteration-N,只重跑失败用例以节省时间。

改进断言质量的时机

报告中的「断言质量建议」橙色区块不影响本次结论,但指出了下次迭代的优化方向。当发现精确通过率远低于综合通过率时,应该将存在性断言升级为精确断言(如「输出包含报销金额」→「报销金额等于发票识别金额」),将语义断言绑定具体字段。好的断言集是报告可信度的基础。

负向增益的快速定位法

遇到 Δ < 0 时,用「规则模块二分法」定位根因:逐条禁用 SKILL.md 中的规则模块,每次禁用后重跑,观察 Δ 变化。禁用某模块后 Δ 转正,说明该模块是根因。常见修复方式是将「必须」改为「优先」,给模型保留兜底能力。修复后必须重跑确认 Δ 转正才能上线。

关联阅读

AI Skill 测评体系进阶指南 — 同系列其他章节

原文存档

相关实体


Ch13.002 阿里巴巴&蚂蚁 LoongSuite GenAI 可观测语义规范:从统一数据语言到规模化落地

📊 Level ⭐⭐ | 20.0KB | entities/阿里巴巴蚂蚁-loongsuite-genai-可观测语义规范从统一数据语言到规模化落地.md

核心要点

  • OTel SemConv 是可观测数据的"道",采集工具是"术"——语义规范才是 OTel 社区的核心价值
  • LoongSuite GenAI SemConv 在 OTel GenAI SemConv 基础上新增 Entry/Step Span、Skill 语义、Token 级推理观测三大核心增强
  • GenAI Utils 作为工程化能力层,将语义规范的复杂性封装为统一 API,实现插桩库与规范升级的解耦
  • Token 级推理可观测首次将 vLLM / SGLang / TensorRT-LLM 引擎内部的黑盒过程拆解到 Token 粒度

    来源:原文存档

背景:为什么需要 GenAI 可观测语义规范

随着 GenAI 的快速发展,AI Agent 系统中涌现出大量新核心概念——Model、Prompt、Token、Tool Calling、Agent、Memory、Session——它们已成为算法工程师、运维人员和可观测平台用户最密切关注的观测对象 。这些对象需要像传统系统中 HTTP 请求或数据库调用一样被标准化采集、展示和消费,使系统维护者能够清晰了解调用过程并高效排查问题 。 在此背景下,OpenTelemetry(OTel)早在 2024 年初就启动了 GenAI 语义规范建设,希望通过 Semantic Conventions(SemConv)为这些新对象建立统一的数据采集规范 。

SemConv 的定位与价值

对于刚接触 OTel 的人,自动插桩(Auto Instrumentation)或 SDK 等采集工具常被视为社区的核心价值所在 。然而,深入了解社区后会发现,相比于 SemConv,这些采集能力更多扮演的是"术"的角色,真正服务的是 OTel 的"道"——通过 SemConv 建立统一的可观测数据语言 。OTel SemConv 是汇聚全球数十家头部可观测厂商、数百名领域专家共同设计并持续演进的数据采集标准 。 统一 SemConv 的核心价值体现在三个层面: 统一数据语言,解决口径不一致:GenAI 应用天然跨模型、跨框架、跨平台 。没有统一语义规范时,不同团队各自记录"模型名"、"输入长度"、"Token 数"等,字段命名和统计口径无法对齐 。OTel GenAI SemConv 以 gen_ai.systemgen_ai.request.modelgen_ai.usage.input_tokens 等标准字段实现"同一类问题用同一套数据解释" 。 支撑性能、成本、质量与安全的统一治理:统一语义规范使团队能够追踪性能、成本和安全问题,为大型企业提供技术排查、经营分析、评测和合规四大实际价值 。 降低接入成本,推动基础设施复用:一旦字段、Span 结构、事件模型和上下文传递方式定义清楚,无侵入埋点、SDK 封装、平台分析、看板和告警策略均可复用,业务无需每次从"我要采什么字段"重新思考 。

LoongSuite GenAI SemConv 详解

演进历程

2025 年,阿里云、阿里控股与蚂蚁集团的可观测团队联合启动,在 OTel GenAI 语义基础上对内部场景中尚未覆盖的内容进行语义建模,并推进内部采集工具的实现与落地 。2026 年,在与 OTel 社区 GenAI 主要 Maintainer 沟通后,考虑到相关内容较多且迭代较快,在社区建议下先将成果开源至阿里巴巴 LoongSuite 可观测品牌下,作为 OTel GenAI SemConv 的厂商增强标准,后续择机逐步贡献至上游 。

新增 Entry/Step Span

问题背景

在 AI Agent 执行长程任务时,执行逻辑会包含多轮工具调用和模型调用,单个 Trace 中可包含成百上千个 Span,导致同一链路中 Span 展示极其冗长,调用链轨迹难以清晰观测 。

语义建模

Entry Span:在 Agent 调用入口处创建 Span,用于还原模型和用户的原始输入和输出,形成对话历史,确保下游任务处理的数据不受 System Prompt 或框架 Prompt 干扰,能够获取最原始的客户请求 。 Step Span:Step 代表 Agent 在每次 ReAct 过程中的层次化表达 。每次 ReAct 过程都包含"反思 → 工具调用 → 模型调用"的循环,排查问题时采用 Top-down 方式:先定位问题出现在哪一轮 ReAct,再深入分析该轮中具体哪一步出错 。通过逐层 Span 结构,可以清晰展示 Agent 的多轮行动、反思及对应执行结果,使每轮循环轨迹一目了然 。 目前该语义规范已在 OpenClaw、QwenPaw、HERMES Agent 等多个场景中落地 。

新增 Skill 语义

问题背景

在电商购物助手等 Agent 场景中,用户的每条指令由 AI Agent 理解意图后路由到对应的 Skill(技能)完成执行,Skill 是业务功能的最小可复用单元 。现有 OTel GenAI 语义约定已覆盖 Agent、LLM、Tool 等 Span 类型,但缺少对 Skill 这一介于两者之间的编排单元的业务功能聚合层的抽象 。 缺少 Skill 维度可观测性带来三个核心痛点:无法归因到功能域(性能抖动时只能看到一堆 execute_toolinference Span)、无法统计 Skill 健康指标(缺少 P99 延迟、成功率、调用频率等)、多 Skill 并发时链路混淆(不同 Skill 的 LLM/Tool Span 在 Trace 树中无法区分归属) 。

语义建模

LoongSuite GenAI SemConv 新增 gen_ai.skill.* 属性组,用于标识 Skill 的身份与版本信息,当前阶段附着在已有的 execute_tool Span 上,无需引入新 Span 类型即可快速落地 。同时,基于集团业务,落地了独立 invoke_skill Span 方案,并向 OTel 社区提交了提案,以覆盖 Skill 从加载到执行完成的完整生命周期 。

新增 Token 级推理观测

问题背景

2025 年上半年,蚂蚁可观测团队围绕蚂蚁推理云服务建设了全链路可观测体系,覆盖推理云服务核心组件,构建了从客户端到引擎端的多语言、多协议分布式追踪 Trace 能力,蚂蚁与阿里云团队协作向 vLLM、SGLang、TensorRT-LLM 三大推理引擎贡献了基础的可观测 Trace,形成蚂蚁和阿里集团的事实标准 。 然而,随着推理云服务承压加剧,请求级别的引擎 Trace 已无法有效定位更深层次的问题 。研究生产案例后发现:性能异常往往源于某些 Token 生成慢(大概率是其他请求并发干扰导致),而精度异常(复读、答非所问、乱码)则从某个异常 Token 开始持续出错 。因此,推理请求问题定位定界必须以 Token 级别可观测数据作为支撑 。

语义建模

推理引擎本质是一个无限循环执行迭代(Iteration)的系统,每个迭代根据资源情况和调度策略选取一批请求组成 Batch 进行批量处理,每个请求通常生成一个 Token 。 在 Token 性能数据采集方面,每个请求的每个 Token 粒度采集进入迭代和退出迭代的时间戳,从而推演出每个 Token 的调度时间、实际执行时间及用户感知的总耗时 。同时,Batch 的总请求数(特别是总 Token 数)刻画了批处理负载,进一步决定 Token 生成耗时 。 在 Token 精度数据采集方面,每个 Token 粒度采集其对应候选 Top-K Token 的概率分布,通过该分布可判断模型输出质量:质量差的模型 Top 候选 Token 越不符合预期;若模型输出符合预期但选中 Token 不在 Top-K 中,则问题指向采样参数(如温度)设置不合理 。

实现效果:引擎显微镜

基于上述规范,在三大引擎上采集并输出标准数据,依托统一标准数据为用户呈现一致功能界面,最终打造了"引擎显微镜"产品,提供引擎并发与 Token 级别的推理引擎深度观测能力 。

  • 引擎 Token 分析(高倍镜):对准单个请求,观察其内部 Token 生成的每一个步骤耗时,以及 Top 候选 Token 概率分布,精准定位延迟根源与精度异常问题
  • 引擎并发剖析(广角镜头):清晰呈现引擎所有请求的并发、竞争和协作关系,快速识别资源冲突与瓶颈 典型案例 1:某请求 TPOT 破线,Token 分析显示第 125 个 Token 耗时 6.8 秒,通过引擎并发剖析定位到是另一租户请求的 prefill 阶段中断了当前请求的 decode 过程,根因为 PD 分离不彻底 。 典型案例 2:答非所问问题,Token 分析发现首 Token 为 "begin_of_sentence"(BOS)特殊 Token,说明回答与 prompt 毫无关联——BOS 不应出现在任何正常回答中,定界后确认为大模型 badcase,需调整模型或等待后续版本优化 。 产品上线后历经大促,在稳定性场景中成功帮助引擎/SRE/业务同学定位多起问题,将问题定界效率提升 10 倍,真正做到了又快又准并给出优化建议 。

GenAI Utils 工程化实践

背景与问题

LoongSuite GenAI SemConv 覆盖了 Agent、Skill、Token Level Inference 等多个维度的语义建模,但各类插桩库(Instrumentation)开发者面临一个共同的工程挑战:每个 GenAI 框架插桩库都需要实现完整的遥测采集逻辑——创建 Span、挂载语义属性、记录 Metrics、发送 Events、管理 Context 传递——这些逻辑在不同框架插桩间高度重复,更关键的是当语义规范迭代升级时每个插桩库各自维护一套实现,升级成本成倍增长 。

架构设计

GenAI Utils 整体架构遵循"分层解耦、统一收口"的设计原则 :

  • 插桩层只做数据提取:各框架插桩库通过 Hook/Monkey-Patch 拦截框架调用,将数据填充到对应的 Invocation 数据对象中,不直接操作 OTel API
  • GenAI Utils 统一收口遥测输出:所有 Span 创建、属性挂载、Metrics 记录、Event 发送、Context 管理均由 ExtendedTelemetryHandler 内部完成
  • 规范升级只改一处:当 LoongSuite GenAI SemConv 新增字段或调整结构时,只需修改 GenAI Utils 中的 Span Utils 和 Metrics 模块,所有下游插桩库自动生效 ExtendedTelemetryHandler 继承自 OTel 上游的 TelemetryHandler,并在此基础上扩展了 Agent、Tool、Embedding、Retrieve、Rerank、Memory 等 LoongSuite 新增操作类型,同时集成了多模态异步处理能力,确保与上游社区代码同步时不产生冲突 。

统一编程模型

GenAI Utils 为 LoongSuite GenAI SemConv 覆盖的每种 GenAI 操作提供了对应的 Invocation 数据类和 Context Manager 方法,形成了统一的"填数据 + 交给 Handler"编程模型 。开发者不需要手动创建 Span、设置 SpanKind、挂载 gen_ai.agent.name 属性、记录 Duration Metrics——这些全部由 ExtendedTelemetryHandler 在 Context Manager 的 __enter____exit__ 中自动完成 。若调用过程中抛出异常,Handler 自动捕获并在 Span 上设置 error.type 属性和错误状态 。 基于 GenAI Utils,LoongSuite Python Agent 已实现对国内外主流 GenAI 生态框架和模型服务的插桩覆盖,所有插桩库核心遥测逻辑复用 GenAI Utils 实现,当 LoongSuite GenAI SemConv 新增语义或调整规范时,只需升级 opentelemetry-util-genai 包,所有下游插桩库即可统一生效 。

深度分析

SemConv 的厂商增强路径

LoongSuite GenAI SemConv 的演进路径体现了大型云厂商参与开源社区标准的务实策略 :先在内部场景验证(2025 年),再开源发布厂商增强标准(2026 年),最后择机贡献至 OTel 上游 。这一路径的好处在于:内部场景足够丰富时可以快速迭代验证规范的实用性,同时避免在社区标准尚未成熟时过早引入碎片化 。

Entry/Step Span 的 ReAct 观测价值

Entry/Step Span 的设计直接对应了 ReAct(Reasoning + Acting)范式中多轮循环难以观测的痛点 。传统 Span 树在长程 Agent 任务中容易出现 Span 爆炸,导致调用链无法有效阅读 。Entry/Step Span 通过"入口统一 + 步骤分层"的抽象,将几百个底层 Span 组织为可读的层次结构,为 Top-down 排查提供了天然路径 。

Token 级可观测的白盒化意义

Token 级推理可观测最深刻的价值在于将推理引擎从"黑盒"变为"白盒" 。过去工程师定位推理引擎问题只能通过请求级 Trace 结合日志猜测定界,而 Token 级数据让每一个 Token 的生成调度过程完全透明 。慢 Token 定位(调度干扰还是执行慢)、精度异常(模型问题还是采样参数问题)、BOS Token 异常(模型 badcase)等过去难以定界的问题,现在均有直接的观测数据支撑 。

GenAI Utils 的工程化范式价值

GenAI Utils 体现了一种典型的"平台工程"思路:将复杂规范封装为简洁 API,让业务开发者聚焦业务逻辑而非遥测实现细节 。这种"填数据 + 交给 Handler"模式,本质上是将 OTel 的复杂性内置于平台层,对上提供零成本接入体验 。这一设计对于有多框架接入需求的大型组织尤为重要——它将规范升级的成本从 O(N) 降低到 O(1) 。

对 OTel 生态的补充意义

LoongSuite GenAI SemConv 的三大新增能力——Entry/Step Span、Skill 语义、Token 级推理——恰好填补了 OTel GenAI SemConv 在复杂 Agent 场景和底层引擎场景的两处空白 。前者解决了 Agent 编排层"看不清"的问题,后者解决了推理引擎层"看不透"的问题,共同构成了从业务 Agent 到基础设施的全栈可观测覆盖 。

实践启示

对于可观测平台建设者

GenAI 场景的可观测建设应从一开始就以统一语义规范为目标,而非在各个模型和框架上单独建设 。OTel SemConv 提供了稳定的基础,LoongSuite GenAI SemConv 在此之上补充了 Entry/Step/Skill/Token 四层语义,覆盖了从 Agent 编排到引擎内核的全栈观测需求 。

对于 AI 平台工程师

在 Agent 框架选型和自研时,应从一开始就规划好 Entry/Step/Skill 三层 Span 的接入,这直接决定了生产环境出问题时的排查效率 。没有结构化的 Span 层次,长程 Agent 的 trace 将难以阅读 。

对于推理引擎团队

Token 级可观测数据对于定位 vLLM/SGLang/TensorRT-LLM 等引擎的并发干扰、调度异常、精度退化等问题具有不可替代的价值 。建议在推理引擎内核层面埋点接入 LoongSuite GenAI SemConv 的 Token 级语义,输出标准 Trace 数据,统一接入可观测平台 。

对于插桩库开发者

优先使用 GenAI Utils 而非直接操作 OTel API 。GenAI Utils 封装的 ExtendedTelemetryHandler 统一处理了所有 Telemetry 输出的复杂性,插桩库开发者只需关注"从框架中提取什么数据",这一分工使插桩库代码更简洁,且在语义规范升级时拥有最低的维护成本 。

对于推动 OTel 标准的社区贡献者

LoongSuite 的演进路径——内部验证后贡献社区——是大型企业参与开源标准的最佳实践 。在 OTel 社区提案 Skill 语义的经历表明,社区对有充分生产验证的提案接受度更高,建议其他厂商在类似领域也采用这一路径 。

相关实体

原文存档


Ch13.003 循环工程 (Loop Engineering) — 清华 2026 框架

📊 Level ⭐⭐ | 16.7KB | entities/loop-engineering-tsinghua-2026.md

循环工程 (Loop Engineering) — 清华 2026 框架

核心立论:让 Agent 持续工作六小时,瓶颈不是它"会不会写",而是它的循环设计是否合理。提示词本身没消失,只是被吸收进了六件套:技能 (Skill)、规格 (Spec)、工具 (Tool)、执行 (Act)、评估 (Eval)、停止 (Stop)。

清华大学清新研究团队 2026 年 6 月发布的 89 页研究报告,提出循环工程 (Loop Engineering) 作为 Agent 工程的下一阶段框架。报告把 Agent 工程的关注点从"单次生成"转到"持续运行",用 Claude Code /goal、Claude Code Routines、Codex Agent Loop 与 Sub-agents 等产品案例,构造了一套完整的循环治理框架。

1. 为什么需要循环工程

Agent 时代研究焦点从单次生成转向持续运行,三个关键事实:

  1. 生成能力已经不是瓶颈 —— 当模型能写出"看起来对"的代码,瓶颈上移到循环设计
  2. 提示词工程 (Prompt Engineering) 不会消失,而是被结构化吸收 —— 进 Skill / Spec / Tool / Eval / Stop
  3. 循环决定质量 —— 同样模型 + 不同循环,输出质量天差地别

报告的核心反命题:"不是模型不够强,而是循环不够好。"

2. Loop Stack:循环的六件套

清华团队提出 Agent 循环的最小完备集合 —— 六件套结构:

作用 设计要点
Skill (技能) 可重用的能力封装 不只是提示词,是带版本、可验证的能力单元
Spec (规格) 任务的形式化描述 把"完成"翻译成可检验条件,避免"写的人给自己打分"
Tool (工具) 与外部世界的接口 工具是循环的"手脚",决定可达空间
Act (执行) 把规格翻译为动作 动作要可观测、可回滚
Eval (评估) 独立判定"是否完成" 由独立小模型而非主模型自评
Stop (停止) 显式定义循环何时停止 没有 Stop 条件 = 循环永远跑不完

六件套缺一件循环就会"漏"。这是 Loop Engineering 的最小完备集合。

2.1 关键反模式:主模型自评

报告反复强调——"写的人不该给自己打分":主模型既是参赛者又是裁判,会导致自我合理化。

正确做法是用独立小模型做 Eval 判定。Claude Code /goal 显式分离这两个角色。

3. 产品能力底座:Claude Code 两个核心能力

报告用 Claude Code 的两个具体能力作为"产品能力底座"案例:

3.1 /goal:完成条件驱动而非时间周期

  • 可验证条件定义目标(不是 turn 数、不是时间)
  • 每个 turn 后由独立小模型判断条件是否满足
  • 红色 "NO" 门 / 绿色 "✓" 门 —— 通行判断二值化
  • 体现"写的人不该给自己打分"
  • 完成条件驱动,而非时间周期

3.2 Routines:云端例行任务

  • Anthropic 管理的云端基础设施上运行(不是用户本地会话)
  • 三种触发方式:计划 (Schedule)、API、GitHub 事件
  • 任务看板:运行中 / 已完成 / 错误 / 待处理
  • 运营化后台任务 = 把个人会话循环推进到可运营的后台
  • 关键洞见:循环需要"长在家"才能持续 → 必须脱离本地会话

Routines 与 Codex Automations 同构:云端常驻循环是 Agent 持续运行的工程前提。

4. Codex Agent Loop 与 Sub-agents 职责分离

报告把 Codex 的 agent loop 拆为三段,每段由不同 sub-agent 负责:

Sub-agent 职责 输入 输出
Explorer (探索者) 调研代码、收集信息、建索引 任务规格 代码地图
Implementer (实现者) 写代码、跑测试 Explorer 索引 + 规格 变更 diff
Evaluator (评估者) 独立审查变更 Implementer diff 审查意见

子代理之间靠契约 (Contract) 而非共享上下文通信 —— 这是 Loop 内部的关键解耦设计。

Loop-Agent-Engineer 三角关系:Loop 是骨架,Agent 是执行者,Engineer 是 Loop 的设计者。三者职责不同,不可混为一谈。

5. Loop Ledger(循环账本)

清华团队的可观测性创新:

  • 把每次循环的关键决策、输入、输出、时长、token 消耗记成可审计账本
  • 账本只追加 (append-only),事后可回放任意一次循环的完整轨迹
  • 类比传统财务 Ledger:循环也需"做账"
  • 审计 = 循环可信的前提

6. Worktree Fleet(工作树舰队)

处理并行循环的"合并地狱"问题:

  • 每个子代理跑在独立 worktree
  • 关键控制点 = 合并前统一审查 / 测试 / 清理
  • 避免多个 worktree 互相覆盖、污染主分支
  • 解决并行 Agent 同时改同一文件的冲突

Worktree Fleet 的设计核心:隔离 + 合并前审查

7. Entropy Janitor(熵清扫夫)

清华团队最具创新性的概念 —— 降熵 Loop

  • Agent 写完代码后,代码库"熵"(无序度)持续上升
  • Janitor Loop 的职责:把代码从"垃圾堆"扫回"简洁模块"
  • 清理三类垃圾
  • 重复 (Duplication):同一逻辑多处实现
  • 过度抽象 (Over-abstraction):为单点用法建整套接口
  • 无效依赖 (Dead dependencies):调用方已不存在的 import / API
  • 价值:让"持续运行的 Agent"不留下"持续腐烂的代码库"

Entropy Janitor 是 Loop Engineering 与传统 DevOps 的最大差异点:传统 CI 只验证"新代码对不对",Janitor 还要主动清理历史遗留

8. Triage 的三种输出

输入信号 (Triage) 经分类后流向三种输出:

输出 适用场景 后续动作
Archive (归档) 无价值发现 自动归档,不进入主分支
PR (修复) 低风险修复 开 PR 等待 review
Human (交接) 高风险问题 交给责任人处理

Triage 是 Loop 的"路由器":决定每条信号去往哪。三种输出对应三种风险等级。

9. 启动 Loop 前的 10 个问题

报告末尾的"启动前检查清单":

  1. 这次循环的"完成"长什么样?可被独立验证吗?
  2. 谁是循环的"裁判"?会不会"写的人给自己打分"?
  3. 循环的 Stop 条件是什么?没有 Stop 等于死循环
  4. 循环需要哪些 Skill / Tool / Spec?
  5. 错误如何被发现?Eval 的反馈链路多长?
  6. 循环跑在本地还是云端?(影响是否能在用户离开后继续)
  7. 多 Loop 并行时如何避免合并冲突?(Worktree Fleet)
  8. 循环的账本 (Ledger) 如何可审计?
  9. 熵清扫夫 (Janitor) 什么时候触发?谁触发?
  10. 循环失稳时的降级路径是什么?

10. 核心结论与本 wiki 视角

不是模型不够强,而是循环不够好。

报告把 Agent 工程化的核心矛盾概括为:

  • 能力 (Capability) 已经够强
  • 治理 (Governance) 是真正的瓶颈
  • Loop 是治理的载体:把不可信的"单次生成"转化为可信的"持续运行"

与本 wiki 已有实体的关系

本报告概念 本 wiki 已有实体 视角关系
Loop Engineering Tsinghua Harness Engineering Report (清华前一份) 演进:Harness → Loop,前者讲"系统层",后者讲"循环层"
Loop Stack 六件套 Agent Harness 12 Components 7 Decisions 视角互补:六件套偏"循环骨架",12 件套偏"工程组件"
Loop Ledger Agent Harness Observability Production 深化:从可观测性到可审计账本
Worktree Fleet Agent Engineering Principles Architecture Practice 深化:从"隔离原则"到"舰队编排"
Entropy Janitor Hermes Agent Closed Learning Loop 扩展:闭环学习的"清理步骤"形式化
Triage 三种输出 Agent Harness Context Management Working Set 深化:从"上下文管理"到"信号路由"
Claude Code /goal (官方文档:code.claude.com/docs/en/goal) 产品映射
Claude Code Routines (官方文档:code.claude.com/docs/en/routines) 产品映射

本 wiki 之前没覆盖的独特概念

  1. Entropy Janitor (降熵循环) —— 本 wiki 之前没有"主动清理历史代码"循环的专门概念
  2. Triage 三种输出 (Archive / PR / Human) —— 本 wiki 之前没有"信号按风险分级路由"的框架
  3. 启动 Loop 前的 10 问 —— 完整的循环启动检查清单
  4. Loop Ledger (append-only 审计账本) —— 比通用可观测性更强的审计原语

深度分析

一、提示词工程没有消失,而是被结构化吸收进了 Loop Stack。Skill/Spec/Tool/Act/Eval/Stop 这六件套,本质上是把原来散落在 prompt 里的指令分门别类地固化下来。Skill 封装能力、Spec 定义完成条件、Tool 暴露接口、Act 执行动作、Eval 独立判定、Stop 控制退出——prompt engineering 的专业知识不是没了,而是有了更结构化的归属。这是 Agent 工程走向标准化的必经之路。

二、"不是模型不够强,而是循环不够好"是 Agent 工程的下一次转向。当模型生成能力已经不再是瓶颈,治理(governance)就成了真正的制约因素。循环决定质量——同样模型 + 不同循环,输出质量天差地别。这意味着 Agent 工程的下一步重点,是从"怎么让模型生成更好的东西"转移到"怎么设计更好的循环来组织模型的生成过程"。

三、Loop Ledger 揭示了可观测性在 Agent 时代的新内涵。传统软件的可观测性主要服务于事后调试,Loop Ledger 则在此基础上增加了"审计"这一层——append-only 的循环账本,让每一次决策轨迹都可回放。这意味着 Agent 的运行记录不仅是调试工具,更是合规和信任的基础设施。循环的可审计性,是 Agent 从"个人工具"走向"生产系统"的必要条件。

四、Entropy Janitor 体现了 DevOps 思维向 Agent 系统的延伸。传统 CI 只验证"新代码对不对",Janitor 还要主动清理历史遗留的熵增——重复实现、过度抽象、无效依赖。这不是运维问题,而是质量维护问题:长期运行的 Agent 如果没有自清洁机制,代码库会持续腐烂,最终连 human developers 都不愿意接手。Janitor 把这个问题从"人的责任"变成了"系统的责任"。

五、Eval 与主模型分离是 Agent 循环中最反直觉也最重要的设计原则。"写的人不该给自己打分"——这个原则在软件工程里看似常识,在 Agent 系统里却容易被忽视。主模型自评会导致自我合理化,用独立小模型做 Eval 判定才能真正保证反馈的客观性。Claude Code /goal 的二值化门控(红色 NO / 绿色 ✓)是这个原则最直接的产品化体现。

实践启示

  1. 用 Loop Stack 六件套(Skill-Spec-Tool-Act-Eval-Stop)审视每一个 Agent 循环:先问六个问题——Skill 够吗?Spec 清楚吗?Tool 全吗?Act 可观测吗?Eval 独立吗?Stop 条件明确吗?六件套不完整,循环就会"漏"。

  2. 永远不要让主模型自评输出:无论多小的任务,只要涉及"判定是否完成",都要引入独立小模型或独立 Agent 做 Eval。主模型自评是 Agent 系统里最常见的可靠性陷阱。

  3. 每个循环必须有显式、可验证的 Stop 条件:没有 Stop 条件 = 循环永远跑不完。在设计 Loop 的第一天就要定义 Stop,而不是等到系统上线后再加。

  4. 把 Loop Ledger 作为 Agent 系统的必备组件:每一次循环的决策、输入、输出、时长、token 消耗都要记成 append-only 审计日志。这不仅是事后调试的基础,也是 Agent 系统通过合规审查的前提条件。

  5. 为长期运行的 Agent 配套 Entropy Janitor 机制:代码腐化是长期 Agent 运行的必然结果,不能靠 human review 解决。需要在系统设计时就把 Janitor Loop(清理重复/过度抽象/无效依赖)作为标准件纳入循环体系。

  6. Loop 部署选云端不选本地:如果 Loop 需要在用户离开后继续运行,就必须部署在云端(参考 Claude Code Routines / Codex Automations)。本地会话的循环无法"长在家",这是 Agent 从个人工具走向 production 系统的工程前提。

11. 待补充与限制

  • PDF 限制:原报告 89 页扫描版,仅 14 页可读。Loop Stack 详细设计参数、具体 Codex sub-agent 的 prompt 模板、Worktree Fleet 的合并算法细节、Entropy Janitor 的触发频率策略等章节未深入到具体工程实现级
  • 可执行性:六件套是概念框架,未给出可下载的模板或代码库
  • 度量:报告未提供"Loop 好 vs 坏"的量化指标 —— 是体验式而非实证式

相关实体


Ch13.004 NICE:浙大提出的理论驱动型 LLM 社会智能诊断基准

📊 Level ⭐⭐ | 16.6KB | entities/nice-zhejiang-university-social-intelligence-benchmark-hyman.md

NICE:浙大提出的理论驱动型 LLM 社会智能诊断基准

本实体整理自 原文存档,并参考浙大 arXiv 论文 NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs(https://arxiv.org/abs/2605.29685 )。

一句话总结

NICE(Not Iust Correctness, Evaluation of social intelligence)由浙江大学心理与行为科学系与人工智能学院联合团队提出,将社会智能组织为 4 大类、11 维度、34 个能力内涵,用 137 道中国情境排序题评测 5 个前沿 LLM(GPT-5.5、Claude-Opus-4.7、Gemini-3.1-pro-preview、DeepSeek-V4-pro、Qwen3.6-plus),发现模型总体准确率(75.1%)高于人类参考组(70.4%),但「沟通」是集体短板,且模型在多轮沟通、非言语沟通、同步性三个内涵上系统失效。

NICE 解决的关键问题

社会智能(Social Intelligence)通常指个体理解、融入并适应社会环境的能力,对 LLM 来说直接关系到人机交互的质量与安全。现有评测基准存在三个关键 gap:

  • Gap 1:缺少整体全面、理论驱动的社会智能评测框架(多数基准聚焦心理理论/情绪理解等单一切片)
  • Gap 2:缺少精细到能力内涵的诊断能力(错误只能归到维度总分,无法定位到具体能力内涵)
  • Gap 3:缺少贯穿全流程的严谨心理测量学方法

NICE 的定位正是系统补齐这三条 gap。

理论框架:4 大类 × 11 维度 × 34 能力内涵

NICE 的理论框架由系统文献综述 + 16 位专家多轮评分修订而成,采用层次分析法(AHP)确定各层级权重。

类别 维度 模型需具备的能力
Cognition(社会认知) 社会感知、社会理解与洞察 感知、理解和推断社会信息
Interaction(社会交互) 沟通、情绪利用、关系管理、自我一致性 选择合适的沟通、情绪、关系和行为策略
Experience(社会学习) 观察模仿、适应性学习 从观察、互动结果和反馈中学习
Norm(社会规范) 社会文化智能、社会责任、道德与伦理智能 理解社会文化规则、道德约束和责任要求

NICE 是第一个将社会智能全面理论化的评测框架,且每一道题与唯一的能力内涵清晰对应,这是它"可诊断"的基础。

题目设计:排序题替代单选

NICE 共 137 题,基于中国情境设计,每题包含:

  • 一个社会情境
  • 一个问题
  • 若干候选回应(按"最优—次优—最差"梯度排列)

测试要求模型完整排序候选回应,与专家标准答案完全一致才算正确。这跳出"非黑即白"的判断,考察模型社会判断的合理性和边界敏感性——能否识别最差选项是 NICE 与其他 benchmark 的最大差异。

为什么用排序而不是单选?

单选测试中模型可能"碰巧选对最优"但仍把夸张的礼貌行为排在第二位;排序任务把边界敏感性显式化,让模型识别"什么行为不该做"成为可测量信号。

心理测量学四阶段构建流程

NICE 的构建分四阶段,全程引入心理测量原则:

  1. 框架构建:人类 + AI 社会智能理论 + 16 位专家评分 + 焦点小组 + AHP 权重
  2. 素材收集:18 个社会智能相关 LLM 评测基准 + 43 个经典心理学范式作为参考
  3. 题项构建:2 位具 7–8 年心理学研究经验的研究者严格按目标维度设计
  4. 题项评估与验证:三轮修订 + 12 位评估者 5 点评分(阈值 3.5 分;不达标题项重测)

这一流程的工程意义:避免多个子任务简单拼凑,增强理论框架有效性和诊断结果可解释性。

五大核心发现

发现 1:LLM 总体准确率高于人类参考组

模型 NICE 准确率
LLM 平均 75.1%
Gemini-3.1-pro-preview ~75%+(与 GPT-5.5 并列前二)
GPT-5.5 ~75%+
Claude-Opus-4.7 71.1%(最低)
人类参考组(14 人) 70.4%

LLM 平均比人类高 4.7 个百分点,但前二差距极小,分布紧凑。

发现 2:优势集中在部分维度,尚未全面领先

LLM 优势集中在:社会感知、情绪运用、自我一致性、适应性学习、社会责任 5 个维度。其余 6 个维度(尤其沟通 D3)未显示稳定优势。

发现 3:沟通是集体短板

在所有 11 个维度中,D3 沟通(Communication)是人类参考组显著优于 LLM 的唯一维度,且对 5 个被测模型都是得分最低维度。

发现 4:沟通短板集中在三个内涵

模型在 D3 的失效集中在:

  • 多轮沟通(multi-turn)
  • 非言语沟通(non-verbal)
  • 同步性(synchrony)

这三类任务的共同点是:高度依赖互动节奏、非语言线索、上下文连续性——而当前 LLM 的"上下文窗口 + 文本生成"范式与这三类需求存在结构性错配。

发现 5:模型可能过度偏好显性礼貌行为

经典反例:初次见面场景中,对"180 度鞠躬"的判断

  • 71.43% 的人类参与者认为是最差选择(夸张、不自然)
  • Claude-Opus-4.7 和 GPT-5.5 在 3 次独立测试中从未把它排为最差,稳定放在第二位
  • 后续解释显示模型把它理解为"礼貌表达"

这暴露了模型的"礼貌偏好"——能识别正确答案的"对",但无法识别"过了"。"总分高"掩盖了这种边界敏感性。

深度分析

排序题作为诊断信号的设计哲学

NICE 的排序题本质上是在测试"边界敏感性"——模型能否识别"什么行为不该做",而不仅"什么行为最该做"。这与 RLHF 的偏好对齐训练目标高度同构,但又有重要差异:

  • RLHF 关注"输出对人类偏好的拟合度",但不显式测试"违规行为的识别"
  • NICE 把"识别最差选项"作为评分项之一,强制模型展示对越界行为的判别能力

这意味着 NICE 不仅是评测工具,还可以作为对齐训练的目标函数——把"排序的边界敏感性"作为奖励信号,可能比单纯"对齐到人类偏好"更能培养出对情境敏感的智能体。

D3 沟通短板的范式根源

LLM 在"多轮/非言语/同步性"三个沟通内涵上的集体失效,根源在于模型架构与沟通任务的结构性错配

沟通内涵 LLM 范式缺陷
多轮沟通 上下文窗口限制 + 位置编码衰减 → 长对话中后段信息丢失
非言语沟通 文本模型根本没有对肢体、表情、语调的通道 → 即使把话写成文字也缺乏情境感
同步性 单次生成模式无法观察"对方此刻的反应" → 无法做互动节拍(pacing)调整

这一发现对多模态 Agent、对话系统、陪护机器人都有直接启示:单文本 LLM 永远无法"看起来懂沟通",必须引入多模态输入 + 反应性生成机制。

礼貌偏好与对齐的隐性代价

NICE 暴露的"过度偏好显性礼貌"现象可能是 RLHF 的隐性代价——人类标注员普遍偏好"礼貌"输出,模型学到了"礼貌 = 好"的启发式,却丢失了"礼貌过头 = 越界"的判断力。

这指向一个深度对齐问题:对齐到人类偏好的均值,会让模型在长尾的"反共识"判断上失灵。社会智能的对齐可能需要"反事实人类评估"——专门训练模型识别"多数人偏好但实际越界"的场景。

中国情境 vs 西方情境的迁移性

NICE 全部基于中国情境设计(人际边界、面子、关系等文化负载强),5 个被测 LLM 总体表现仍能超过人类参考组,这本身是一个跨文化稳健性信号——前训练的语料混合让 LLM 在不同文化情境下都获得了基础社会判断能力。

但 D3 沟通短板的根因之一可能正是文化负载的中和:模型学到了"礼貌"的一般模式,但在"中国式 180 度鞠躬"这种文化特异性信号上失灵。这对部署在特定文化语境的 Agent 是重要警示。

实践启示

对 LLM 评测的启示

  1. 从总分竞赛走向能力诊断:当一个模型的"社会智能"总分高于人类,开发者更应关心"它在哪些具体内涵上仍不如人类",而非"它总分多少"
  2. 排序题比单选更能暴露细微缺陷:单选测试的高分可能掩盖边界敏感性的缺失
  3. 理论驱动优于数据驱动:从框架出发设计题项(如 NICE 的 4×11×34)比从语料库随机抽题更具诊断价值

对 Agent 设计的启示

  1. 沟通型 Agent 需多模态:单文本 LLM 注定在非言语沟通、同步性上有结构性缺陷,客服/陪护/教育等强沟通场景的 Agent 必须考虑引入语音、视觉、节奏感知
  2. 边界敏感性可作为对齐目标:把"识别最差选项"的能力作为训练信号,可能比"输出最礼貌回应"更接近真正的社会智能
  3. 文化情境的本地化训练:把特定文化的人际边界、关系模式、情境规约做成领域数据,可提升 Agent 在该文化下的可信度

对 AI 安全与对齐的启示

  1. 礼貌偏好的隐性代价:模型学到了"礼貌 = 好",但失去了"礼貌过头 = 越界"的判别力 — 显式测试"反共识边界"是对齐评估的关键
  2. 社会智能短板 ≠ 安全风险:D3 沟通短板目前表现为"过度礼貌",未直接造成安全风险;但同一短板模式若出现在"伦理判断"维度,可能引发更严重问题 — 需扩展 NICE 类评测到安全边界

与其他评测基准的对比

维度 NICE 心理理论/情绪类基准 开放式多轮交互基准
理论驱动 ✅ 4×11×34 完整框架 ❌ 通常聚焦单一能力 ⚠️ 部分有理论背景
能力内涵级诊断 ✅ 34 个内涵 ❌ 仅总体分数 ⚠️ 子任务分数
心理测量学方法 ✅ 全程 AHP + 专家验证 ⚠️ 部分有 ❌ 多为语料抽样
排序题(边界敏感) ❌ 多为单选 ❌ 多为开放式
中国情境 ✅ 137 题 ⚠️ 部分有 ⚠️ 部分有

NICE 真正的差异化定位是「理论 + 内涵级 + 排序题」三位一体——三者结合才能既给出"模型社会智能如何"的总体判断,又给出"具体在哪条能力上失效"的可操作信号。

局限与未来方向

  • 137 题规模相对有限,未覆盖更多文化语境
  • 5 个被测 LLM 均为通用模型,未涵盖专门微调的"对话/陪护"类模型
  • 14 人的人类参考组规模小,统计功效有限
  • 排序题评估方法本身需要专家一致性验证

未来方向:拓展到复杂互动场景、更广泛文化语境、更大规模人类样本,从静态诊断走向贴近真实世界的人机互动评估。

相关实体

原文存档


Ch13.005 07—AI Skill 测评体系完整进阶指南:5 大能力缺口与填补路径

📊 Level ⭐⭐ | 16.6KB | entities/ai-skill-测评体系进阶指南.md

测评体系的当前能力边界

SkillSentry 测评体系经过多个阶段迭代,已解决大量基础问题,但随着业务复杂度提升,仍存在需要持续投入的能力缺口。

已很好地解决的能力

  • 单条规则的原子级验证:通过原子场景用例对每条规则进行独立验证
  • 业务逻辑组合验证:通过业务逻辑用例验证多条规则组合后的行为
  • 自判卷偏差:执行者和 Grader 角色分离,消除主观偏差
  • 负向增益检测:with vs without 对比,确保 Skill 真正带来正向增益而非负向损害
  • 多轮 E2E 用户旅程验证:完整模拟用户与系统的多轮交互场景

已填补的历史缺口

缺口 解决方案
触发率盲区 新增阶段一 AI 模拟预评估,产出置信度估算
纯文本 Skill 无法测 新增 Skill 类型自动检测 + 纯文本执行模式
效率层指标未采集 新增 timing.json 自动读取,P50/P95 响应时间和 Token 消耗

尚未解决的能力缺口

优先级 缺口 原因 影响
🟡 前提条件 MCP 环境就绪 未配置时自动降级为规则推断模式 规则推断模式下结论不可信
🟡 重要 触发率精确测量 AI 模拟方案是估算,不是精确率 S/A 级正式发布前需 skill-creator run_eval.py
🟡 重要 真实用户分布 用例全是工程师设计,过于整洁 线上真实用户的口语化输入可能表现不同
🟡 重要 模型版本兼容性 没有自动检测模型升级后的行为变化 模型升级可能悄悄破坏 Skill
🟢 一般 知识时效性 没有规则到期提醒 业务规则变了但 Skill 没更新

进阶方向一:触发率测评

触发率是测评体系的第一道门——Skill 触发不了,后面所有质量保障都没有意义。

当前状态:AI 模拟方案(阶段一自动运行)

从 description 提取触发语义
自动生成 10 条测试 prompt(5 应触发 + 3 不应触发 + 2 边界)
AI 逐条判断触发概率 + 置信度 + 判断依据
输出 trigger_eval.json,报告第十一章可视化

AI 模拟方案的价值:覆盖了「完全没有触发率数据」的问题,从 0 到有;置信度 low 时自动提示优化 description。

AI 模拟方案的局限:是估算值而非精确测量,不适合作为 S/A 级正式发布的唯一依据。

精确测量路径:集成 skill-creator run_eval.py

生成 20 个 eval query(10 个应触发 + 10 个不应触发)
60/40 分成 train/test,防止过拟合
循环:评估 → 调 LLM 改进 description → 重新评估
按 test 分数(不是 train)选 best description

集成前提:依赖 claude CLI(claude -p 命令),需要 Claude Code 执行环境。

特殊注意:Claude 有「undertrigger 倾向」——不用 Skill 比应该用的时候更多。description 必须明确说明「即使用户没有显式提到,遇到 X 场景也应该使用」。

进阶方向二:多 Skill 编排链路测试

核心问题:多个 Skill 协同时,单个 Skill 通过率无法保证组合结果的正确性。

三个核心问题

  1. 路由正确性:用户的一句话,激活了正确的 Skill 组合吗?
  2. 上下文传递完整性:Skill A 的输出作为 Skill B 的输入,信息有没有丢失或变形?
  3. 端到端结果正确性:即使每个 Skill 单独测都通过,组合后可能产生新的错误。

编排测试特有的失败模式

  • 上下文污染:Skill A 写入的状态,让 Skill B 做出错误决策
  • 格式不兼容:Skill A 输出 Markdown 表格,Skill B 期望 JSON 结构
  • 触发竞争:同一句话同时触发两个 Skill,各自调用同一接口,产生重复操作(对报销系统是灾难)

建议的分层方案

Level 方案 前提
Level 1 接口契约测试:静态分析各 Skill 的输入/输出格式是否兼容 现在就可以做
Level 2 链路集成测试:一个 prompt 触发多个 Skill,验证端到端结果 所有参与 Skill 的单元测试先通过
Level 3 混沌测试:故意让链路中某个 Skill 返回异常,验证整体容错 只在关键链路上做

进阶方向三:真实用户数据驱动

核心问题:工程师设计的「标准化」用例与真实用户输入之间存在系统性偏差,导致测评通过率虚高。

真实用户输入的特点

  • 口语化:「帮我报个餐费」而不是「请帮我创建一个日常餐费报销申请」
  • 有错别字:「报消」、「报消单」
  • 信息不完整:「帮我报销一下」(没说类型,没说金额)
  • 背景混杂:「我昨天去北京出差,哦对了,帮我把上周的餐费也报了」

解决方法

  1. 收集线上真实用户的对话记录(脱敏处理)
  2. 从中提取「触发了报销流程」的 query,加入 eval set
  3. 特别关注导致线上投诉的 query,作为重点测试用例

进阶方向四:模型版本兼容性测试

核心问题:模型版本升级(如 Claude Sonnet 4 → 5)是隐性风险——底层模型行为的静默变化会让已通过测评的 Skill 在新版本上出现回归。

建议的机制

  1. 在 eval_environment.json 中记录 model 字段
  2. 模型升级时,自动触发对所有 S/A 级 Skill 的重新测评
  3. 对比新旧版本的通过率变化,发现「模型升级破坏了哪些场景」

进阶方向五:知识时效性管理

核心问题:业务规则有「保质期」,规则变了但 Skill 没更新,必须用主动管理机制来对抗。

建议的格式

# 超标校验规则(最后验证:2026-03,下次复核:2026-06)
checkExpenseItem 返回 exceededMoney 时,自动扣减,无需询问原因...

触发复核的场景

  • 定期:S/A 级每季度
  • 事件驱动:公司报销制度更新 → 立即触发相关 Skill 复核

三条件对比范式(深度评测)

判断「继续优化是否值得」的决策工具,适合大版本改动后或资源有限需要取舍时。

条件A:without_skill(纯模型能力)
条件B:with curated_skill(人工设计的 Skill)
条件C:with self-generated_skill(让模型自己生成 Skill)
解读:
  B > C → 人工 Skill 有价值,继续优化
  B ≈ C → 继续优化边际收益低,可能该停了
  B < C → Skill 过度约束了模型(极少见但危险)

给测评体系建设者的建议

1. 先确认 MCP 配置就绪再跑测评

SkillSentry 支持真实调用 MCP,但需要 MCP 在执行环境中正确配置。启动时会自动探测,探测失败则降级为规则推断模式。规则推断模式下的通过率没有任何意义。

2. 用例质量 > 用例数量

20 个有判别力的断言,比 100 个弱断言更有价值。每次测评结束后看 eval_feedback,改进断言设计。

3. 负向增益比失败更危险——发现后用二分法定位

用例通过率 60% 是明显有问题,但 Δ < 0 容易被忽视——「至少还有 80% 通过率呀」。实际上加了 Skill 反而更差,说明这个 Skill 在某些场景是有害的。

二分法定位步骤

  1. 找出 Δ < 0 的具体用例
  2. 展开该用例,对比 with_skill 和 without_skill 的 transcript
  3. 看 Analyzer 的改进建议
  4. 临时注释掉 SKILL.md 中一半的规则模块,重跑该用例
  5. Δ 变正 → 被注释的那半规则里有问题,继续二分;Δ 仍负 → 另一半规则里有问题
  6. 找到具体规则 → 修改或删除 → 重测确认

4. 测评不是一次性的

Skill 会迭代,模型会升级,业务规则会变化。建立定期测评机制(尤其是 S/A 级 Skill),才能保证质量持续可控。

总结:已解决 vs 仍有空白

已解决

问题 解决方案
AI Skill 测评的「自判卷」偏差 四层验证体系
随机性导致的结论不稳定 多次运行取均值
负向增益的发现 with vs without 对比
规则覆盖率的量化 功能/路径/断言三层覆盖率
发布决策的标准化 准入指标表
触发率盲区 AI 模拟估算,阶段一自动运行
纯文本 Skill 无法测 Skill 类型自动检测 + 纯文本执行模式
效率层指标未采集 timing.json 自动读取 + P50/P95
without_skill 文件系统污染 双 workspace 沙箱隔离
通过率被存在性断言虚高 断言强度三级分级
transcript 含 AI 主观注释影响 evidence 双分离格式 + Grader 引用优先级
quick 单次运行结论不稳定 强制 2 次,差距 >15% 自动降级
触发率 AI 估算无门槛 low 置信度 / TP<70% / TN 误触发强制降为 CONDITIONAL PASS

仍有空白

缺口 状态
触发率精确测量 需集成 skill-creator run_eval.py
真实用户分布对齐 需要线上数据
多 Skill 编排链路测试 需要多个稳定 Skill
模型版本兼容性自动化 模型升级时自动触发回归测评
知识时效性管理机制 规则到期提醒
description 自动优化循环 依赖触发率精确测量

对「权威可信」的诚实定位

经过信任加固,SkillSentry 的测评结论在以下维度已具备较高可信度:

维度 改进前 改进后
MCP 调用参数验证 可信 可信(不变)
Δ 增益有效性 中等(文件污染) 高(双 workspace 沙箱隔离)
通过率的意义 中等偏低(存在性断言稀释) 高(精确通过率独立展示)
transcript evidence 可信度 中等(AI 注释混入) 高(双分离,agent_notes 降权)
结论稳定性 未知(单次运行) 有基准(两次运行,差距可见)
触发率风险识别 无门槛(只给警告) 有机制(低置信自动降级)

终态定位:对「核心 MCP 调用流程是否按规则执行」给出可信的、可追溯的答案;对 S 级场景下安全发布,需要 standard/full 模式 + 灾难场景 + 精确触发率,缺一不可。

深度分析

SkillSentry 测评体系的演进折射出一个根本性的工程挑战:如何对 AI 原生系统进行可信的质量评估。传统软件测试依赖确定性的输入-输出映射,而 Skill 的行为本质上受限于底层模型的概率特性。测评体系的核心创新在于引入了「with vs without」的对照范式——这不仅是技术手段,更是一种认识论上的转变,承认了 AI 系统的质量不能仅看绝对通过率,而必须衡量 Skill 带来的增量价值。

触发率问题揭示了测评体系中一个深刻的元认知困境:AI 模拟方案本质上是「用 AI 评估 AI」,这种自我引用结构天然存在可信度上限。Claude 的 undertrigger 倾向暗示,当前大模型在遵循指令方面存在系统性的保守偏差——不用 Skill 比应该用的时候更多。这不是某个模型的缺陷,而是当前 RLHF 训练范式对「拒绝执行」给予过度奖励的副产品。理解这一点,对于设计任何依赖模型遵循能力的产品都至关重要。

多 Skill 编排的挑战暴露了模块化 AI 系统的根本性难题:当多个 Skill 协同工作时,整体行为无法通过单独验证每个 Skill 来保证。上下文污染、格式不兼容、触发竞争这三种失败模式,实际上反映了分布式系统设计中经典的接口契约问题。只是在 AI 系统中,接口是自然语言描述的「description」,契约是隐式的业务规则,这使得问题更加隐蔽和难以形式化。

真实用户数据驱动的方法论揭示了评测领域长期被忽视的系统性偏差:工程师设计的用例代表了一种「理性用户」假设,而真实用户的输入充满了口语化表达、错别字、信息残缺和背景噪音。这种偏差导致测评通过率虚高,形成一种虚假的安全感。三条件对比范式(without_skill vs curated_skill vs self-generated_skill)提供了一种诊断工具,可以判断人工设计的 Skill 是否真正超越了模型的原生能力,还是只是在弥补一个根本不存在的缺陷。

模型版本兼容性问题和知识时效性问题本质上是同一挑战的两个面向:AI 系统的行为会随时间和环境变化,而传统测试的「一次通过,永远有效」假设在这种情况下失效。建立持续监控和定期重评机制,不是可选项,而是 AI 时代质量保障的必选项。这要求在架构设计阶段就考虑到测评的可重复性和环境敏感性。

实践启示

  • 在设计 Skill 评测体系时,优先建立 with vs without 的对照基准:没有基准线就没有增量衡量,任何通过率数字都是空中楼阁。建议从第一个 Skill 开始就强制运行双测,即使初期结果看起来「没必要」。

  • 触发率测量不要过早追求精确,宁可先有方向正确的估算:AI 模拟方案的价值在于建立触发率意识,而非提供精确数字。等业务成熟到需要 S/A 级发布时,再投入 skill-creator run_eval.py 的集成成本。过早优化是万恶之源。

  • 多 Skill 编排必须从 Level 1 接口契约测试开始:很多编排问题在静态分析阶段就能发现,无需等到动态运行。投入小、收益大,应该成为任何多 Skill 系统的基线要求。

  • 建立真实用户 query 的持续回流机制:每季度从线上数据中抽取脱敏样本加入评测集,是对抗「工程师设计偏差」的唯一有效手段。初期量不需要大,20-30 条有代表性的真实 query 比 100 条标准 query 更有价值。

  • 将模型版本升级视为高风险事件,强制触发 S/A 级 Skill 的回归测试:模型升级前后的通过率对比应该成为发布门禁的一部分。如果通过率下降超过阈值,自动触发告警并暂停相关 Skill 的线上暴露。


原文存档

测评指标体系

测评报告解读

相关实体


Ch13.006 ai-skill-测评指标体系

📊 Level ⭐⭐ | 16.2KB | entities/ai-skill-测评指标体系.md

Ai Skill 测评指标体系

02—通过率、增益 Δ、IFR 怎么看?AI Skill 测评指标体系完整解读

系列:AI Skill 测评体系从零到一(二) 难度:进阶 适合读者:需要理解测评数字含义的工程师和产品经理 📌 一句话摘要:AI Skill 测评有 8 个核心指标,90% 的人只盯通过率却忽略了「增益 Δ」——本文一次讲清楚每个数字的含义、来源和发布红线。

指标太多记不住?用「九层」来理解

AI Skill 测评指标体系由 9 层维度构成,从用户感知到工程内核,覆盖一个 LLM 应用上线前需要验证的所有质量维度。 记忆方法:把 9 层想象成「从用户感知到工程内核」的由外到内的洋葱结构。 口诀:触发→输出→规则→对话→容错→效率→设计→覆盖→维护 | 层级 | quick 模式 | standard 模式 | full 模式 | |------|-----------|---------------|-----------| | 触发层、输出层、业务层 | ✅ 必测 | ✅ 必测 | ✅ 必测 | | 交互层、健壮层、工程层 | — | ✅ 必测 | ✅ 必测 | | 效率层、设计层 | — | ⚡ 部分 | ✅ 必测 | | 组织层 | — | — | 💡 建议 |

核心指标逐一解读

先说「灰色结论」INCONCLUSIVE

INCONCLUSIVE(无法验证):这条用例没有出结论,不代表 AI 失败了,而是测试资产或环境尚未就绪。 常见原因:

  • 测试文件类型不符(如想测「住宿发票检测」规则,手头只有汽油发票)
  • 账号权限限制
  • 测试方法绕过了 Skill 层
  • 数据已过期或被删除 正确处理:补充对应测试资产后重新跑该用例。INCONCLUSIVE 用例不计入通过率,但必须在报告中单独说明补充计划。

1. 通过率(Pass Rate)

通过率 = 断言通过数 / 总断言数 × 100% 断言(Assertion):测试用例中对「Skill 应该输出什么」的具体描述。 准入阈值(参考值,非行业统一标准): | 风险等级 | 通过率要求 | 典型场景 | |---------|-----------|---------| | S 级(关键) | ≥ 95% | 报销、审批、涉及资金的写操作 | | A 级(重要) | ≥ 90% | 下游系统的直接输入、失效代价高 | | B 级(一般) | ≥ 80% | 失效影响体验但用户可自行修正 | | C 级(辅助) | ≥ 70% | 锦上添花,失效影响有限 | ⚠️ 对比基线 ≠ 准入基线:Δ=+35% 但通过率 87%(未达 S 级 95%)→ 不能发布。

2. 触发率(Trigger Rate)

触发率 = Skill 被正确触发的次数 / 总测试次数 × 100% 来源:信息检索领域的 Recall/Precision。 AI 模拟方案(阶段一自动运行):

从 description 提取触发语义
自动生成 10 条测试 prompt(5 应触发 + 3 不应触发 + 2 边界)
AI 逐条判断:prediction + confidence + reasoning
输出 trigger_eval.json
准入处理(非硬性 FAIL 条件):

  • TP 估算 ≥ 80%:✅ 估算达标
  • TP 估算 70-80%:⚠️ 偏低,建议优化 description
  • TP 估算 < 70%:⚠️ 触发率不足,须优化后重测 undertrigger 问题:Claude 有 undertrigger 倾向——Description 要稍微「pushy」,明确写出「即使用户没有明确说,遇到 X 情况也要使用」。

3. 增益 Δ(Delta)

Δ = with_skill 通过率 − without_skill 通过率。Δ < 0 是发布硬红线。 来源:SkillsBench 论文(arxiv.org/abs/2602.12670):84 个有效任务中 16 个(约 19%)显示负向增益。 | Δ | 含义 | 行动 | |---|------|------| | > 0 | Skill 有帮助 | ✅ 正常发布 | | ≈ 0 | Skill 无增量价值 | 评估是否需要存在 | | < 0 | Skill 帮了倒忙 | 🔴 发布红线,查根因 | 三条件对比范式:

  • 条件 A:without_skill(纯模型能力基线)
  • 条件 B:with curated_skill(人工精心设计的 Skill)
  • 条件 C:with self-generated_skill(让模型自己生成 Skill) B > C → 人工 Skill 有价值;B ≈ C → 边际收益低;B < C → 人工 Skill 过度约束模型

4. 指令遵循率 IFR(Instruction Following Rate)

IFR = 正确遵循硬性规则的次数 / 触发硬性规则的总次数 × 100%。S 级要求 IFR = 100%。 硬性规则:Skill 中明确写了「必须」「禁止」「固定为」的规则。 来源:对应通用研究方向 Instruction Following,参考 Google 的 IFEval 基准(arxiv.org/abs/2311.07911)。 IFR vs 通过率:通过率是所有断言通过比例;IFR 只关注硬性规则。一个 Skill 可能通过率 92% 但 IFR 只有 80%——有 20% 的情况下违反了关键规则。

5. 一致性得分(Consistency Score)

一致性 = 关键字段完全一致的对比组数 / 总对比组数 × 100% 同一意图用不同表达方式(正式/口语/简略),关键输出字段应完全一致。 适用范围:full 模式才系统计算。

6. 稳定性(Stddev)

标准差 > 0.3 = 高度不稳定,立即排查。 | Stddev | 含义 | 行动 | |--------|------|------| | < 0.05 | 稳定,结果可信 | S 级发布要求 | | 0.05-0.10 | 轻微波动,可接受 | 观察 | | 0.10-0.30 | 明显不稳定 | 检查 prompt 歧义 | | > 0.30 | 高度不稳定 | 检查 Skill 规则冲突 |

7. 幻觉检测(Hallucination Detection)

S 级 Skill 要求 0 次幻觉。 幻觉:接口调用实际失败了,但模型仍输出「草稿已保存」——链接是编造的。 检测方法:评审 Agent 提取输出中的所有「隐含声明」并逐一核查是否有执行记录支撑。

8. 覆盖率(Coverage)

综合覆盖率 = 功能覆盖率×0.5 + 路径覆盖率×0.3 + 断言覆盖率×0.2 S/A 级目标 ≥ 85%。 | 功能覆盖率 | 有用例覆盖的规则数 / 总规则数 | | 路径覆盖率 | 有用例覆盖的执行路径数 / 总路径数 | | 断言覆盖率 | 有断言覆盖的输出字段数 / 总输出字段数 |

完整准入指标表

指标 S 级 A 级 B 级 C 级
通过率 ≥ 95% ≥ 90% ≥ 80% ≥ 70%
触发率(精确) ≥ 95% ≥ 90% ≥ 85% ≥ 80%
触发率(AI估算) TP≥80%(参考) TP≥80%(参考) TP≥70%(参考) 仅参考
增益 Δ > 0,不允许负向 > 0 ≥ -5% 不要求
IFR = 100% ≥ 95% ≥ 90% ≥ 80%
稳定性 Stddev < 0.05 < 0.10 < 0.20 < 0.30
覆盖率 ≥ 95% ≥ 85% ≥ 70% ≥ 50%
灾难场景 全部通过 全部通过 不强制 不要求
幻觉检测 0 次 ≤ 1 次 ≤ 2 次 不要求
P95 响应时间 < 15s < 15s < 30s < 30s

纯文本 Skill 全面支持

类型 判断依据 执行模式
mcp_based SKILL.md 中有 MCP 工具引用 真实工具调用
code_execution 描述了 Bash/脚本执行 真实命令执行
text_generation 其他(写作、分析、问答等) 纯文本模式

指标之间的关系

通过率 Δ 常见根因 行动
Skill 质量好,有明显价值 ✅ 正常发布
≈ 0 模型本身就能做到,Skill 无增量价值 评估是否需要
> 0 Skill 方向对,但执行有问题 继续优化
< 0 Skill 帮了倒忙 🔴 停止发布
覆盖率 < 50% 补充用例

哪些指标是「权威的」,哪些是「经验值」

有明确学术/工业来源:

  • 通过率:OpenAI Evals、HELM 等标准基准
  • 增益 Δ:SkillsBench 论文(arxiv.org/abs/2602.12670)
  • 触发率:信息检索 Recall/Precision
  • 幻觉检测:TruthfulQA、FactScore
  • 稳定性:统计学标准差 内部经验值(无直接学术背书):

  • S 级通过率 ≥ 95% 的具体阈值

  • IFR = 100% 的要求
  • Stddev < 0.05 的稳定性标准 这些经验值基于「业务容错度、用户预期、历史数据」三因素制定,可根据实际业务调整。

深度分析

1. 指标体系的层次化设计哲学

AI Skill 测评指标体系的 9 层结构(触发→输出→规则→对话→容错→效率→设计→覆盖→维护)体现了从外到内、从用户到工程的分层验证思路。这一设计的核心哲学是:不同阶段发现的问题,修复成本差异巨大。 越外层的指标(触发率、通过率)对应用户可直接感知的问题,修复成本相对低;越内层的指标(稳定性、覆盖率)涉及 Skill 架构层面的问题,修复成本极高。因此分层测试模式(quick/standard/full)允许团队在资源约束下优先保障外层质量。

2. 增益 Δ 的本质:反事实因果推断

增益 Δ 的计算逻辑(with_skill vs without_skill)本质上是一种反事实因果推断。SkillsBench 论文的发现——84 个任务中 19% 呈现负向增益——揭示了一个反直觉事实:给模型加 Skill 不总是有帮助的,有时反而约束了模型的原有能力。 这一发现对工程实践有深远影响:

  • 必须测 baseline:不能假设 Skill 一定有正向价值,必须有对照实验
  • 三条件范式的价值:curated_skill vs self-generated_skill 的对比,揭示了人工设计的边际收益
  • 负向增益的根因:往往是规则过于死板、或与模型固有能力路径冲突

3. IFR 与通过率的分离:规则遵循 vs 整体质量

IFR(指令遵循率)将关注点聚焦在硬性规则上,与整体通过率形成正交维度。一个 Skill 可能通过率 92% 但 IFR 只有 80%,意味着20% 的情况下违反了关键规则——这在涉及安全、合规、资金的场景中是灾难性的。 这种分离设计的价值在于:它迫使开发者在设计 Skill 时显式区分硬性规则和软性期望,而不是把所有要求混为一谈。

4. 稳定性 Stddev 的工程意义

Stddev 作为 S 级发布要求的硬性指标(< 0.05),反映的是LLM 输出的概率本性。标准差过大意味着同一 Skill 在相同输入下产生显著不同的输出,这在生产环境中是不可接受的。 | Stddev 区间 | 可能的根因 | |-------------|-----------| | 0.05-0.10 | prompt 措辞存在轻微歧义 | | 0.10-0.30 | 规则边界不清晰或示例不足 | | > 0.30 | 规则之间存在冲突,或 Skill 与模型能力不匹配 |

5. 覆盖率加权的内在逻辑

综合覆盖率的加权公式(功能×0.5 + 路径×0.3 + 断言×0.2)反映了不同维度失效的风险系数:

  • 功能覆盖权重最高(0.5):规则遗漏直接导致功能缺失
  • 路径覆盖次之(0.3):执行路径遗漏导致边界 case 失效
  • 断言覆盖最低(0.2):输出字段遗漏影响可观测性,但不直接导致功能失效

6. 指标分类:学术来源 vs 经验值

指标体系中有学术来源的指标(通过率、Δ、触发率、幻觉检测、稳定性)具有更强的可解释性和可迁移性,适合跨团队/跨组织对比。 经验值指标(S 级阈值、IFR=100%要求)则是组织特定的风险偏好表达,需要随着业务发展和数据积累持续校准,不宜机械照搬。

实践启示

1. 建立「指标优先序」意识

面对 8 个核心指标,团队容易陷入「追求全面达标」的误区。实践建议:

  • S/A 级 Skill:优先保障通过率 + Δ + IFR + 稳定性,覆盖率可适度降低
  • C 级 Skill:通过率达标即可,Δ 和 IFR 不作强制要求
  • 快速迭代阶段:先用 quick 模式保触发率和通过率,full 模式留给发布前最终验证

2. 将 INCONCLUSIVE 纳入技术债务管理

INCONCLUSIVE 不是「无所谓」的状态,它暴露了测试资产缺口。建议实践:

  • 建立 INCONCLUSIVE 专项台账,记录每个灰色用例的原因和补充计划
  • 在 Sprint 规划中预留「测试资产补充」专项工作
  • 将 INCONCLUSIVE 率纳入 QA 报告,作为测试充分性的代理指标

3. 触发率优化的「pushy description」技巧

针对 Claude 的 undertrigger 倾向,Description 写作应:

  • 使用明确的触发语境描述:「当用户提到 X 时,即使没有明确说'请使用 Skill'也应触发」
  • 列出边界场景:「尤其是以下情况...」
  • 避免过于学术或模糊的表述

4. Δ 达标但通过率不达标的「夹心饼」困境处理

当遇到 Δ=+35%(正向)但通过率 87%(未达 S 级 95%)的情况:

  • 不要发布:通过率是准入底线,Δ 只是加成
  • 分析根因:通过率低说明 Skill 本身实现质量不足,而非 Skill 方向错误
  • 优先优化:将通过率提升到 95% 再发布,而非降低 S 级标准

5. IFR 优化的「规则分级」策略

将 Skill 中的规则显式分为硬性/软性两类:

  • 硬性规则(必须、禁止、固定为):用简短无歧义的指令句描述,确保 IFR = 100%
  • 软性规则(建议、优先、通常):用自然语言描述,允许模型有一定灵活性
  • 避免「升级」:不要把所有规则都标为硬性,这会降低模型整体表现

6. 稳定性问题的「三分法」排查

Stddev > 0.1 时,按以下顺序排查: 1. Prompt 歧义:检查是否有「或」「可能」等导致多解的词汇 2. 示例不足:关键场景是否提供了足够的 Few-shot 示例 3. 规则冲突:不同规则之间是否存在边界重叠导致的决策震荡

7. 覆盖率提升的「最小用例集」策略

提升覆盖率不必穷举所有可能输入,而是聚焦:

  • 功能覆盖:每个规则至少 1 个正向 + 1 个负向用例
  • 路径覆盖:每个分支路径至少 1 个用例
  • 断言覆盖:每个输出字段至少在 1 个用例中断言验证

8. 指标报告的「红黄绿」可视化

发布评审时,建议用三色看板呈现: | 指标 | S 级阈值 | 实际值 | 状态 | |------|---------|--------|------| | 通过率 | ≥ 95% | 96.2% | 🟢 | | Δ | > 0 | +28% | 🟢 | | IFR | = 100% | 98% | 🟡 | | Stddev | < 0.05 | 0.08 | 🟡 | 让决策者一目了然地看到哪些是绿灯放行、哪些需要人工判断。

相关实体

原文存档


Ch13.007 用 Amazon SageMaker AI 与 Qualcomm AI Hub 打通从云端训练到端侧 NPU 的交付闭环

📊 Level ⭐⭐ | 13.8KB | entities/amazon-sagemaker-qualcomm-ai-hub-edge-npu-deployment.md

用 Amazon SageMaker AI 与 Qualcomm AI Hub 打通从云端训练到端侧 NPU 的交付闭环

Background: AWS China 与 Qualcomm 合作,将云端 SageMaker 训练模型通过 Qualcomm AI Hub 编译为端侧 NPU 可执行格式,缩短边缘 AI 部署周期。

整体链路

SageMaker 训练 (PyTorch/TensorFlow)
    ↓ 导出 ONNX
    ↓ SageMaker Neo 优化
    ↓ Qualcomm AI Hub 编译
    │   (针对 Hexagon NPU / Adreno GPU / Kryo CPU 目标)
    ↓ 量化 (INT8/INT4)
    ↓ SDK 打包
    端侧设备 (手机/IoT/车载)

关键环节

1. 模型训练

  • SageMaker Training Job,PyTorch / TensorFlow
  • 多机多卡支持(EFA + Horovod)
  • 实验管理:SageMaker Experiments 跟踪 hyperparameter

2. 模型编译

  • SageMaker Neo:做框架无关的图优化(算子融合、内存规划)
  • Qualcomm AI Hub:针对 Hexagon NPU 架构做后端编译
  • 算子映射:哪些算子跑在 NPU、哪些 fallback 到 CPU
  • 内存布局优化
  • 量化感知训练 (QAT) 配合

3. 部署

  • 生成设备专属 runtime library(QNN SDK)
  • 通过 OTA 或应用商店分发
  • 端侧推理监控:latency, throughput, model accuracy drift

支持的硬件

设备 NPU 典型 use case
Snapdragon 8 Gen 3+ Hexagon V73 手机 LLM/vision
Snapdragon XR2 Gen 2 Hexagon V71 AR/VR 头显
QCS6490 Hexagon V68 IoT 网关
SA8295P Hexagon V69 车载舱内

量化策略

精度 节省存储 性能提升 精度损失
FP32 → FP16 50% 1.5-2x 极小
FP32 → INT8 75% 2-4x 可控(< 1% top-1)
FP32 → INT4 87% 3-6x 中等(需 QAT)

与传统部署方式的差异

维度 传统 (PC/GPU) 端侧 NPU
算力 数百 TOPS (FP16) 10-50 TOPS (INT8)
内存 16-80GB 4-16GB
功耗 200-700W 0.5-5W
实时性 batch processing 实时响应 (<30ms)
网络 always online 可离线

部署挑战

  1. 算子兼容性:不是所有算子都支持 NPU 加速,部分 fallback 到 CPU
  2. 精度敏感度:INT4 量化需谨慎,医疗/金融场景可能不适合
  3. 设备碎片化:不同设备型号需不同编译产物
  4. 端云协同:端侧处理不了时回退到云端推理

适用场景

  • 移动端 LLM 推理(< 3B 参数)
  • 实时图像识别(object detection, segmentation)
  • 车载舱内感知
  • IoT 网关边缘分析
  • 离线优先的智能应用

待关注

  • Snapdragon 8 Gen 4 发布后的 NPU 升级
  • QNN SDK 与其他厂商(MediaTek, Apple ANE)的兼容性
  • 端云协同推理框架的标准化

相关实体

原文存档

深度分析

云端训练与端侧编译的架构契合点

SageMaker AI 与 Qualcomm AI Hub 的组合本质上是把模型交付链条的两端做了标准化抽象。云端训练侧屏蔽了分布式 GPU 集群的运维复杂性,按使用量计费让小团队也能获得千卡级别的训练能力;端侧编译侧则通过云端托管的真实设备车队,将过去需要采购物理设备才能完成的编译验证,变成了几次 API 调用。整个链路的数据流转始终在 AWS 生态内,这意味着从训练产物到编译输入之间的 IO 延迟和跨云传输风险都被消解了。

对于算法工程师而言,这种架构的真正价值在于将端侧验证嵌入了模型迭代的内循环。以人像分割场景为例,从公开数据集微调到 Galaxy S24 真机验证的总耗时约 20 分钟,其中 SageMaker AI 训练耗时 260 秒、AI Hub 编译与验证约 10 分钟。这意味着在一次代码 review 的周期内,模型已经完成了从训练到可部署产物的完整验证,而不是像传统流程那样需要等待数周的硬件采购和真机调试排期。

量化指标评估的模型类型依赖性

文章一个重要的工程启示在于:量化质量的评估指标必须与模型输出类型强匹配。AI Hub 自动计算的 PSNR 适用于输出有界([0,1] 或 [0,255])的任务如图像超分、去噪、HDR,但对于输出 logit 动态范围大的分割模型,PSNR 会被放大给出误导性的 -21.74 dB。正确的做法是直接计算 sigmoid 后的掩膜 IoU 或 Dice 分数。

这个观察对其他端侧部署场景同样适用。目标检测模型的 mAP、LLM 的 perplexity 或 token 准确率各有其特有的误差敏感度,不能简单迁移分类模型的评估习惯。当团队在 QAT 和 PTQ 之间选择时,PTQ 的便捷性和 QAT 的精度可控性之间的权衡也需要基于具体任务评估而非通用经验法则。

INT8 量化对不同网络结构的差异化影响

从文章实测数据来看,INT8 量化将 FPN + MobileNetV2 的体积从 16.5 MB 压到 4.5 MB(压缩率 73%),同时延迟从 15.31 ms 降至 13.59 ms,这说明该网络结构对 INT8 表达友好。但文章同时指出encoder-heavy 网络更容易从量化中受益,而 decoder-heavy 或输出层复杂的网络可能需要保留 FP16 或采用 QAT 策略。

这意味着量化策略不能一刀切地应用。同一模型的不同层可能需要不同的量化精度——输出层保留 FP16、中间层 INT8——这要求编译工具链支持混合精度配置。Qualcomm AI Hub 的 --target_runtime tflite --quantize_full_type int8 选项如果无法满足这一需求,团队可能需要转向 QAT 重新训练或手动分层量化。

端云协同的分界点设计

文章提到端云协同是端侧部署的挑战之一,但并未深入探讨分界点设计原则。从架构角度看,端侧 NPU 的功耗预算(0.5-5W)和实时性约束(<30ms)与云端 GPU 的高算力(数百 TOPS)和 batch processing 模式形成鲜明对比。端云协同的核心问题不是"能不能"协同,而是"何时"协同——即在什么精度损失或延迟预算下,将推理回退到云端是合理的。

对于手机端 LLM 场景,3B 参数模型在端侧运行已经接近功耗上限,更大的模型(如 7B 以上)即使支持 NPU 加速,也很难在手机散热预算内维持持续推理。这种场景下,端云混合推理(简单 query 端侧处理、复杂推理云端处理)的分界点设计直接影响用户体验和云端成本。

CI/CD 嵌入的工程成熟度标志

文章指出 AI Hub 的编译、推理和性能分析 API 可以无缝嵌入 CI/CD 系统,这是端侧 AI 部署工程成熟度的重要标志。传统的端侧部署依赖人工操作的"阶段性验证",而自动化链路将端侧性能验证从发布前的 manually check 变成了每次 model iteration 的自动 gate。

这一能力的工程意义在于:端侧模型的每次更新都经过相同的真机性能与精度检查,而不是在设备采购不足的情况下"凭经验拍脑袋"。当模型从 FP32 更新到 INT8 或从 MobileNetV2 切换到 MobileNetV3-Small 时,CI/CD 系统可以自动捕获延迟和精度的 delta,并在超过阈值时拒绝合并。这种机制在云端模型部署中早已成熟,端侧部署的自动化是其工程化补全的最后一块拼图。

实践启示

  1. 建立端侧性能评估的度量选择规范:对于分割、超分、去噪等输出无界模型,禁止使用 PSNR 作为量化质量 gate,应直接计算 IoU、Dice 或 F-score。对于分类和检测模型,mAP 和 top-1 准确率仍然是合适的指标。团队应在项目启动阶段明确这一点,避免在评审时因度量误用返工。

  2. 利用云端设备车队替代物理采购:Qualcomm AI Hub 在 AWS 上托管的真实设备车队是端侧 AI 项目的战略资源。团队应系统性梳理目标设备清单(手机、车载、IoT 各档位至少一款),通过 AI Hub API 建立多设备性能基准库,而不是等上线前才发现特定机型延迟超标。这能将硬件采购成本转化为 API 调用成本,并且支持按需弹性扩展到更多设备型号。

  3. 公开数据集训练后必须做产品数据的二次微调:文章建议保留公开数据训练的 backbone 权重作为热启动,在产品数据上做二次微调。这是因为手机厂商的相机色彩管线、镜头畸变和低光降噪算法与公开数据集差异显著,直接迁移的模型往往在边缘质量和色彩一致性上出现可察觉的退化。

  4. 设计端云协同的显式分界点协议:当模型规模接近端侧 NPU 上限时(如 3B+ LLM),团队应预先定义端云协同的分界点协议——什么条件下端侧处理、什么条件下回退云端、切换的延迟预算是多少。这个协议应嵌入应用架构设计文档,而不是在上线前临时决策。

  5. 将端侧验证嵌入了 ML pipeline 自动 gate:在模型训练的 CI/CD pipeline 中加入 AI Hub 的 compile + profile + inference API 调用,作为每次 model iteration 的强制质量 gate。具体实现:在 SageMaker training job 完成后自动触发 AI Hub 编译任务,取回延迟和精度指标,与上一次发布的 baseline 比对;delta 超过阈值时自动拒绝并告警。这将端侧性能从"发布前人工检查"变为"每次迭代自动验证"。


Ch13.008 SaaS-Bench:浙大阿里 Steering Computer-Use Agent 真实系统评测(3.8% 通过率暴露范式天花板)

📊 Level ⭐⭐ | 10.2KB | entities/saas-bench-gui-agent-eval-unipat.md

摘要

浙大阿里 Steering 团队 + UniPat AI 推出 SaaS-Bench:23 个真实开源 SaaS 系统(Docker 部署,保留完整前后端+数据库+业务约束)+ 106 个跨应用长程任务。最强模型 Claude Opus 4.7 检查点分数 43.9%,端到端完全通过率仅 3.8%(4/106 任务)。Kimi K2.5、Gemini 3.1 Pro 0% 通过。

不是靠模型变大或加工程模块能解决的,指向当前 CUA 范式的天花板:长程任务中模型缺少对全局状态的持续感知,缺少操作后闭环验证机制,缺少从错误中恢复的能力。

Benchmark 核心设计

  • 23 个真系统、6 大领域:研发(OpenProject/Code-Server/Metabase)、财务(Twenty CRM/BigCapital/HRMS)、医疗(OpenEMR/OpnForm)、协作(SiYuan/Mattermost/ownCloud)、农业(FarmOS/Grocy)、媒体(PhotoPrism/MediaCMS/BookLore)
  • 106 个任务分布:93.4% 跨 ≥2 个应用,三应用任务占 53 个;97.3% 任务 > 100 步,最长 300+ 步
  • 两个评估指标:Resolved Score(严苛)+ Checkpoint Score(宽松)。两者的巨大落差是核心信号
  • 任务构建:LLM 生成 + 专家把关,四阶段质量保证

榜单:全军覆没

最强模型 Claude Opus 4.7 检查点分数 43.9%,端到端完全通过率仅 3.8%(4/106 任务)。Kimi K2.5、Gemini 3.1 Pro 0% 通过。

含义:Agent 可以推进部分中间环节,但几乎没有能力把完整长程工作流走完。

Pass@k:多跑几次能救吗?

  • pass@3 相比 pass@1 整体提升约 8pp
  • Sonnet 4.6 多模态任务从 33.9% 跳到 52.1%(+18.2pp)
  • 不是环境随机性(初始状态完全相同),而是路径依赖:决策点微小差异导致轨迹完全分叉
  • 多跑有帮助,但远不是解决方案

三种结构维度全部单调递减

  • 跨应用数 1→4:53% → 20%
  • 操作步长增加:得分显著下降
  • 检查点 ≤6 vs ≥18:65% → 27%

→ 真实工作流最常见形态(跨应用 + 长轨迹 + 细粒度验证)得分最低。

四种结构性失败

失败 1:任务越长,越做不对 即使每个检查点 95% 通过率,12 个检查点全通过概率仅 54%。SaaS-Bench 平均检查点远超 12。所有模型通过率随任务推进呈下降趋势 —— 不可逆的下降曲线。

失败 2:一步错,步步错 典型案例:任务要求创建公司客户「Arcturus Digital」。Agent 同时填联系人姓名和公司名,触发个人客户逻辑,实际创建为 Elena Vasquez。后续 10 张发票/付款/对账全部挂在错误实体下。3% 错误节点 → 30% 分数损失

失败 3:做完不检查,自以为对了 Claude Opus 4.6 在 Step 124 识别日期错误(2026-03-19 vs 03-20),执行修改但没回页面复查。Step 210 提交时汇报「已修复」,页面实际日期仍是 03-19。意图层成功 ≠ 状态层成功。当前 CUA 框架缺少严谨的反思闭环。

失败 4:同一张考卷,成绩忽高忽低 Claude Sonnet 4.6 同一任务三次独立运行:分数 0.00 → 0.68。路径依赖让长程执行变成赌博

范式天花板:不是工程问题

四种失败模式指向同一底层事实: - 缺少对持久状态的有效推理能力 - 缺少操作后的闭环验证机制 - 缺少从错误中恢复的能力

这不是技术债,而是当前 Agent 范式在长程任务上的天花板 —— 模型缺少对全局状态的持续感知,无法像人一样"心里有数"。

延伸洞察:SaaS 形态的保质期

今天的 SaaS 是给人设计的(菜单/按钮/表单)。当 Agent 成为主要用户,这些界面就变成累赘。

未来不是让 Agent 学会操作人类的软件,而是软件本身要为 Agent 重新设计。SaaS-Bench 揭示的不只是 Agent 短板,也是当前软件形态的保质期 —— 面向人类的 SaaS 可能都要为 Agent 重做一遍。

工程对照

失败模式 现有缓解 SaaS-Bench 暴露的差距
任务长做不对 长上下文/CoT 压缩 通过率随步长不可逆下降
一步错步步错 异常回滚/事务 错误节点权重损失是几何级数
做完不检查 Self-critique 提示 意图层 ≠ 状态层,缺少验证闭环
路径依赖 多次采样/投票 pass@3 提升 8pp 但仍不可控

深度分析

1. 检查点分数 vs 端到端通过率:全局状态的感知缺失

43.9% 检查点分数 vs 3.8% 端到端通过率的巨大落差,是 SaaS-Bench 最核心的信号。 即使每个检查点 95% 通过率,12 个检查点的全部通过概率也只有 54%,而 SaaS-Bench 平均检查点数远超 12——呈指数下降的复合失败率让长程任务几乎不可能完整通过。当前 CUA 框架在设计时没有内置"对全局状态持续感知"的机制,这是结构性缺陷而非模型能力问题。

2. 路径依赖:Agent 执行的"分叉点"陷阱

Claude Sonnet 4.6 同一任务三次独立运行,分数范围 0.00 → 0.68,这说明即使初始状态完全相同,决策点的微小差异就足以让轨迹完全分叉。 这不是环境随机性,而是路径依赖。应用到工程实践:在构建 agentic pipeline 时,应当将"关键决策节点的一致性"作为优先目标,而不是假设模型在相同输入下有行为一致性。

3. 意图层成功 ≠ 状态层成功:反思闭环的架构性缺失

Claude Opus 4.6 在 Step 124 识别并修复了日期错误,但到 Step 210 提交时,页面实际日期仍是错误的。 Agent 在意图层认为修复成功,但持久化状态层仍然错误。当前 CUA 框架缺少"严谨的反思闭环"——Agent 是不会检查自己作业的学生。这一缺陷指向当前范式在架构层面缺少状态验证层。

4. SaaS 为 Agent 重设计:界面形态的保质期

今天的 SaaS 界面(菜单、按钮、表单)是给人设计的,不是给 Agent 设计的。 当 Agent 成为主要用户,这些界面就变成了累赘。这揭示的不只是 Agent 的短板,也是当前软件形态的保质期——面向人类的 SaaS 可能都要为 Agent 重做一遍。这意味着未来软件形态演进的方向是"面向 API/Agent 的界面设计",而非继续优化人类用户体验。

5. 多尝试能部分缓解但不能解决 pass@k 的根本问题

pass@3 相比 pass@1 整体提升约 8pp,Sonnet 4.6 多模态任务提升 18.2pp。 这说明增加尝试次数有帮助,但提升幅度有限且不稳定。路径依赖意味着单次失败可能引发后续所有步骤的连锁错误,因此多次采样的工程收益存在上界。

实践启示

  • 为 Agent 设计状态验证层:在 agentic pipeline 的每个关键步骤后,强制插入"状态回读"验证,而不是依赖 Agent 的自我报告。
  • 避免长程单线路径设计:将长程任务拆分为可独立验证的短阶段,每阶段设置明确的成功标准,防止错误级联。
  • 界面形态演进纳入路线图:当规划面向 Agent 的 SaaS 集成时,需要同时考虑软件界面是否适合 Agent 操作——这可能是未来 SaaS 竞争力的核心维度。
  • 评估模型的长程稳定性:在选型评测中,除了 pass@1 分数,还应纳入 pass@3 方差和最长可通过轨迹长度,作为稳定性的代理指标。
  • 关注 path-dependence 的决策点:通过在关键分支点引入确定性规则或人工确认机制,抑制微小差异导致的全链路分叉。

链接

  • Blog:https://unipat.ai/blog/SaaS-Bench
  • GitHub:https://github.com/UniPat-AI/SaaS-Bench
  • 论文:https://arxiv.org/abs/2605.15777

原文存档


Ch13.009 Hermes 可观测性方案

📊 Level ⭐⭐ | 8.2KB | entities/hermes-observability.md

Overview

阿里云为 Hermes(Nous Research 开源 Agent 框架)开发的一套基于 OpenTelemetry 的可观测性插件方案。解决 Agent 运行时四类核心问题:过程不可见、成本不可归因、性能不可拆解、结果不可复盘。通过在 Python runtime 层埋设 instrumentation,将 Hermes 的 ReAct 执行链路还原为结构化 Trace,同时提供 Metrics 信号和高危行为审计能力。 核心价值: 将 Hermes 从"黑盒回复器"变成"能被展开、追踪、分析的运行系统",填补 Agent 运行时可观测空白。

核心问题与解决

问题 表现 解决方案
过程不可见 只能看到输入/输出/usage 汇总,ReAct 多轮推理链路空白 ReAct 结构化 Trace,每轮推理可见
成本不可归因 Token 账单只知道总账,不知道花在哪一步 按 chat span 拆分 input/output/total tokens
性能不可拆解 用户说"变慢了"但无法定位是模型慢还是工具慢 TTFT + 工具执行耗时分离
结果不可复盘 "看起来成功了但结果不对"无法溯源 完整调用链还原,定位偏移节点

技术架构

核心技术:OpenTelemetry Runtime Instrumentation

在 Hermes 所在的 Python 环境中安装 runtime instrumentation,围绕 Hermes 的关键执行边界建立 span,再通过 OTLP 标准协议上报。 五大优势: 1. 遵循 GenAI 标准 — 对齐 OpenTelemetry GenAI 语义约定 + LoongSuite 扩展 2. Trace + Metrics 双信号 — 不仅有调用链,还有趋势指标 3. Streaming TTFT — 单独记录首字延迟,区分首字慢 vs 生成慢 4. 不绑定云服务 — OTLP 标准协议,可迁移 5. 安全审计 — 异常检测识别越权访问/数据泄露/提示词注入

Trace 数据结构

Span 类型 记录内容
invoke_agent Hermes(根节点) 累计 Token、最终输出消息、总耗时
chat(模型调用) gen_ai.request.model, gen_ai.usage.input_tokens, gen_ai.usage.output_tokens, gen_ai.response.time_to_first_token
execute_tool(工具调用) gen_ai.tool.name, gen_ai.tool.call.arguments, gen_ai.tool.call.result

与其他框架对比

框架 可观测方案 特点
Hermes(阿里云版) OTel runtime instrumentation + ARMS ReAct 链路还原、TTFT、Security Audit
OpenClaw 无官方可观测方案 依赖外部日志
Claude Code Anthropic 官方 metrics usage 汇总,无细粒度 Trace
Letta 内置 memory search 偏向记忆检索,非运行时 Trace

接入部署

前提: 运行中的 Hermes 实例 + 阿里云 ARMS 或其他 OTLP 兼容后端 核心命令:

# 获取安装命令
# 登录 CMS 2.0 -> AI 应用可观测 -> Hermes -> 获取命令
# 安装插件
curl -fsSL https://arms-apm-cn-hangzhou-pre.oss-cn-hangzhou.aliyuncs.com/hermes-agent-cms-plugin/hermes-cms.sh | bash -s -- install \
  --x-arms-license-key "auto" \
  --x-arms-project "你的Project" \
  --x-cms-workspace "你的Workspace" \
  --serviceName "hermes" \
  --endpoint "https://你的ARMS-OTLP地址/apm/trace/opentelemetry"

# 开启可观测
hermes-cms enable

# 启动 Hermes
hermes  # 前台
hermes gateway start  # 后台
验证: 终端出现 loongsuite-site-bootstrap: started successfully (OpenTelemetry auto-instrumentation initialized).

下一步演进方向

方向 具体内容
数据面 日志审计 + 运行诊断(超出当前 Trace/Metrics 范围)
链路面 memory lifecycle、delegation orchestration、runtime recovery 等 Hermes 特有阶段
治理面 内容采集控制、细粒度数据治理、脱敏策略

深度分析

为什么 Agent 运行时可观测性长期缺失

传统微服务的可观测性(Trace/Metrics/Logs)已有成熟体系,但 Agent Runtime 是全新的执行范式——它不是单次 HTTP 请求,而是一个自主循环的推理过程。Hermes 的 ReAct 执行包含:模型调用 → 推理 → 工具决策 → 执行 → 结果回注 → 下一轮推理。这种多轮循环使得传统以"请求"为粒度的观测模型无法直接套用。 阿里云方案的核心创新在于:在 Python Runtime 层埋设 instrumentation,围绕 invoke_agentchatexecute_tool 三个核心边界建立 span,用 OTLP 标准协议上报。这意味着不需要修改 Hermes 源码,只要在同一个 Python 进程中加载 instrumentation,就能自动捕获完整的执行链路。

OpenTelemetry GenAI 语义约定的落地实践

方案遵循 OpenTelemetry GenAI 语义约定(gen_ai.request.modelgen_ai.usage.input_tokens 等),这意味着数据格式是行业标准的。配合 LoongSuite 扩展覆盖 execute_tool 等 Agent 特有关键节点。这种"标准 + 扩展"的策略,使得方案既具备互操作性,又不失灵活性。

安全审计的必要性

方案专门强调"高危行为审计"——识别越权访问、异常数据导出、恶意提示词注入。这反映了一个重要趋势:当 Agent 获得工具调用能力后,它的行为边界就不再是"只读"的了。一次提示词注入可能导致 Agent 调用了不该调用的工具、访问了不该访问的数据。可观测性在这里不只是性能优化工具,更是安全防线。

实践启示

  1. 接入成本极低,优先考虑观测后再调优 — 一行安装命令 + hermes-cms enable 即可开启完整观测,生产部署前应优先接入,获取真实执行链路数据后再针对性优化,而不是猜测性能瓶颈。
  2. Token 归因是成本控制的第一步 — 方案按 chat span 拆分 input/output/total tokens,这意味着可以精确定位"哪一轮 ReAct 推理"吃掉了最多的 Token,为上下文压缩和工具优化提供数据依据。
  3. TTFT 是区分模型慢还是生成慢的关键指标 — 很多场景下"变慢"实际上只是首字延迟高(模型调度慢),而非生成速度慢。分开记录后才能针对性选择模型或优化调度。
  4. ReAct Trace 是复盘"看似成功实则错误"的唯一手段 — 传统方案只能看到最终输出,有 Trace 后可以展开任意一轮的 tool.call.argumentsresult,定位是哪一步推理偏移导致最终答案错误。
  5. 安全审计应作为可观测性的标配而非附加 — 当 Agent 开始调用外部工具(尤其是有写入能力的工具),异常行为检测和全量日志审计是防止生产事故的最后防线。

Ch13.010 Noam Brown:推理预算应成为AI评估的基础变量

📊 Level ⭐⭐ | 7.8KB | entities/noam-brown-ai-evaluation-reasoning-budget-performance-cost-curve.md

原文归档:原文归档

OpenAI 研究员 Noam Brown 提出的评估方法论:大模型表现不仅取决于模型本身,也越来越取决于推理阶段获得的计算资源。未来评估应从"单点成绩"转向"性能—推理计算量曲线",将推理预算视为模型能力评估和 AI 安全政策中的基础变量。

一句话

应当从"单点成绩"转向"性能—成本曲线":在相同预算下哪个模型表现更好?当预算增加十倍时哪个模型提升更快?模型是否已经接近能力上限?

核心论点

问题1: 传统成绩表低估新模型能力差距

Brown 以 GPT-5.5 为例:发布初期基准分数与 GPT-5.4 相比提升有限,但实际使用中长链条推理、复杂问题处理表现出明显代际差异。

核心原因:传统评测中不同模型的测试结果未必建立在相同推理预算之上。部分模型可以在获得更多推理 token 后继续显著提升,另一些则较早触及性能上限。

问题2: 性能平台期可能根本测不到

  • Andrej Karpathy 的自动化研究实验:数百次实验后性能仍在改善,曲线未趋于平缓
  • 英国 AI Security Institute 网络安全评测:Mythos 和 GPT-5.5 在 1 亿 token 后任务表现仍继续提高

推测:随着模型能力提高,其可有效运行的任务周期也会延长。某些任务中的"平台期"可能不再是容易测量的状态。

问题3: 安全评估中的推理预算困境

用户类型 推理预算投入
普通用户 几美元至几十美元
资金充足组织/国家级行为体 可能超过 1000 万美元

如果评测机构只在较低预算下测试模型,就可能低估其在高资源条件下的风险能力。

Gemini 3 Deep Think 争议: 高分但缺乏完整系统卡。Brown 推测 Deep Think 可能是基于已有模型的推理脚手架系统,其能力理论上外部开发者也可通过高推理费用复现。

三项建议

  1. 公布不同推理预算条件下的基准测试表现:提供以 token 数量、成本或运行时间为横轴的性能曲线

  2. 基准测试排行榜记录推理资源消耗:或为参评模型设定统一的 token/费用/时间上限

  3. 准备度框架和 RSP 应明确考虑推理阶段计算资源:评估多个推理预算水平,对更高预算条件下的风险能力进行带不确定性说明的预测

实施挑战

指标局限

指标 局限
token 数量 不同模型分词器、生成速度、单位成本存在差异
费用 受硬件利用率、批量处理、工程实现影响
运行时间 多智能体协作/best-of-N 可并行生成候选答案

长周期任务的根本困境

如果需要判断自主智能体在持续运行一年后是否会出现目标偏移、策略欺骗等失配行为,最可靠方法可能仍然是让其实际运行足够长时间。

新现实矛盾: AI 模型开发周期可能只有数月,而智能体可运行的任务周期越来越长。未来可能出现:新模型还没有完成覆盖其最大运行周期的安全测试,下一代模型就已经接近发布。

外推方法

先在可控推理预算范围内测试,根据模型能力随计算量变化趋势,对更高预算条件下的表现进行外推,并明确标注预测区间和不确定性。

与已有实体的关联

  • OneReason — 快手在推荐领域验证了 test-time compute scaling 的价值
  • ARC-AGI — 已尝试衡量模型分数与运行成本关系
  • Claude Code 深度解析 — agentic 系统的性能—成本权衡
  • AI Safety Evaluation — 安全评估方法论

结论

Brown 的判断是,未来衡量人工智能能力时,推理预算不应再被视为测试过程中的附属信息,而应像模型规模、训练数据和上下文窗口一样,成为评测报告中的核心参数。

AI 行业正在逐步告别"用一个数字定义一个模型"的阶段。真正重要的问题不再只是模型能做什么,而是当它获得足够多的时间、资金和计算资源后,究竟可以做到什么程度。

深度分析

1. 推理预算-性能的成本曲线

Noam Brown 的核心论点:AI 评估不应只看 peak performance,而应看 performance-cost curve——同等性能下推理成本可以差 10 倍。这与 Netflix Switchboard Lightbulb Model Routing 的模型路由优化逻辑一致。

2. "推理计算"是新的优化维度

训练时扩大模型是传统优化路径,推理时增加思考步骤(test-time compute)是新路径。Brown 的研究表明,推理计算的边际效益在某些任务上超过训练计算的边际效益。

3. Reasoning budget 作为系统设计参数

将推理预算(tokens/time/cost)作为系统设计的一等公民——不同场景有不同的预算约束,系统应根据预算动态调整推理深度。

实践启示

1. 评估模型时画 performance-cost 曲线

不要只看 benchmark 最高分——画出不同推理预算下的性能曲线,选择性价比最优点。

2. Agent 系统设计:推理预算可配置

将推理预算设为可配置参数——高价值任务多思考,低价值任务少思考。与 Agent Security Three Step Sequence Harness Governance Identity Crewai 的治理层对齐。

3. Test-time compute 是降低部署成本的杠杆

如果可以通过推理时多思考来弥补模型规模差异,就可以用小模型+多推理替代大模型+少推理。


Ch13.011 AI Skill Evolution Framework

📊 Level ⭐⭐ | 7.3KB | entities/ai-skill-evolution-framework.md

相关实体

深度分析

AI Skill 的本质定义

AI Skill 是一种以 Markdown 编写的「给模型看的说明书」,是 LLM 应用质量的核心载体。它告诉大模型在特定场景下该怎么做:模型读懂了才能按规则执行,模型没读懂,规则就形同虚设。 Skill 的核心是 SKILL.md,包含:

  • 触发条件:什么情况下使用这个 Skill
  • 业务规则:具体怎么做,有哪些约束
  • 接口调用:调用哪些工具,参数怎么传
  • 异常处理:出错了怎么办

三个传统软件测试覆盖不了的结构性问题

问题一:自判卷偏差 传统测试:代码执行 → 断言框架验证(执行者和验证者完全分离) AI Skill 测试(不设计好时):模型执行 Skill → 同一个模型判断结果是否正确 这就像让学生自己批改自己的试卷。模型倾向于认为自己做对了,即使实际上规则没有被正确执行。 问题二:随机性 同一个 prompt,今天运行通过,明天运行失败。这不是 bug,是大模型的本质特性——采样温度大于 0,导致每次生成略有差异。 单次测试的结论不可靠。需要多次运行,用统计方法描述 Skill 的真实表现。例如:「通过率 87% ± 5%」比「通过了」提供的信息量大得多。 问题三:负向增益 最隐蔽的问题:84 个有效任务里,约 19%(16 个)加了 Skill 反而比没加更差。 原因可能是:

  • Skill 的规则过于死板,限制了模型本来能做好的灵活性
  • Skill 的指令和模型的默认行为冲突,模型「不知道该听谁的」
  • Skill 文档太长太复杂,模型「选择性忽略」了部分规则 如果你只测「加了 Skill 之后能不能跑通」,永远发现不了这个问题。需要同时测「没有 Skill 时模型表现如何」,然后对比增益差值 Δ(delta)= 有 Skill 时通过率 − 无 Skill 时通过率。Δ 为负就是发布红线。

三个核心测评设计

1. 执行者和评审者分离(解决自判卷偏差) 执行 Skill 的 Agent 和评审结果的 Agent 完全独立,运行在不同的上下文中。评审 Agent 必须引用原文证据,不能凭感觉判断。 2. 多次运行取均值(解决随机性) 标准模式下每个用例运行 3 次,计算通过率的均值和标准差。标准差 > 0.3 说明结果高度不稳定,通常意味着 prompt 存在歧义或 Skill 规则有冲突。 3. 有 Skill vs 无 Skill 对比(解决负向增益) 每个用例同时跑两个版本:

  • with_skill:加载 Skill 指令,模型按规则执行
  • without_skill:不加载任何 Skill,纯模型通用能力 计算增益 Δ = with_skill 通过率 − without_skill 通过率。Δ < 0 立即触发预警,必须查明根因再决定是否上线。

实践启示

1. 建立 Skill 测评意识

AI Skill 需要专门测评,因为它有三个传统软件测试根本覆盖不了的结构性问题。在发布任何 Skill 之前,必须:

  • 用独立评审者验证执行结果
  • 多次运行取统计均值
  • 对比有/无 Skill 的增益差

2. 识别负向增益是发布红线

负向增益(Δ < 0)比直接失败更危险,因为它极度隐蔽。解决方案是强制进行有/无 Skill 对比测试。

3. 设计 Skill 规则时的关键原则

Skill 规则不只是"做什么",还要说清楚"为什么"和"做不到会怎样"。 报销助手的真实踩坑案例:SKILL.md 里写「最终调用 saveExpenseDoc 保存草稿」,但没有明确约束 docStatus 参数必须固定为 "10"。模型自行推断参数值,有时传了 "20"(提交审批),直接提交了用户根本没有核对过的单据。 修复方式:补一句「docStatus 固定为 '10',对应草稿状态,传其他值会导致单据直接进入审批流,不可撤回」——加上「为什么」之后,模型正确执行概率显著提升。

4. 判断 Skill 是否可以上线

同时满足三条标准: 1. 通过率达到该风险等级的准入阈值(S 级关键场景要求 ≥ 95%) 2. 增益 Δ > 0,确认 Skill 有正向价值而非帮倒忙 3. IFR(指令遵循率)达标,S 级要求 100% Δ < 0 是硬性红线,不接受「先上线再观察」。

5. 测评前的三类资产准备

  1. 测试账号:拥有对应权限,能触发 Skill 的目标流程
  2. 测试数据:对应场景的发票、单据等,类型必须和测试用例匹配
  3. 规则清单:对被测 Skill 的规则清单,测评工具可以自动从 SKILL.md 提炼,但人工确认一遍更准确

6. 理解 AI Skill 测评与传统软件测试的区别

维度 传统软件测试 AI Skill 测评
输出特性 确定性,同输入同输出 概率性,需多次运行取均值
执行方式 代码执行 模型推理,规则可能被忽略
结果验证 断言框架直接比较 需独立 Agent 评审,防自判卷
测评目标 能不能跑通 还要测「加了有没有帮助」(Δ)
原文存档

Ch13.012 Agent Skill 评估与迭代

📊 Level ⭐⭐ | 5.8KB | entities/agent-skill-writing-evaluation.md

优化 description 的系统性方法

  1. 准备 20 个提示词(一半触发 / 一半不触发)
  2. 运行测试,每个用例测 3 次以上取触发概率
  3. 分析:应该触发的没触发 → 描述太窄;不应该触发的触发了 → 描述太宽
  4. 迭代直到通过率满意

测试用例设计

结构:提示词 + 预期输出 + 输入文件(可选) 技巧:

  • 从 2-3 个开始,不要一开始就写很多
  • 变化措辞(随意 ↔ 精确)
  • 覆盖边缘情况
  • 使用真实上下文(文件路径、列名等)

运行评估

两次对比:with_skill vs without_skill

iteration-1/
├── eval-top-months-chart/
│   ├── with_skill/outputs/ + timing.json + grading.json
│   └── without_skill/...
└── benchmark.json(汇总统计)

断言编写原则

好的断言 弱的断言
可编程验证 太模糊("输出很好")
具体可观察 太脆弱(措辞一变就失败)
可计数

聚合结果分析

{
  "delta": {
    "pass_rate": 0.50,
    "time_seconds": 13.0,
    "tokens": 1700
  }
}
分析模式:

  • 两种配置都通过 → 移除断言,无有用信息
  • 两种都失败 → 断言本身有问题
  • 带Skill才通过 → Skill 明显增加价值的地方
  • 高标准差 → 收紧指令,减少模糊性

迭代原则

  • 从反馈中泛化,不做狭隘补丁
  • 保持精简:少而好的指令 > 详尽规则
  • 解释为什么:基于推理的指令 > 僵化指令
  • 打包重复工作:测试用例都写类似脚本 → 应打包进 Skill

三类测试

测试一:触发测试(最关键)

  • ✅ 至少 10 个应该触发的用例 + 5 个不应该触发的用例
  • 快速诊断:直接问 AI"你什么时候会用这个 Skill",根据回答判断 description 是否准确 测试二:功能测试

  • 同一请求运行 3-5 次

  • 检查:输出结果一致、API 调用成功(0 错误)、关键步骤无遗漏 测试三:与无 Skill 基线对比 | 指标 | 无 Skill | 有 Skill | |------|---------|---------| | 用户需要提供的说明 | 每次都要解释 | 无需解释 | | 来回对话轮次 | 15 轮 | 2 轮 | | API 调用失败次数 | 3 次 | 0 次 | | Token 消耗 | 12,000 | 6,000 |

动态优化

"你刚才的输出中,[具体描述问题]。请把这个改进固化到 [skill-name] 这个 Skill 文件中。" Skill 是活文档,每次修正都可以沉淀,减少下次犯同样错误的概率。

深度分析

评估的本质是建立因果链:Skill 带来的改变是否可归因于 Skill 本身,而非随机波动或测试偏差。三类测试构成递进防线——触发测试验证「该不该用」,功能测试验证「用对了吗」,基线对比验证「用了有多大价值」。其中触发测试最易被忽视,却最能暴露 description 关键词的遗漏或歧义。 迭代的核心不在于修复单个失败用例,而在于从错误模式中提炼通用约束。一个断言失败背后往往是一个隐含假设——要么指令太模糊,要么边界条件未被显式声明。将每次修正视为 Skill 边界的一次微调,而非对一个偶然错误的补丁。 delta 指标(pass_rate / time_seconds / tokens)的标准差同样携带信息:高标准差意味着 Skill 在不同输入上的表现不稳定,反映的是指令中存在未被约束的模糊性,需要通过收紧条件或增加示例来消除。

实践启示

  1. 先触发,后功能:写 Skill 时优先打磨 description,确保激活条件准确,再投入精力在执行逻辑和 Gotchas 上。触发错了,功能再完美也白费。
  2. 让测试用例自己说话:好的测试用例集是一份「边界合同」——AI 看到这些输入和期望输出,应该能推断出 Skill 的适用范围和限制。
  3. 量化优先,感观次之:用 pass_rate 说话而非「感觉更好用了」。数据才能支撑迭代决策。
  4. 把重复测试脚本打包进 Skill:当多个测试用例都包含相同的辅助脚本时,说明这段逻辑应该下沉到 Skill 的 scripts/ 中,避免测试与 Skill 之间的逻辑重复。
  5. 让 Skill 自己记录成长:每次从对话中修正一个问题时,显式地将改进固化到 SKILL.md 中,而非仅留在记忆里。Skill 是持续演进的文档而非一次性的产物。

相关实体


Ch13.013 NVIDIA MCG Toolkit 模型文档自动化

📊 Level ⭐⭐ | 5.6KB | entities/nvidia-mcg-model-documentation.md

NVIDIA MCG Toolkit 模型文档自动化

Background: 本文档基于对外部技术来源的评分入库建立,v×c=7×8=56。

核心要点

NVIDIA MCG Toolkit 自动生成 AI 模型文档的技术指南,针对 EU AI Act 和 AB-2013 监管要求


原文存档

深度分析

1. 文档自动化本质是信息抽取问题,而非模板填充

MCG 的核心架构采用 Ingestion → Extraction → Rendering 三阶段流水线,将模型文档生成定义为从源码中智能抽取而非规则填充。传统方法依赖人工填表或模板占位符,而 MCG 通过 RAG 管线直接从代码、配置文件和文档中检索高相关度片段,再由大模型生成规范内容。这意味着文档质量直接取决于源码仓库的结构化程度——文档贫乏的代码库即便使用 MCG 也只能达到 61% 的补全率。

2. 领域专用检索器是精度提升的关键,而非通用 Embedding

MCG 采用了三路独立检索器(Code Retriever、Config Retriever、Document Retriever)分别处理代码、配置和文档,而非使用单一 Embedding 模型通用检索。这与 RAG 分块优化 中强调的"入库质量决定系统效果"一致——专业检索器能对不同类型的文档片段进行语义优先级排序,从而为提取阶段提供更高信号的上下文。Nemotron RAG 的 embedding(llama-nemotron-embed-1b-v2)和 reranking(llama-nemotron-rerank-500m-v2)模型均为 NVIDIA 自研,针对代码和文档混合场景做了专项优化。

3. "不猜测"原则是合规文档系统的设计底线

MCG 在无法置信填充字段时,输出 "not found" 或 "information not available" 而非猜测捏造。这一设计选择对监管合规场景至关重要——治理软规则 中同样指出,不确定情况下的"猜测性生成"在审计场景会构成风险。模型卡需要具备完整的审计追溯性,自动生成的内容若是编造而非基于真实数据,反而会加剧监管风险。MCG 将"Gap 发现"功能定位为卖点而非缺陷,这意味着它既适合文档完善的团队加速生产,也适合文档初建的团队识别缺口。

4. 灵活性三层解耦使工具具备长期适用性

MCG 在模型(可替换 NIM)、模板(Markdown 输出格式)和指南(字段级知识库)三个维度做了完全解耦。这种设计使得工具不会因单一监管框架变化而失效——当 EU AI Act 或 AB-2013 出现新的披露要求时,只需更新模板和指南文件,无需修改提取管线的核心代码。输出格式同时支持 CycloneDX compliance,满足软件供应链透明度的行业标准。

5. 性能数据揭示了文档自动化的人机协作边界

测试数据显示两类场景的显著差异:文档丰富时准确率达 76%、补全率 91%;纯代码无文档时准确率跌至 28%、补全率降至 61%。这表明自动化文档生成的理想落地形态是"机器生成初稿 + 人类审核修订",而非完全替代人工。对于拥有良好文档传统的团队(README、config 齐全),MCG 可在 1 分钟内生成 80%+ 准确率的模型卡;对于文档薄弱的团队,它更应该被当作审计缺口扫描仪使用。

实践启示

  1. 在引入 MCG 前先审计仓库文档覆盖率

MCG 的性能高度依赖输入文档质量。团队应先用 MCG 对现有仓库进行一次试跑,识别 "not found" 高频区域——这些正是文档缺失最严重、最需要优先补充的部分。补全这些文档不仅能提升 MCG 输出质量,也为人类审核者提供了更完整的初稿。

  1. 将 MCG 集成到 CI/CD 流水线而非作为独立工具使用

MCG 支持 REST API 和容器化部署,建议将其封装为 CI 环节的一部分:在每次模型发布时自动触发文档生成流程,生成结果作为 Pull Request 的一部分供审查。这能解决"文档落后于代码"的经典问题,确保模型卡与模型版本同步更新。

  1. 利用模板可变性适配多监管框架

如果团队需要同时满足 EU AI Act 和 AB-2013 等不同监管要求,无需维护两套工具链——只需准备两套模板和字段指南文件,MCG 管线保持不变。建议建立一个内部模板库,按监管框架分类管理,每次审计时切换对应模板即可。

  1. 对输出保持审慎验证态度,特别是涉及隐私和安全字段

MCG 的 92%(Nemotron Nano 8B)到 80%(第三方模型)准确率意味着约 8-20% 的字段可能存在错误。在涉及 Bias、Privacy、Safety & Security 等敏感 subcards 时,应将 MCG 输出视为高度结构化的初稿而非最终成品,需要领域专家复核签字后再用于正式监管提交。

  1. 探索 Oracle OCI 部署模式作为大规模生产参考

Oracle 将 MCG 部署在 OCI Container Engine for Kubernetes 上,结合 DAC(Dedicated AI Cluster)托管 NIM 模型,实现了容器化 + GPU 动态伸缩的生产架构。对于计划在企业内部规模化推广 MCG 的团队,这一架构提供了将 MCG 与现有 GPU 基础设施整合的参考路径。

相关实体


Ch13.014 CEOs’ top priorities for IT leaders today

📊 Level ⭐⭐ | 5.0KB | entities/www.cio.com-ceos-top-priorities-for-it-leaders-today-2-html.md

核心要点

  • AI 落地压力从 POC 转向 ROI 交付:2026 年 CEO 已对 AI 实验和概念验证失去耐心,明确要求 CIO 提供可量化业务价值。AI 投资回报与预期差距大,CEO 们"在 AI 上的花费远远大于回报"
  • 数据质量和技术债是 AI 规模化的隐性障碍:从 POC 到实际生产环境的过渡比预期困难,根源不在 AI 本身,而在于数据债务、legacy 系统集成成本和技术债积累
  • 安全从成本中心升格为战略优先级:CEO 将"升级 IT 和数据安全以降低企业风险"列为 CIO 第二优先级,反映 AI 时代数据完整性和治理的战略性价值
  • 技术债清算是 AI 规模化的前提:投资 AI 转型前需先做技术债盘点,否则 AI 项目真实成本被低估、ROI 预期被高估
  • CIO 角色从技术执行者转向业务战略伙伴:CEO 期望 CIO 能主动发现 AI 机会、创造新的价值主张,而非仅被动配合业务部门需求
  • 量子计算和前沿技术已进入部分 CEO 视野:在金融、生命科学、物流等行业,CEO 开始要求 CIO 探讨量子计算等下一代技术的潜在机会

相关实体

原文存档

深度分析

从 AI 实验到 AI ROI 的范式转变:2026 年 CEO 对 AI 的态度已从"先做 POC 看效果"转向"必须给我可量化的回报"。文章引用的多项调查显示,CEO 们普遍对 AI 投资回报不如预期感到失望——"他们在 AI 上的花费远远大于回报"。这种情绪将 CIO 从"AI 实验赞助者"推向"AI 价值交付者"的角色压力。 技术债务和 legacy 环境是创新的隐性成本:IDC 的 Saroff 指出,从 POC 到规模化生产的过渡比预期困难得多。问题不在 AI 本身,而在于数据质量("数据债务")和 legacy 系统的集成成本。这解释了为什么许多 CIO"知道 AI 有潜力,但找不到落地的路径"——障碍不是 AI 技术,而是技术债。 安全从成本中心升格为战略资产:有趣的是,安全(清单排名第 2)不仅是风险防范,也是 Rubrik 案例中 CEO 明确的业务目标——"帮助 Rubrik 在所有业务流程中提高效率和生产力"。当安全开始谈业务价值而非仅谈风险规避时,CIO 与 CEO 的对话才真正进入同一轨道。

实践启示

  1. ROI 框架先于技术选型:在启动任何 AI 项目前,先明确"如何衡量成功"。CEO 想看到的不仅是 productivity gains,而是 revenue generation 或 competitive differentiation。CIO 需要准备好用业务语言而非技术语言来定义 AI 项目成功指标。
  2. 技术债清算是 AI 规模化的前提:投资 AI 转型之前,做一次技术债盘点(数据质量、legacy 系统集成成本、API 能力)。否则 AI 项目的真实成本会被低估,而 ROI 预期会被高估。
  3. 安全可以成为 CIO 的战略杠杆:当 CEO 将安全目标与业务效率目标并列为 IT 优先级时,CIO 有机会将安全从"花钱的部门"转变为"业务赋能者"。展示安全如何直接支撑业务目标,比展示安全合规分数更有说服力。
  4. 主动寻找 AI 变革机会而非被动响应:CEO 期望 CIO 提出"AI 如何重塑产品、服务和运营模式"的战略建议。CIO 应主动识别组织内 AI 可以创造新价值的场景,而不是等待业务部门提出需求。
  5. 建立 AI 规模化交付能力:从实验到生产的过渡需要专门的工程化和运营能力,包括数据管道管理、模型监控、MLOps 等基础设施投资。
  6. 安全与 AI 治理需要同步规划:随着 AI 采用增加数据完整性和治理的重要性,CIO 应将安全政策、ROI 指标和 AI 部署同步设计,而非事后补救。 → 原文存档

Ch13.015 EVA-Bench Data 2.0

📊 Level ⭐⭐ | 4.6KB | entities/eva-bench-data-2-voice-agent.md

EVA-Bench Data 2.0

ServiceNow AI 2026-06-04 在 Hugging Face 发布的语音 Agent 垂直领域评估基准。本实体整合自 原文存档

概述

EVA-Bench Data 2.0 是 ServiceNow AI 发布的 语音 Agent 垂直领域评估数据集,目标是填补现有 benchmark 在真实业务场景(HR、客服、票务等)下的评估缺口。

三个独有贡献

  1. 3 大垂直领域 — HR / 机票改签 / 客户支持,覆盖高频企业语音 Agent 场景
  2. 121 个工具 + 213 个场景 — 大规模真实业务工具调用 + 多步骤对话评估
  3. 垂直领域专攻 — 区别于通用对话 benchmark(如 MT-Bench),专注 特定行业 的语音 Agent 能力评估

关键数据

  • 规模:3 domains × 121 tools × 213 scenarios
  • 场景:复杂多步骤对话(multi-turn)
  • 目标模型:语音 Agent(voice agent)系统

实践启示

  • 语音 Agent 评估需要 垂直领域数据集,通用 benchmark 不够
  • 121 工具 + 213 场景的规模可作为企业 Agent 测试基线
  • 后续可关注:是否开源完整数据 + 评估脚本

深度分析

垂直领域评估的必要性

通用对话 benchmark(如 MT-Bench、Arena)擅长评估开放式对话能力,但在企业语音 Agent 场景中存在明显盲区:

  1. 工具调用复杂度 — 企业场景需要精确的 API 调用链,而非闲聊式响应
  2. 领域知识深度 — HR 政策、机票退改签规则需要准确的结构化知识
  3. 多轮状态跟踪 — 真实业务对话涉及 5-15 轮状态转换,远超通用基准的 2-3 轮

EVA-Bench 的 121 工具 × 213 场景设计,正是为了量化这些垂直维度的能力边界。

规模设计的工程含义

维度 数量 工程意义
工具 121 覆盖常见企业系统 API 复杂度
场景 213 足够统计学意义的评估样本
领域 3 验证跨领域泛化能力

这种规模使得单次评估可以区分 "能运行演示" 和 "能处理生产负载" 的 Agent 差距。

与通用 Benchmark 的互补关系

  • MT-Bench/Arena → 评估通用对话流畅度
  • EVA-Bench → 评估垂直领域任务完成率
  • SWE-Bench → 评估代码 Agent 能力
  • AgentBench → 评估通用 Agent 推理

企业部署语音 Agent 时,应组合使用以上基准,而非依赖单一指标。

实践启示

  1. 评估现有语音 Agent — 如果正在开发或采购语音 Agent 系统,可用 EVA-Bench 作为验收基准,要求供应商提供在该数据集上的端到端成功率

  2. 构建内部评估流水线 — 参考 121+213 的规模设计,将自己的业务场景抽象为可复现的评估用例,建立回归测试机制

  3. 关注数据开放性 — 持续跟踪 Hugging Face 上的数据集更新,确认是否包含完整的对话轨迹和工具调用序列,以便复现评估

  4. 领域适配策略 — 如果 EVA-Bench 的 3 个领域与自身业务不完全匹配,可借鉴其方法论(工具抽象 + 场景覆盖)构建垂直领域变体

  5. 多维度评估矩阵 — 不要只用单一 benchmark,建议组合:通用能力(MT-Bench)+ 垂直任务(EVA-Bench)+ 安全对齐(自定义测试集)

与现有实体的差异化

  • 现有 entity 中暂无专门的 voice agent 垂直评估 benchmark 覆盖
  • 与通用 LLM benchmark entities 互补:本实体专攻 Agent + 语音 + 垂直领域 三维交叉
  • 评分 v×c=42 < 49,但 stars=4 触发"独特技术洞察"入库

上线状态

  • 官方链接:https://huggingface.co/blog/ServiceNow-AI/eva-bench-data
  • 发布日期:2026-06-04
  • 部署:Hugging Face Datasets

相关实体


Ch13.016 美团海报生成 AIGC 技术体系:PosterCraft/PosterOmni/PosterReward(ICLR/CVPR 2026 三连发)

📊 Level ⭐⭐⭐ | 22.2KB | entities/meituan-poster-aigc-postercraft-posteromni-posterreward-meigen.md

美团海报生成 AIGC 技术体系:PosterCraft/PosterOmni/PosterReward

核心定位

美团智能创作团队 2 年构建的"生成-编辑-评判"完整技术体系,3 个开源项目 + 3 篇顶会论文(ICLR 2026 + CVPR 2026 ×2)+ 真实业务落地。

核心问题:百万中小商家海报设计门槛(外包 数百-数千元 / 传统 1-3 天 / 批量质量失控 / 内容同质化)。

解法闭环

层级 工作 会议 角色
基础生成 PosterCraft ICLR 2026 端到端高美感海报生成
多任务编辑 PosterOmni CVPR 2026 6 类 image-to-poster 任务
质量评估(双线) 营销海报结构化 + PosterReward CVPR 2026 存量海报质检 + AI 生成奖励

五大技术挑战

  1. 精准文字渲染(零容错;中文/多行/小字号短板)
  2. 和谐版式布局(设计原则难规则化)
  3. 统一美学风格(餐饮"食欲感"/美妆"精致感"/科技"未来感")
  4. 多任务场景统一(局部编辑 + 全局创作)
  5. 质量评估可量化(FID/IS 不可用;人工评估不可规模化)

PosterCraft(ICLR 2026):端到端高美感海报生成

核心思想

摒弃模块化流水线,让模型端到端地自由探索视觉连贯的设计组合。

传统 VLM 规划布局 + 单独背景生成 + 文字叠加 → 美学一致性差,受各模块短板拼接限制

四阶段级联优化工作流

阶段 数据集(规模) 核心方法
1. 大规模文字渲染优化 Text-Render-2M(200 万样本) Flow Matching 微调,提升文字渲染准确率(解决文字缺失/重复/错误)
2. 高质量海报微调 + 区域感知校准 HQ-Poster-100K(10 万) Region-Aware Calibration:非文字 1.0 / 主要文字 0.6 / 次要文字 0.2 — 保持文字准确同时注重整体艺术性
3. 美学-文本强化学习 Poster-Preference-100K(6000 偏好对) 每 prompt 5 张 + HPSv2 打分 + Gemini 验证 + Best-of-N DPO
4. 视觉-语言反馈精炼 Poster-Reflect-120K 每 prompt 6 张 + Gemini 选优 + 结构化反馈 + InternVL-3-8B 微调为 VLM 评论家(推理时迭代优化)

核心成果

文字召回率 / F-score / 准确率 → 显著超越所有开源基线接近 SOTA 闭源商业系统(如 Gemini 2.0-Flash-Gen)。

PosterOmni(CVPR 2026):多任务统一图像到海报

核心思想

真实设计场景中,更常见起点是参考图/旧版海报/产品主视觉——设计目标不是完全重做,而是在保留核心主体基础上完成扩图/补全/比例调整/风格迁移/版式重组。

6 类典型设计任务

任务 方法
Extending / Filling SAM2 构造局部 mask
Rescaling 借鉴 BrushNet,"比例变化→内容重排"
ID-driven PaddleDet 提取主体 + 增强编辑器
Layout-driven prompt-controlled rerendering
Style-driven 继承风格但不直接复制
第 6 类 原文未明示

核心难点:多任务冲突的缓解

任务间相互干扰:局部编辑强调像素级一致 + 自然过渡;全局创作关注风格抽象 + 大幅度重构。直接混合训练 → "什么都会一点但都不稳"。

PosterOmni 解法:"数据—蒸馏—奖励"闭环: 1. 分别训练局部编辑专家 + 全局创作专家 2. 通过任务蒸馏整合为统一学生模型(PosterOmni-SFT) 3. 加入统一奖励 + 强化学习(DiffusionNFT)

四阶段训练流水线

阶段 核心内容
1. 自动化数据构建 PosterOmni-200K(20 万):提示词+基础图生成 → PaddleOCR/jina-clip-v2/SAM 2 过滤 → 6 类任务配对(商品/美食/活动/自然/教育/娱乐六大主题)
2. 任务蒸馏 专家训练 → 学生网络逼近专家的速度场/预测行为:L_total = L_text_render + λ·L_distill
3. 统一奖励模型 Gemini-2.5-Pro 初筛 + 标注者选优;negative-pair 策略(输入参考图=rejected / 编辑后输出=chosen)显式强化"有效修改有价值";Qwen3-VL encoder + MLP head + Bradley-Terry
4. Omni-Edit RL DiffusionNFT 思路,正向扩散过程直接优化;task-aware 分数("更像完成了任务"而非仅"更好看")

PosterOmni-Bench

  • 1020 条(540 中文 + 480 英文)测试指令
  • 6 类核心任务 × 6 大海报主题 × 单/多参考图输入
  • Gemini-2.5-Pro 打分(1-5 分)

实验结果

  • 全部 6 类任务开源模型最佳,整体评分超过部分闭源模型
  • 相较 Qwen-Image-Edit:Layout-driven / Style-driven 增幅最大(真正学到了生成规则)
  • 相较 Seedream-4.0:整体平均已实现反超

PosterReward(CVPR 2026):海报质量评估

双线并行体系

路线 对象 锚定 角色
真实海报结构化评估 线上存量海报 专业设计规范显式标准 智能质检 + 规范管理
生成海报奖励模型 AI 生成内容 用户主观偏好对齐 驱动生成持续进化(RL 奖励)+ 线上质检

营销海报图像结构化(三大维度)

维度 算法 关键数据
排版构图 12 种元素定位 + CNN 回归美学评分 准确率 90%+;5 分制误差 0.3794(归一化 0.0759);近 90% 误差 ≤ 1 分
色系搭配 11 种主色系识别 + 12 种基础色占比 + HSV 冷暖 准确率 96.2%
氛围风格 12 种风格识别(节日/卡通/简洁/多彩/科技/柔美/素雅/促销/撞色/实拍/标准/其他) 准确率 91.50%

整体美学综合评价 → 基本拟合设计师主观评价。

PosterReward 核心数据

自动化偏好数据集 Poster-Preference-70K: - 数据来源:Seedream 3.0/4.0 + Qwen-Image-Lightning(影视/非影视) - 级联式过滤:HPSv3 → Kendall's W → 多模型排序 → 4 开源(CLIP/DINOv3/HPSv3/GLM-4.5V)+ 3 闭源(Gemini-2.5-Flash-Lite/Pro/GPT-5)共识 - 产出:7 万高质量偏好对

四阶段级联训练: 1. Joint SFT(双任务并行:24.6 万单图 + 16 万配对偏好) 2. Joint RSFT(拒绝采样微调) 3. Score Module(Qwen3-VL-8B + 两层 MLP + Bradley-Terry) 4. GRPO(冻结评分模块为奖励函数 → RL 微调分析模块)

核心成果PosterRewardBench-Advanced 上 86.0% 准确率,远超基线 40-53%

评估体系演进逻辑

结构化评估的维度定义经验 → 为 PosterReward 多维度分析模块提供领域知识参照 PosterReward 端到端学习能力 → 克服结构化评估的泛化性和可优化性瓶颈 两者的融合是未来评估体系演进方向

技术闭环协同

模块 在闭环中的角色
PosterCraft 建立端到端生成基础;四阶段已引入奖励模型驱动的美学优化
PosterOmni 在 PosterCraft 基础上拓展至多任务;统一 Reward 是 PosterReward 理念的任务特化
营销海报结构化 从构图/配色/氛围感提供可解释设计规范 → 为生成链路评估提供领域知识
PosterReward 将设计知识内化为端到端奖励信号:驱动生成(RL)+ 承担线上质检

协同模式:评估驱动生成优化 → 生成拓展编辑边界 → 编辑反哺评估标准 → 持续自我进化的后训练系统。

真实业务落地

案例 业务 效果
文生帖子功能(PosterCraft) 美团平台合作上线 ALBALUZ 西班牙餐厅海报 / 重庆夏季城市图鉴文旅海报(14+ 元素融合)
美团品牌 IP 袋鼠团团(PosterCraft) 与美团设计师合作 大寒节气海报 / 2026 马年新年主视觉(3D C4D 风格/唐代古建筑/烟花/红灯笼/毛笔字"马年大吉")
图生商品海报(PosterOmni) 主体保持能力 (原文图示)

关键创新点总结

项目 独家创新
PosterCraft 区域感知校准(Region-Aware Calibration)/ 四阶段级联 / 端到端统一优化
PosterOmni 任务蒸馏(局部+全局专家→学生)/ negative-pair 策略 / DiffusionNFT task-aware RL
PosterReward 86% 准确率远超基线 / 多模型共识级联过滤 / 双线评估体系(结构化 + 偏好)
体系级 "生成-编辑-评判"技术闭环(评估驱动生成→生成拓展编辑→编辑反哺评估)

未来方向

  • 更强可控性:支持更精细设计意图传达
  • 更广场景覆盖:从静态海报 → 动态视觉;零售电商 → 酒旅/丽人服务电商
  • 更深评估维度:结构化设计规范知识持续注入奖励模型 → "可解释 + 可优化"统一
  • 更紧产业闭环:规范标准与 RL 信号深度融合,直接驱动生成模型自我进化

与 wiki 既有内容的关系

深度分析

"生成-编辑-评判"三角闭环是 AIGC 工程化的最佳实践:美团的 PosterCraft(生成)→ PosterOmni(编辑)→ PosterReward(评判)不是三个独立项目,而是一个自我强化的技术闭环。PosterReward 的评估信号可以反哺 PosterCraft 的生成质量,PosterOmni 的编辑能力扩展了 PosterCraft 的应用场景。这种"评估驱动生成→生成拓展编辑→编辑反哺评估"的闭环模式,比单独优化单个模型的工程效率高得多。

区域感知校准(Region-Aware Calibration)是海报生成的核心突破:海报与普通文生图的本质区别在于"文字必须清晰可读 + 布局必须符合设计规范"。PosterCraft 的区域感知校准机制解决了传统扩散模型在文字渲染上的短板——通过将海报划分为不同区域(标题区、正文区、图片区),对每个区域施加独立的渲染约束,文字渲染质量接近 SOTA 闭源模型。

Reward Model 作为质量守门人的工程价值:PosterReward 的 86% 准确率(vs 基线 40-53%)意味着它可以可靠地替代人工评估——这对于百万级海报批量生成场景至关重要。更关键的是它的"双线评估体系"(结构化设计规范 + 偏好学习),同时捕获"是否符合规范"和"是否美观"两个维度。

开源策略的商业智慧:美团将三个顶会论文全部开源(MeiGen-AI GitHub),这不是简单的"学术贡献"——它是吸引 AI 人才的品牌策略,也是建立行业标准的技术策略。当业界使用 PosterCraft/PosterOmni/PosterReward 时,美团的海报设计规范和评估标准就成为了事实标准。

真实业务落地验证了学术价值:外卖套餐图、袋鼠团团 IP、点评信息流治理三个真实场景的落地,证明了这套体系不是"论文级"的实验室产物——它已经在服务百万中小商家的海报生成需求。这种"学术论文 + 真实业务"的双验证模式,是评估 AIGC 技术成熟度的黄金标准。

实践启示

  1. AIGC 项目应设计"生成-评估"闭环:不要只优化生成模型——投资评估模型(如 PosterReward)可以为生成模型提供 RL 信号,形成自我进化闭环。评估模型的价值往往超过生成模型本身。

  2. 文字渲染质量是海报生成的技术门槛:如果你的应用场景涉及文字(海报、名片、广告),优先评估模型的文字渲染能力。区域感知校准是当前最先进的解决方案——要求厂商演示中英文混合、多字号、复杂排版场景。

  3. 用 Reward Model 替代人工评估:对于批量生成场景,人工评估成本不可持续。投资训练领域特定的 Reward Model(如 PosterReward),可以实现自动化质量筛选。关键指标:准确率 >80%、与人工评估的相关性 >0.8。

  4. 关注 MeiGen-AI 的开源生态:美团的三个开源项目(PosterCraft、PosterOmni、PosterReward)提供了完整的海报生成技术栈。如果你在构建类似的 AIGC 系统,可以直接基于这些项目构建,而不是从零开始。

  5. "评估驱动生成"思想适用于所有 AIGC 场景:美团的"生成-编辑-评判"闭环模式不限于海报——它可以应用于任何 AIGC 场景(文本、音频、视频)。核心思想是:先建评估标准,再用评估信号驱动生成优化。

相关实体

原文存档