跳转至

阿里Qwen提出Skill-RM:把奖励模型做成可复用Agent Skill

Ch01.868 阿里Qwen提出Skill-RM:把奖励模型做成可复用Agent Skill

📊 Level ⭐⭐⭐ | 12.3KB | entities/skill-rm-qwen-agent-skill-reward-model.md

原文存档:原文存档

阿里Qwen提出Skill-RM:把奖励模型做成可复用Agent Skill

阿里巴巴 Qwen 应用团队提出 Skill-RM——把异构奖励评估标准(rubric、参考答案、checklist、verifier、聚合规则)封装成可执行的 Reward-Evaluation Skill,让 Agentic judge 按需检索资源、收集证据并确定性聚合打分。同一骨干 Qwen3.5-27B 下,RewardBench2/RM-Bench/JudgeBench 三项平均分从83.9提升到86.2(+2.3),挂载样本级资源后进一步达到89.1(+5.2)。开源仓库 https://github.com/Qwen-Applications/Skill-RM。

核心定义

Skill-RM 把 RM 设计从「单一标量打分器」迁移到「Skill化的多源验证器」:

  • SKILL.md(规格 I):评估说明书——评分维度、优先级、输出格式(标量/成对/选 N)
  • 资源库 R:五类资源——Rubric、Reference、Checklist、Verifier、Calibration
  • 执行协议 E:诊断 →选资源 →验证 →聚合 →读出奖励
  • 证据 e_i = (c_i, o_i, d_i):每条准则挂结构化观测与局部判定
  • 读出函数 f: E → Y:把轨迹确定性地映射到任务所需输出

Skill-RM 不是单点模型,而是「评估操作系统」:把 agentskills.io 的「说明书 +工具箱」范式专门用到 reward评估。

论文核心发现

三项主基准(同骨干 Qwen3.5-27B)

方法 RewardBench2 RM-Bench JudgeBench 平均
Qwen3.5-27B Judge 81.1 89.8 80.8 83.9
RewardAgent 82.0 80.5 66.3 76.3
Skill-RM 85.0 91.5 82.1 86.2
Skill-RM + sample-spec. 86.0 91.5 89.7 89.1

Skill-RM 三项全涨,样本级资源挂载后 +5.2 分(vs Baseline),全基准最高。

关键消融:append资源反而降分

改动 平均 Δ
Baseline 83.9 0.0
+ appended resources(直接粘进 prompt) 81.0 -2.9
+ appended + sample-spec. 82.0 -1.9
+ Python tool 83.6 -0.3
Skill-RM(Skill编排) 86.2 +2.3

最具启发的反直觉数据:把 reference 和 verifier 直接粘进 prompt,平均分掉2.9 分。append模式下 judge 同时看到 rubric、checklist、verifier 说明,却缺少 Skill协议规定的「先诊断再选资源」顺序,关键信号(如 sandbox 的 parse_json 结果)被长 prompt稀释。+2.3 分的提升是编排赢了,不是资源变多了

RL 下游(VerInstruct + GRPO)

方法 IFEval IFBench AdvancedIF 平均
Tulu3 82.6 27.6 25.0 45.1
VerIF 83.7 27.6 22.8 44.7
Skill-RM 84.8 27.6 25.4 45.9

Skill-RM端到端接入 RL奖励链路,IFEval +1.1、AdvancedIF +2.6、IFBench持平。

指令遵循 RM排名(IF-RewardBench Kendall)

方法 平均
Skywork-V2-Llama3.1-8B 0.133
Qwen3.5-27B 0.411
Gemini-3-Flash 0.513
Skill-RM 0.524

标量 RM(Skywork)在 IF场景几乎失灵;Skill-RM 平均0.524最高。System-Prompt 子集0.413仍落后 Gemini-3-Flash 的0.489——长系统提示是指令遵循 judge 的硬骨头。

深度分析

Skill-RM vs 同类方案

方案 资源类型 样本级资源 编排机制 跨任务泛化
TIR-Judge-Zero 单模态(Python 执行器) 写代码验证 单一(verifiable任务)
OpenRS 多模态 (JudgeBench93.1) 协议定制 弱(需适配)
OpenRubrics / Auto-Rubric rubric单一模态 prompt模板
Skill-RM 五类统一调度 Skill协议 +渐进式披露 (默认涨分)

Skill-RM 的核心优势是「默认协议下就能涨分」,不需要为每种任务单独适配协议模板。代价是推理开销:多步 Agentic轨迹比单次标量 RM慢,需要 early stopping、证据缓存、artifact剪枝。

与现有 wiki概念的呼应

  • Harness Engineering:Skill-RM 把 Skill范式从 Agent 执行层延伸到 RM评估层——同一套「说明书 +工具箱」抽象在两个不同域落地
  • Skill 系统设计:Reward-Evaluation Skill 是 SKILL.md范式在 reward域的扩展,证明 Skill抽象可复用、可编排、可审计
  • Token-in-Token-out Agentic RL:Skill-RM 是 agentic RL闭环中「奖励信号可审计化」的关键拼图——flat prompt 的奖励信号难复现,Skill化的评估轨迹可复查
  • AWS RL LLM-as-Judge:AWS 的同方向探索,但 Skill-RM给出更系统的资源分层 +编排协议
  • Agent 自改进六机制:Skill-RM属于「外部奖励 + Skill化」机制,与 L4 对抗训练形成对照

渐进式披露 vs append

flat prompting 的根本问题:把全部资源一次性倒给 judge,关键信号被淹没。Skill-RM 的渐进式披露借鉴 agentskills.io 的设计——资源默认潜伏,Skill规格触发才加载。消融数据 -2.9 直接证明:堆资源不如编排资源。

为什么 Skill-RM 不是「又一个 agentic judge」

TIR-Judge-Zero、OpenRS 等已有 agentic judge路线,但 Skill-RM 的差异化在于:

  • 统一抽象:rubric、reference、verifier、聚合规则被同一 Skill协议调度,不必为每种任务改 prompt
  • 样本级扩展:Skill 接口允许 per-sample挂载(reference、约束、verifier 输出),通用协议 +任务特化并存
  • 证据 schema:每条证据 (c_i, o_i, d_i)标准化,事后可审计、可复用

这是把 RM 从「模型」变成「评估基础设施」的关键一步。

工程启示

  • RL管线已有 reference/verifier 的封装成 Skill 接口,别直接 append 进 prompt——消融已经证明会降分
  • 采样解码 + Best-of-N 重排:IFEval/HumanEval+收益最明确(Oracle@10几乎饱和的 GSM8K收益极小)
  • System-Prompt 长上下文场景:仍是 judge弱点,值得单独扩 Skill资源库
  • 上线前算清延迟:Agentic 多步评估的 token 开销,能否被 Best-of-N质量增益覆盖

适合场景:指令遵循 RL(IF-RewardBench)、多源证据任务(数学+代码+工具)、跨任务泛化的 RM 服务化。不适合:超低延迟在线打分(每 token 都跑 Agentic judge 不划算)。

局限与开放问题

  • 评估范围:以文本 IF 和标准 RM benchmark为主,多模态、长程 Agent、主观偏好待扩展
  • Skill策展靠人工:自动化构建与持续更新是开放题
  • 推理成本:高于标量 RM,生产环境要算 ROI

实践启示

  1. RL管线已有 reference/verifier 的——封装成 Skill 接口,别直接 append 进 prompt:消融数据已证明 append 模式平均掉 2.9 分;编排才是提升来源,不是资源数量

  2. Best-of-N 重排优先接入 IFEval/HumanEval 收益明确的场景:Oracle@10 在 GSM8K 类饱和任务上收益极小,在 IF 场景收益最明确——先算 ROI 再上线

  3. System-Prompt 长上下文场景是 judge 的当前弱点:值得单独扩 Skill 资源库,专门处理长系统提示的指令遵循评估

  4. 上线前必须算清 Agentic 多步评估的 token 开销:+2.3 分的提升能否被 Best-of-N 质量增益覆盖,是生产部署的 ROI 门槛

  5. Skill 策展自动化是开放研究方向:当前依赖人工维护ресурс库,自动化构建与持续更新是工程落地的主要瓶颈

适合场景:指令遵循 RL(IF-RewardBench)、多源证据任务(数学+代码+工具)、跨任务泛化的 RM 服务化。不适合:超低延迟在线打分(每 token 都跑 Agentic judge 不划算)。


与已有实体的差异化

上手资源

  • 论文:Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill(Alibaba Qwen-Applications)
  • GitHub:https://github.com/Qwen-Applications/Skill-RM
  • 公众号转载:Hyman的杂货铺(2026-06-10)

相关实体