R1复现：拒绝采样微调加速RL收敛及模型遗忘问题探究¶

Ch01.085 R1复现：拒绝采样微调加速RL收敛及模型遗忘问题探究¶

📊 Level ⭐ | 5.8KB | entities/r1复现拒绝采样微调加速rl收敛及模型遗忘问题探究.md

摘要¶

本文档从微信平台抓取，原始URL: https://mp.weixin.qq.com/s/Qk4bN6yFkI39Ye9fsS4NXA

元数据¶

来源: 微信 (WeChat)
原始URL: https://mp.weixin.qq.com/s/Qk4bN6yFkI39Ye9fsS4NXA
入库时间: 2026-05-11
评分: 30

原始内容¶

→ 原文存档

深度分析¶

这篇来自"炼钢AI"公众号的R1复现实验报告，是一篇难得的小模型RL训练过程的一手经验记录，揭示了几个与主流"堆卡堆数据"叙事截然不同的工程洞察。 1. 未微调的Qwen2.5-1.5B-Instruct本身已具备一定的COT能力，这个发现对小模型部署有重要含义。 这意味着模型在预训练阶段已经隐式学会了链式推理模式，SFT或RL的作用不是"教会模型推理"，而是"激活"和"引导"已存在的能力向特定方向收敛。因此在小模型上做RL训练时，初期出现的"回答先变短再变长"现象，本质上是模型在RL奖励信号引导下重新组织已有的推理模式，而非从头学习推理。 2. 直接使用开源数学数据进行SFT会让小模型能力全面退化的机制是分布差异而非过拟合。 纯数学数据与原始模型预训练数据分布差异过大时，即使只训练few-shot，模型也会被过度拟合到数学格式而牺牲通用能力。这与"大模型7B以上配比通用数据可以兼顾"的结论形成对比——小模型（1.5B）没有足够的容量同时容纳纯数学数据分布和原始分布，共存困难。 3. GRPO（和RL）相比SFT在通用能力保持上的优势来源于RL的"软优化"本质。 SFT强制模型拟合正确答案分布，是一种硬优化；RL通过奖励信号让模型自己探索正确答案的路径，允许模型保留自己偏好的解决路径。这是RL比SFT在通用能力遗忘问题上更温和的根本原因——不是RL做了什么额外保护，而是RL没有强制破坏原有知识结构。 4. 拒绝采样SFT可加速RL收敛的机制值得深入理解：用RL模型的rollout数据对原始模型做SFT，本质上是在做"能力蒸馏"而非"知识注入"。 rollout数据分布更接近原始模型的内在分布（初始loss更低证明了这一点），因此SFT效率更高——模型在自己熟悉的表示空间里学习新模式，比在外部分布上学习更高效。这解释了为什么自蒸馏数据训出来的模型不会崩溃，但用其他模型的rollout数据去训可能效果打折。 5. 多阶段拒绝采样+RL中，多样性衰减是限制性能进一步提升的关键瓶颈。 第一阶段RL模型的rollout数据多样性高，质量好；但经过SFT+第二阶段RL后，模型倾向生成更"安全"的回答，多样性下降，导致拒绝采样数据的边际收益递减。这说明RL的上限仍然受预训练水平约束——预训练能力决定了能力上限，RL和SFT只能在这个天花板下优化分布。

实践启示¶

对于小模型（≤3B）RL训练实践者： 优先选择GRPO而非直接SFT——即使目标任务（数学、代码）数据量有限，RL也比纯SFT更能保护通用能力。rollout num从8增加到16有明确收益（reward归一化更准确），在算力允许范围内优先使用更大的rollout num。 对于从零构建垂直领域模型的团队： 拒绝采样SFT是一种高效的数据增强手段——用小模型+RL先跑一遍，收集正样本，再对原始模型做SFT，可以在不引入外部数据的前提下实现能力迁移。但注意：只适用于目标领域与原始模型领域相近的场景；领域差异越大，rollout数据与原始分布的差异也越大，效果折扣越明显。 对于网红数据集（如s1、LIMO）的使用者： 这些数据集在1.5B级别小模型上不work，原因是小模型在few-shot训练后难以维持推理停止能力（车轱辘话来回说）。如果必须在小模型上使用高质量SFT数据，优先选择更长训练周期+更小学习率的配置，并持续监控推理停止能力。