R1复现:拒绝采样微调加速RL收敛及模型遗忘问题探究¶
Ch01.085 R1复现:拒绝采样微调加速RL收敛及模型遗忘问题探究¶
📊 Level ⭐ | 5.8KB |
entities/r1复现拒绝采样微调加速rl收敛及模型遗忘问题探究.md
摘要¶
本文档从微信平台抓取,原始URL: https://mp.weixin.qq.com/s/Qk4bN6yFkI39Ye9fsS4NXA
元数据¶
- 来源: 微信 (WeChat)
- 原始URL: https://mp.weixin.qq.com/s/Qk4bN6yFkI39Ye9fsS4NXA
- 入库时间: 2026-05-11
- 评分: 30
原始内容¶
→ 原文存档
深度分析¶
这篇来自"炼钢AI"公众号的R1复现实验报告,是一篇难得的小模型RL训练过程的一手经验记录,揭示了几个与主流"堆卡堆数据"叙事截然不同的工程洞察。 1. 未微调的Qwen2.5-1.5B-Instruct本身已具备一定的COT能力,这个发现对小模型部署有重要含义。 这意味着模型在预训练阶段已经隐式学会了链式推理模式,SFT或RL的作用不是"教会模型推理",而是"激活"和"引导"已存在的能力向特定方向收敛。因此在小模型上做RL训练时,初期出现的"回答先变短再变长"现象,本质上是模型在RL奖励信号引导下重新组织已有的推理模式,而非从头学习推理。 2. 直接使用开源数学数据进行SFT会让小模型能力全面退化的机制是分布差异而非过拟合。 纯数学数据与原始模型预训练数据分布差异过大时,即使只训练few-shot,模型也会被过度拟合到数学格式而牺牲通用能力。这与"大模型7B以上配比通用数据可以兼顾"的结论形成对比——小模型(1.5B)没有足够的容量同时容纳纯数学数据分布和原始分布,共存困难。 3. GRPO(和RL)相比SFT在通用能力保持上的优势来源于RL的"软优化"本质。 SFT强制模型拟合正确答案分布,是一种硬优化;RL通过奖励信号让模型自己探索正确答案的路径,允许模型保留自己偏好的解决路径。这是RL比SFT在通用能力遗忘问题上更温和的根本原因——不是RL做了什么额外保护,而是RL没有强制破坏原有知识结构。 4. 拒绝采样SFT可加速RL收敛的机制值得深入理解:用RL模型的rollout数据对原始模型做SFT,本质上是在做"能力蒸馏"而非"知识注入"。 rollout数据分布更接近原始模型的内在分布(初始loss更低证明了这一点),因此SFT效率更高——模型在自己熟悉的表示空间里学习新模式,比在外部分布上学习更高效。这解释了为什么自蒸馏数据训出来的模型不会崩溃,但用其他模型的rollout数据去训可能效果打折。 5. 多阶段拒绝采样+RL中,多样性衰减是限制性能进一步提升的关键瓶颈。 第一阶段RL模型的rollout数据多样性高,质量好;但经过SFT+第二阶段RL后,模型倾向生成更"安全"的回答,多样性下降,导致拒绝采样数据的边际收益递减。这说明RL的上限仍然受预训练水平约束——预训练能力决定了能力上限,RL和SFT只能在这个天花板下优化分布。
实践启示¶
对于小模型(≤3B)RL训练实践者: 优先选择GRPO而非直接SFT——即使目标任务(数学、代码)数据量有限,RL也比纯SFT更能保护通用能力。rollout num从8增加到16有明确收益(reward归一化更准确),在算力允许范围内优先使用更大的rollout num。 对于从零构建垂直领域模型的团队: 拒绝采样SFT是一种高效的数据增强手段——用小模型+RL先跑一遍,收集正样本,再对原始模型做SFT,可以在不引入外部数据的前提下实现能力迁移。但注意:只适用于目标领域与原始模型领域相近的场景;领域差异越大,rollout数据与原始分布的差异也越大,效果折扣越明显。 对于网红数据集(如s1、LIMO)的使用者: 这些数据集在1.5B级别小模型上不work,原因是小模型在few-shot训练后难以维持推理停止能力(车轱辘话来回说)。如果必须在小模型上使用高质量SFT数据,优先选择更长训练周期+更小学习率的配置,并持续监控推理停止能力。