Opd Revisiting Failure Modes Simple Fixes Storm¶

agent架构: 本文在agent方向提出的设计理念与实现路径
工程挑战: 实际落地中面临的关键问题与应对策略
code趋势: 相关技术演进方向与新兴范式

Ch01.760 Opd Revisiting Failure Modes Simple Fixes Storm¶

📊 Level ⭐⭐ | 3.6KB | entities/opd-revisiting-failure-modes-simple-fixes-storm.md

Opd Revisiting Failure Modes Simple Fixes Storm 涉及agent领域的核心技术议题。

大模型智能｜分享来源 | 知乎作者 | storm 在最近的大模型后训练中，On-Policy Distillation已经成为默认选项之一。
但研究者们在分析训练日志、实验曲线和对比不同 OPD 方法实现时，反复碰到同一个问题：理论上很自然的 sampled-token OPD，实际运行起来并不稳定，甚至会把模型往一些局部上“看起来合理”、整体上却越来越差的方向推。
论文:Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes 链接:https://arxiv.
25562 代码:https://github.
com/hhh675597/revisiting_opd 在这篇文章中，我们并不打算再次讲解 OPD (已经有很多不错的入门材料)，而是想集中回答三个更具体的问题：这个方法到底在优化什么；常见实现为什么容易出问题；以及有没有一个代价不高、但更稳定的实现路径。