Generalization Dynamics of LM Pre-training — Jiaxin Wen¶

Ch01.784 Generalization Dynamics of LM Pre-training — Jiaxin Wen¶

📊 Level ⭐⭐ | 3.5KB | entities/generalization-dynamics-of-lm-pre-training-jiaxin-wen-1.md

核心要点¶

Published Time: Tue, 19 May 2026 23:15:11 GMT People typically assume that LMs stably mature from pattern-matching parrots to generalizable intelligence during pre-training. We build a toy eval suite

深度分析¶

这篇由 Jiaxin Wen 等人发表的论文挑战了 LLM 预训练领域一个根深蒂固的假设：LMs 在预训练过程中是单调地从"模式匹配鹦鹉"进化为"具有泛化能力的智能体"。作者构建了一个小型评估套件来系统追踪预训练过程中的泛化动态，发现实际情况远比直觉复杂——模型可能在某些任务上泛化能力增强的同时，在另一些任务上反而退化（称为"负迁移"）。从技术层面看，这项研究的意义在于提供了细粒度的预训练进程观测方法。传统的预训练评估依赖于最终的 benchmark 分数，但无法回答"泛化能力是在哪个训练阶段、以什么速率获得的"这一过程性问题。通过在预训练不同阶段插入 eval，论文揭示了泛化能力的获得并非匀速，而是存在关键窗口期和高原期。这一发现对 pre-training recipe 设计有直接影响。如果模型在某个阶段出现了负迁移，传统的做法是增加 tokens 或调整学习率 schedule，但本文的框架可以帮助精确定位问题源头——是数据配比出了问题，还是模型容量与任务复杂度不匹配。

实践启示¶

预训练监控：在自有预训练流程中引入中间 eval 节点（建议每 10B-50B tokens 做一次），构建"泛化曲线"而非仅看最终 loss，这对诊断早期过拟合或负迁移至关重要
数据策略：如果发现某些领域的能力在预训练中持续退化，考虑使用 curriculum learning 或调整领域数据比例，避免在已经收敛的能力上浪费计算预算
评估套件设计：论文的 toy eval suite 思路值得借鉴——不必追求大而全的 benchmark，而是构建覆盖核心能力维度的精简集，在训练过程中高频追踪，及时发现泛化动态的异常

Generalization Dynamics of LM Pre-training — Jiaxin Wen¶

Ch01.784 Generalization Dynamics of LM Pre-training — Jiaxin Wen¶

核心要点¶

深度分析¶

实践启示¶

相关实体¶

相关实体¶