跳转至

Amazon Nova Forge 域定制超参调优:艺术与科学

Ch11.057 Amazon Nova Forge 域定制超参调优:艺术与科学

📊 Level ⭐⭐ | 11.6KB | entities/amazon-nova-forge-hyperparameter-tuning-art-science.md

Amazon Nova Forge 域定制超参调优:艺术与科学

概述

Amazon Nova Forge 是 AWS 提供的自建前沿模型定制服务,核心价值在于:从早期 checkpoint 起步、混合专有数据与 Amazon Nova 精选数据、在 AWS 上安全托管定制模型。数据混合 (data mixing) 能力是核心 — 让模型吸收领域知识同时保留通用推理与指令遵循能力,避免 catastrophic forgetting。

三大定制阶段

阶段 作用 适用数据 关键考量
CPT (Continued Pre-Training) 通过自监督学习扩展基础模型领域知识 大规模无标注领域文本 (100B+ tokens) 需数据混合 + checkpoint 选择
SFT (Supervised Fine-Tuning) 用输入-输出对定制模型行为 1,000-10,000 高质量标注 (质量 > 数量) 必含 "reasoning-instruction-following" 类别
RFT (Reinforcement Fine-Tuning) 用 reward signal 引导输出优化 prompts + reward function baseline 准确率需适中 (不能太低也不能太高)

三大超参挑战

1. Catastrophic Forgetting (灾难性遗忘)

训练窄领域数据时,模型覆盖预训练的通用能力。表现:客服模型微调后失去模糊请求推理能力。Nova Forge 通过数据混合 + checkpoint 选择 解决。

2. Learning Rate (学习率)

最敏感的超参数: - 太高 → 模型过冲、训练不稳定、快速遗忘 base 能力 - 太低 → 收敛过慢、浪费算力 - 与数据混合策略强耦合:使用数据混合时偏离默认学习率 = 训练不稳定的首要原因

3. RFT Baseline 约束

RFT 仅在 baseline 准确率适中的范围内有效: - 准确率太低 → 没有足够好的样本供 reward-guided exploration 学习 - 准确率已经很高 → 边际收益递减,且可能损害现有性能 - 结论:RFT 不能弥补大能力鸿沟,只能强化已有能力

战略决策树

Checkpoint 选择 (最影响决策)

Checkpoint 灵活性 适用场景 注意事项
Pre-trained 最高 大规模 CPT (>100B tokens),可用更高 LR (1e-4) 必须后接 SFT 恢复指令遵循
Mid-trained 平衡 中等规模 CPT、全秩训练 (Full Rank) 平衡灵活性与稳定性
Post-trained 最低 小规模 CPT、LoRA 微调 保留 alignment,是 LoRA 推荐起点

Training Mode 选择

  • LoRA (推荐起步):
  • 只更新适配层,迭代快、成本低
  • 对亚优超参更宽容
  • 适配 post-trained checkpoint
  • 默认 alpha=64
  • Full Rank (进阶):
  • 更新所有参数,最大适配能力
  • 需 Bedrock Provisioned TPUT 部署
  • 适合大规模结构化数据 + mid-trained checkpoint

关键数字锚点

  • 数据混合比例:客户数据 ~50% 是大多数用例的平衡点
  • 必含类别:SFT 必须包含 reasoning-instruction-following 类别,否则通用 benchmark 性能下降
  • LR 默认值:Nova Forge 服务默认值(偏离即可能不稳定)
  • 数据量阈值:CPT 通常需 100B+ tokens,pre-trained checkpoint 才发挥优势
  • SFT 数据量:1,000-10,000 高质量样本 (质量/一致性/多样性 > 数量)

实战推荐工作流

  1. SFT 起步:用 LoRA + post-trained checkpoint 教目标行为
  2. RFT 升级:在 SFT baseline 上叠加 reward function
  3. Full Rank 进阶:当 LoRA 收益饱和、部署架构支持 Provisioned TPUT 时迁移

深度分析

1. 稳定性-灵活性权衡是超参调优的核心矛盾

Amazon Nova Forge 的超参挑战背后,本质是稳定性-灵活性权衡 (stability-flexibility tradeoff) 这一基础矛盾的具体实例化。模型需要足够的灵活性来吸收新领域知识,但过度的灵活性会破坏预训练已建立的通用能力(catastrophic forgetting)。数据混合和 checkpoint 选择是解决这一权衡的两大核心杠杆,而学习率则是控制这一权衡幅度的最敏感调控器。这条矛盾线贯穿 CPT/SFT/RFT 三个阶段——CPT 阶段灵活性最高但稳定性最低;RFT 阶段稳定性最高但灵活性最低(只能微调已有能力边界)。

2. 学习率对数据混合的强耦合性

原文明确指出:"Deviating from the default learning rate when mixing Nova data with your own data is the most common source of training instability"。这不是一个普通的超参数敏感性声明,而是揭示了一个系统性耦合关系——当数据分布从单一来源变成混合分布时,梯度景观 (gradient landscape) 发生根本性变化,默认学习率的假设前提不再成立。学习率与数据混合比例之间存在非线性交互:50% 混合比例下的最优学习率可能与纯客户数据或纯 Nova 数据的最优值相差一个数量级。调参者必须将这两个超参视为联合变量,而非独立搜索维度。

3. RFT 基线性能的双向约束机制

RFT 的有效性被双向约束在基线准确率的中间区间:过低则 reward-guided exploration 没有足够的正样本可供强化;过高则边际收益递减且存在破坏已有性能的风险。这与传统的"更多训练=更好"假设完全不同,意味着 RFT 是一个能力边界精调工具,而非能力跃迁工具。对于实际应用,这意味着在启动 RFT 之前,必须通过 SFT 将基线准确率推到"可教育"的窗口内——AWS 文档暗示这个窗口的大致边界是 baseline 准确率需要 >5% 的 positive reward。

4. Checkpoint 选择决定上限,超参只是填充细节

原文在 checkpoint 选择部分写道:"For CPT, checkpoint selection is more impactful than any hyperparameter"。这是一个极具实践意义的判断——它意味着即使所有超参都调至最优,如果 checkpoint 选择不当,模型能力的上限已经被限制了。Pre-trained checkpoint 适合大规模 CPT 但需要后续 SFT 恢复指令遵循;Post-trained checkpoint 保留了 alignment 但灵活性最低;Mid-trained checkpoint 则处于两者之间。这一决策树的不可逆性(选择一个 checkpoint 就选择了不同的训练路径)要求实践者在动手调参之前先完成这一战略决策。

5. Reward Function 质量优先于所有超参数

在"Common pitfalls"章节,原文将 reward function 质量 置于所有超参数之前:一个差的 reward function 会导致准确率下降,无论其他超参数如何调整;而一个精细的 reward function 在相同基础设施上产生一致的性能提升。这一原则对于所有 reinforcement learning 应用都具有普遍意义——它揭示了 catastrophic forgetting 之外另一种模型能力损失路径:reward hacking,即模型找到绕过 reward 函数意图的捷径,而非真正改进目标行为。LLM-as-judge 的选择同样需要验证,确保评判模型在模型输出质量范围内具有区分度。

实践启示

1. 始终从服务默认值起步,特别是使用数据混合时

Nova Forge 的服务默认值是经过跨场景测试的配置,代表了稳定性-性能的最佳平衡点。对于 SFT+LoRA,推荐值是 LR=1e-5;对于 Full Rank SFT,是 LR=5e-6。当使用数据混合时,默认值更是唯一安全起点——偏离是训练不稳定的首要原因。先用默认值建立基线,再以此为基准进行有方向的扰动实验,而非从一开始就做大范围超参搜索。

2. 用 LoRA + post-trained checkpoint 起步验证 Pipeline

LoRA 对亚优超参的宽容性使其成为 pipeline 验证的理想起点。Post-trained checkpoint 保留了指令遵循和 alignment 能力,进一步降低了新领域训练的起步风险。这一组合能用最小算力代价验证数据质量、prompt 设计合理性和 reward function 有效性。只有在 LoRA 验证了完整流程可行之后,才考虑迁移到 Full Rank。

3. SFT 必须包含 Reasoning-Instruction-Following 类别

在 SFT 的 Nova 数据混合中,包含 reasoning-instruction-following 类别是必选项而非可选项。跳过这一类别是导致 fine-tuned 模型 reasoning 性能下降的常见原因。这个类别的作用是维持模型的通用推理和指令遵循能力,防止域定制过程对通用 benchmark 性能造成不必要的侵蚀。这与 LLM pre-training vs SFT 之间的关系一致——SFT 阶段如果缺少通用能力类别的监督信号,模型会在特定任务上过拟合而丧失泛化能力。

4. 数据质量优先,混合比例以 50% 为实验起点

原文明确"quality, consistency, and diversity matter more than volume",且混合比例的推荐起点是 50% 客户数据。对于超参调优的实际工作流,这意味着应该先投入时间在数据清洗和质量控制上,而非在错误的低质量数据上优化混合比例和超参数。同时,training data 应该把最高质量的数据放在训练末尾,以获得更好的收敛性。

5. CPT 只跑一个 Epoch,监控 Validation Loss 防止 Overfitting

CPT 阶段最多只跑一个 epoch——重复处理有限数据会导致过拟合和通用能力损失。这一约束对于私有化领域数据尤其重要,因为大多数组织的数据量相比预训练语料都极为有限。Validation loss 是核心监控指标:如果 training loss 下降而 validation loss 上升,说明已经进入过拟合状态,应该立即停止训练。对于 Checkpoint 选择,当数据规模较小时,post-trained checkpoint 的稳定性优势往往超过 pre-trained checkpoint 的灵活性收益。

相关实体

原文存档