Model Size Scaling in 2023-2031¶

Ch01.452 Model Size Scaling in 2023-2031¶

📊 Level ⭐⭐ | 7.8KB | entities/model-size-scaling-in-2023-2031.md

Model Size Scaling in 2023-2031¶

摘要¶

本文从 HBM（高带宽内存）带宽约束出发，系统性推演 2023-2031 年间 LLM 模型规模的可行上界。核心论点是：token 生成速度受限于 HBM 读取权重 + KV-cache 的时间，结合 pipeline 并行度和预训练计算量，可以推导出每年的模型参数天花板。研究发现，2027 年起预训练数据不足成为主约束，模型被迫比无限数据情景大 4 倍，与 Chinchilla scaling law 的"数据墙"预测一致。

核心要点¶

HBM 读取时间：模型规模的物理约束¶

token 生成速度的根本物理约束是 HBM 读取速度。当模型足够大，需要在单次前向传播中读取超过一半的 HBM 权重时，token 生成时间至少为 HBM 栈全量读取时间 × pipeline stage 数。

各代硬件的 HBM 全量读取时间：

芯片	HBM 配置	全量读取时间
H100	5×8-Hi HBM3, 0.8 TB/s	20 ms
H200	6×12-Hi HBM3	30 ms
GB200	4×8-Hi HBM3E, 1.0 TB/s	24 ms
GB300	4×12-Hi HBM3E	36 ms
Rubin (2026)	4×12-Hi HBM4, 2.75 TB/s	13 ms
Rubin Ultra	12-Hi HBM4E, 3.6-4.0 TB/s	12-13 ms
Feynman Y1 (2028)	2×16-Hi HBM4E	16 ms
Feynman Y2 (2029)	HBM5, 5.6 TB/s	14 ms

关键观察：GB300 的 HBM 读取时间（36 ms）是 Rubin（13 ms）的近 3 倍，这种差异直接影响 pipeline 深度和可服务模型的规模上限。

Pipeline 并行度：不是 FLOPs，而是 HBM 读取速度决定模型大小¶

以 80 tokens/s 为目标（含 3x speculative decoding/MTP 加速），每 37.5 ms 需要生成一个 token。在 pipeline 中，请求遍历 N 个 rack 时，需要读取所有 rack 的权重（N × 半栈时间），加上 KV-cache 的 1/N 读取（半栈时间总计）。

以 GB200 Oberon 为例：12 ms 花在 KV-cache 读取（与 pipeline 长度无关），剩余 25.5 ms 用于权重读取（每 stage 12 ms），因此最多 2 个 stage。

各代硬件的最大 pipeline 深度： - H100：最多 2 台服务器 - H200：最多 1 台服务器 - GB200 Oberon：最多 2 个 rack - GB300 Oberon：最多 1 个 rack - Rubin/Rubin Ultra：最多 4 个 rack - 8x Kyber + Feynman Y1：最多 3 个系统 - 8x Kyber + Feynman Y2：最多 4 个系统

模型规模推演：从 10T 到 1.4 千万亿¶

结合 pipeline 约束和预训练计算量，各年份的模型参数天花板（FP4 总参数）：

年份	预训练 FLOPs	活跃参数	Sparsity	总参数	硬件
2023	2.1e25	170B	8x	1.3T	H100
2024	2e26	530B	8x	4.2T	H100/H200
2025	6e26	900B	8x	7.2T	GB200
2026	1.3e27	1.3T	8x	10T	GB200/GB300
2027	6e27	3.8T	8x	30T	Rubin
2028	2e28	7.9T	30x	240T	Rubin Ultra Kyber
2029	8e28	22T	30x	650T	Feynman Y1
2030	1e29	26T	30x	790T	Feynman Y1/Y2
2031	2.2e29	48T	30x	1.4 千万亿	Feynman Y2

深度分析¶

数据墙：2027 年后的核心约束¶

本文最具洞察力的发现是：从 2027 年起，预训练数据不足取代计算能力成为模型规模的主要约束。

推导逻辑： - 假设可用的独特预训练数据上限为 200T tokens - Chinchilla scaling law 的 compute optimal 比率在 8x sparsity 下为 120 tokens/param，在 30x sparsity 下为 240 tokens/param - 当计算量要求的训练 tokens 超过 200T 时，必须通过增加活跃参数 + 重复数据 epochs 来补偿

以 2031 年为例：2.2e29 FLOPs 在 30x sparsity 下要求 3,000T 训练 tokens，是可用数据的 15 倍。模型被迫拥有 48T 活跃参数（而非 compute optimal 的 12T），并用 200T 独特 tokens 训练 3.9 个 epochs。

这一发现的深远影响： 1. 模型规模的"通胀"：模型不是因为需要更大而变大，而是因为数据不足被迫膨胀 2. 数据质量 > 数据数量：高质量独特数据将成为最稀缺的战略资源 3. Scaling law 的修正：Chinchilla scaling law 在数据受限时需要修正

2024 年：模型最受硬件约束的一年¶

2024 年是模型最受 scale-up 系统约束的一年。compute optimal 的模型（530B 活跃参数，4.2T 总参数）即使在 FP4 下也远超 2 台 H100 服务器的 1.3T 约束或 1 台 H200 服务器的 1.1T 约束。

这解释了为什么 GPT-4.5 如果比 compute optimal 更快（在 GB200 Oberon 可用之前），它可能实际上更小。这也说明了为什么 2024 年的模型在速度和成本上面临巨大压力。

Sparsity 作为参数放大器¶

Sparsity 从 8x 到 30x 的演进是模型规模膨胀的关键驱动因素： - 8x sparsity：活跃参数占总参数的 12.5%，2023-2027 年适用 - 30x sparsity：活跃参数占总参数的 3.3%，2028 年起适用

更高的 sparsity 使得在保持活跃参数可控的前提下大幅增加总参数成为可能，从而在推理时保持合理的速度。但这需要 MoE（Mixture of Experts）架构的支持。

预训练计算的增长轨迹¶

预训练计算的增长基于以下假设： - 3 个月预训练周期，40% FLOP/s 利用率 - FP8 训练（Nvidia 在 Rubin 中押注 FP8，FP8/BF16 性能比从 2 提升到 4.4） - 全球 AI 计算从 2027 年底的 10 GW 增长到 2030 年的 40 GW

这一增长轨迹意味着 AI 公司的一方计算资源从 2025 年底的 1-2 GW 增长到 2027 年底的 10 GW，再到 2030 年的 40 GW。

实践启示¶

Pipeline 并行度是硬约束：不是 FLOPs 决定模型大小，而是 HBM 读取速度 × pipeline stage 数。在选择推理硬件时，HBM 带宽比计算峰值更重要
数据墙比计算墙先到：2027 年起，独特训练数据的稀缺将成为模型能力增长的主要瓶颈。投资数据获取、清洗、合成将成为关键竞争力
Sparsity 架构是必经之路：从 8x 到 30x sparsity 的演进需要 MoE 架构的支持，这对模型设计和推理基础设施都有深远影响
Rubin 是关键转折点：HBM4 的 13 ms 读取时间（相比 GB300 的 36 ms）将彻底改变推理经济学，使得更长 pipeline 和更大模型变得可行
Speculative decoding/MTP 是必备技术：3x 加速假设意味着没有这些技术，可服务模型的规模将大幅缩减

Model Size Scaling in 2023-2031¶

Ch01.452 Model Size Scaling in 2023-2031¶

Model Size Scaling in 2023-2031¶

摘要¶

核心要点¶

HBM 读取时间：模型规模的物理约束¶

Pipeline 并行度：不是 FLOPs，而是 HBM 读取速度决定模型大小¶

模型规模推演：从 10T 到 1.4 千万亿¶

深度分析¶

数据墙：2027 年后的核心约束¶

2024 年：模型最受硬件约束的一年¶

Sparsity 作为参数放大器¶

预训练计算的增长轨迹¶

实践启示¶

相关实体¶