gzip 作为语言模型：压缩-预测等价性的信息论探索¶

Ch01.498 gzip 作为语言模型：压缩-预测等价性的信息论探索¶

📊 Level ⭐⭐ | 7.1KB | entities/gzip-lm-compression-as-language-model.md

gzip 作为语言模型：压缩-预测等价性的信息论探索¶

摘要¶

Nathan Barry 用 gzip（准确说是 zlib/DEFLATE）实现了语言模型——没有神经网络、没有学习参数，仅用操作系统自带的压缩器。通过将语料库放入 gzip 的滑动窗口，用 beam search 搜索压缩率最高的续写序列，在 tiny Shakespeare 上生成了明显"知道"原文特征的文本。这一实验直观验证了信息论的核心命题：压缩即预测，任何压缩算法内部都隐含着一个概率模型。

核心要点¶

压缩-预测等价性：最优编码长度 = -log₂(p)，因此能很好压缩文本的算法本质上已建模了文本的概率分布——这就是语言模型所做的事
DEFLATE 的隐式预测：gzip 使用 32 KiB 滑动窗口的 LZ77 算法，通过反向引用匹配已见文本——匹配越好的续写压缩越小，等价于"预测置信度越高"
Beam Search 生成：逐字节贪心选择失败（gzip 只输出整数字节长度，量化噪声淹没信号），需要前瞻多个字节的 beam search
Tail 截断防止退化循环：只将生成文本的最后 tail 字节保留在评分上下文中，防止 DEFLATE 陷入逐字复制的退化循环
信息论基础：Kolmogorov 复杂度、Solomonoff 归纳、MDL（最小描述长度）原理在此汇聚

深度分析¶

压缩即预测的数学基础¶

Shannon 信息论的核心定理：如果一个模型为符号分配概率 p，最优编码需要 -log₂(p) 位。这意味着：

高概率符号 → 编码短 → 压缩好
低概率符号 → 编码长 → 压缩差

任何压缩器都在隐式地做"哪些数据可预期、哪些不可预期"的判断。一个对文本压缩率很高的算法，本质上已经发现了文本的统计规律——即建模了文本的概率分布。语言模型做的正是同一件事：给定上下文，预测下一个 token 的概率分布。

DEFLATE 的工作机制与预测能力¶

gzip 使用 DEFLATE 算法，核心是 LZ77：在 32 KiB 滑动窗口中查找与待编码数据匹配的先前文本。找到匹配时，用廉价的反向引用（距离 + 长度）替代字面字节。

这给出了评分函数：

score(candidate) = len(gzip(context + candidate))

压缩后长度越小，续写越"被预测"。将语料库放入 gzip 窗口（即 priming），任何看起来像语料库的续写都会被压缩得很小，不像的则很大。

Beam Search 的必要性¶

逐字节贪心选择失败的原因很微妙：gzip 只输出整数字节长度（没有小数）。添加一个字节往往不改变压缩长度，多个候选者平局，信号被量化噪声淹没。

gzipt 的解决方案是 beam search：在每个步骤保持 beam_width 个最可压缩的部分续写，每个续写尝试语料库中出现的每个字节扩展，按压缩长度评分并剪枝，重复 horizon 字节后提交最佳续写。

Tail 截断的精妙设计¶

一个关键细节：只有生成输出的最后 tail 字节保留在评分上下文中。原因：DEFLATE 对近处匹配的编码成本低于远处匹配。如果 gzip 能看到整个历史，最廉价的策略就是逐字复制刚输出的文本——陷入退化循环。Tail 截断打破了这一反馈回路。

与神经语言模型的对比¶

gzip 语言模型的产出不是连贯文本，但它明显"知道"原文的结构——角色名、对话格式、莎士比亚风格的词汇。这说明：

LZ77 的滑动窗口隐式捕获了局部 n-gram 统计
压缩率与 perplexity 有强相关性
传统压缩算法在小数据集上可媲美简单神经网络

但从 gzip 到 GPT-4 的鸿沟是巨大的——神经网络通过多层抽象捕获了更远程、更深层的结构，而 LZ77 受限于 32 KiB 窗口。

理论谱系¶

这一实验将多个信息论概念串联起来：

Kolmogorov 复杂度：描述对象的最短程序长度
Solomonoff 归纳：基于程序长度的贝叶斯推理（短程序先验更高）
MDL 原理：选择对数据描述最短的模型
Hutter Prize：用压缩衡量 AI 进展的竞赛

实践启示¶

理解 LLM 为什么工作：从信息论角度，LLM 是在做更好的压缩——它们发现了文本的更深层统计结构
压缩作为评估工具：压缩率可以作为模型质量的代理指标，无需标注数据即可评估
无参数基线的价值：gzip 语言模型提供了一个零学习参数的基线，帮助理解"学到的"和"硬编码的"边界
Beam Search 的通用性：从 gzip 到 LLM 解码，beam search 都是处理离散序列生成的核心技术
实验精神：用操作系统自带工具验证深层数学命题——优雅且可复现

gzip 作为语言模型：压缩-预测等价性的信息论探索¶

Ch01.498 gzip 作为语言模型：压缩-预测等价性的信息论探索¶

gzip 作为语言模型：压缩-预测等价性的信息论探索¶

摘要¶

核心要点¶

深度分析¶

压缩即预测的数学基础¶

DEFLATE 的工作机制与预测能力¶

Beam Search 的必要性¶

Tail 截断的精妙设计¶

与神经语言模型的对比¶

理论谱系¶

实践启示¶

相关实体¶