跳转至

Shannon & Epiplexity: Finite Compute Information Theory

Ch01.594 Shannon & Epiplexity: Finite Compute Information Theory

📊 Level ⭐⭐ | 5.9KB | entities/shannon-epiplexity-finite-compute-information-theory.md

Shannon 没有想到的事——当信息论遇上有限算力

来源: 微信文章 — AI-lab学习笔记 URL: https://mp.weixin.qq.com/s/YZkpBN1PECoVdVFZT-JYnA 标签: #信息论 #计算理论 #涌现 #LLM训练 Shannon 1948 年创立信息论,假设观察者有无限算力。这个假设在通信领域无害,但 LLM 时代成了核心缺口:同样的数据,GPT-2 和 GPT-4 学到的东西不同;人类和 LLM 学到的也不同;同一个人精力充沛 vs 疲惫时学到也不同。

相关实体

原文存档

深度分析

信息的关系性本质:从客观存在到观察者依赖。 Shannon 信息论将信息视为数据的固有属性,而 Epiplexity 理论从根本上颠覆了这一假设——信息是数据与观察者之间算力配置共同作用的产物。这一转向的影响是深远的:同样的语料库,对于不同架构、不同训练阶段的模型而言,包含的信息量完全不同。这不是数据的缺陷,而是有限计算框架下信息本质的必然表现。

Epiplexity 量化了"结构可迁移性"的物质基础。 论文的核心贡献在于提出了一个可测量的指标——loss 曲线的积分面积代表模型真正学到的可迁移知识。实验数据显示自然语言的 Epiplexity 约为 37%,国际象棋约 5%,而图像不足 1%,恰好与语言模型迁移到数学、代码、机器人控制等任务时的强大泛化能力形成对应。这解释了为什么语言预训练是 AI 最有价值的迁移学习基座,而纯视觉预训练迁移能力弱得多。

顺序敏感性揭示了学习方向的认知不对称。 AlphaZero 和国际象棋逆序训练实验表明,计算过程的方向性与信息提取效率之间存在深刻联系——从结果倒推原因(逆序)比从原因正向推演(正序)能学到更多结构。这与 Ilya Sutskever 关于推理小说预测凶手的直觉一致:写作是"选凶手→织线索",阅读是"读线索→猜凶手",两个过程的信息整合方向根本不同。这对 LLM 的训练数据选择和课程学习设计有直接启示。

有限算力观察者的涌现现象可以在细胞自动机中找到严格例证。 规则 15、30、54 输入完全相同,但规则 54 产生了粒子、碰撞、移动等完全不在原始规则中的高层概念结构。这与 Conway 生命游戏从三行规则涌现出滑翔机、通用计算机的逻辑一脉相承——复杂结构不是被编码进系统的,而是算力有限但结构选择压力足够强时自发涌现的。

学生超越老师的必然性根植于信息-算力关系的不对称性。 生命游戏的例子表明:学习者学到的内部程序可以比生成数据的原始程序复杂得多。这不仅适用于 LLM 与人类的关系,也适用于 LLM 之间的能力演化——GPT-4 的内部表征复杂度远超其训练数据中任何单个文档的复杂度,这正是 Epiplexity 机制在语言领域的体现。

实践启示

  • 数据选择应优先最大化 Epiplexity 而非数据量。 Chinchilla 定律解决的是"用多少数据"的问题,Epiplexity 框架回答的是"用什么数据"的问题。在资源有限的场景下,优先选择那些能让 loss 下降更快、更彻底的训练样本,等价于在单位算力下提取最大化的结构化知识。ADO 数据选择策略无意中命中了这一原则。

  • 课程学习设计应考虑逆序训练的价值。 对于存在隐含因果结构的任务(代码、证明、策略游戏),有意引入逆序或对抗性训练样本可以提升模型对底层结构的捕获能力。实践中可以设计"从答案倒推条件"的数据增强策略。

  • 评估模型能力时,应关注 loss 曲线下面积而非单一 Checkpoint 的损失值。 两个模型在相同数据集上达到相同最终 loss,但学习速度(曲线斜率)和过程不同,代表的知识结构可能完全不同。这一过程指标比静态评估更能捕捉模型的真实学习效率。

  • 多模态融合策略应优先整合高 Epiplexity 模态。 自然语言 37% 的结构性信息占比意味着,语言是 AI 系统最有效率的信息载体。在构建多模态系统时,以语言为核心对齐其他模态,比让各模态平等竞争更能保持可迁移性。

  • 人类教育中的" desirable difficulty"有信息论解释。 学习困难方向之所以能提升长期记忆和迁移效果,是因为有限算力下,困难材料迫使大脑调用更多认知资源(算力升级),从而在同一数据中提取更多 Epiplexity。这一发现可用于设计自适应学习系统:动态调整材料难度以维持最优 Epiplexity 负荷。