Lossy self-improvement¶
Ch01.253 Lossy self-improvement¶
📊 Level ⭐⭐ | 14.2KB |
entities/lossy-self-improvement.md
Lossy self-improvement¶
原文存档:原文存档
Core insight: Nathan Lambert 提出"有损自我改进"(Lossy Self-Improvement, LSI)框架,对抗 AI 社区对递归自我改进(RSI)的流行叙事。LSI 核心论点是:模型确实成为研发循环的核心,但 friction 会打破 RSI 的三大假设——闭环、自放大和效率不减,导致进步曲线更接近线性而非指数。复杂性刹车(Complexity Brake)是 LSI 的理论基础。
RSI 的三大假设与 LSI 的提出¶
递归自我改进(RSI)通常被描述为:AI 能够改进自身,进化的版本能更高效地改进自身,形成封闭放大循环,最终导致智能爆炸(奇点)。RSI 需要三个假设同时成立:闭环(模型能持续改进自身并产生更多模型)、自放大(下一代模型比当前版本产生更大的改进)和效率不减(指数曲线不被摩擦截断)。
Lambert 认为,尽管我们正经历由 AI 持续改进带来的社会动荡性变化,但进步轨迹在回望时将更接近线性而非指数。取而代之的是"有损自我改进"(LSI)——模型成为研发循环的核心,但摩擦会打破 RSI 的所有核心假设:你投入更多计算和 agents,问题中的 loss 和重复也会增加。
复杂性刹车(Complexity Brake)¶
LSI 的理论基础来自 Paul Allen 提出的复杂性刹车概念:科学越接近理解智能,进一步进步的难度就越大。对人类创造力的研究表明,专利数量并未呈现加速回报,实际上自 1850-1900 年间每千项专利达到峰值后便持续下降。复杂性增长最终是自我限制的,会导致"广义系统崩溃"。
Lambert 将这一理论应用于 AI 研发:构建前沿语言模型极度复杂且日益变得更复杂。Karpathy 的 autoresearch 等工具可以在特定测试损失或单一总体奖励的窄域内优化模型,但从纸面更准确的模型到用户觉得更有成效的模型之间存在长期差距。这个问题在预训练中尤为突出——扩展定律显示损失会持续下降,但我们不知道这是否经济上更有价值。
三大核心摩擦¶
1. 可自动化研究范围过窄:语言模型今年已在优化局部任务(如降低测试损失)方面成为有用工具。但存在一个长期差距:纸面上更准确的模型 ≠ 用户认为更有成效的模型。更重要的是,从"模型在某些方面变得更好"到"模型在构建自身和设计实验方面变得更好"之间存在巨大飞跃。在后训练中,90% 的挑战在于不破坏模型在分布外任务上的表现的情况下获得最后 1-3% 的性能提升。PostTrainBench 等基准测试进展会迅速扭曲。
2. 更多 AI agents 并行化收益递减:即使在数据中心拥有 10,000 个远程 workers,将它们全部引导向同一个问题几乎不可能。当模型仍然如此相似时,它们从相同的解决方案和能力分布中采样,同时受到人类监督的瓶颈制约。Amdahl 定律在 AI 研究中的应用表明,增加更多 agents 带来的边际性能提升存在严格上限——最好的一些研究员的直觉(和运行实验的时间)是最终瓶颈。当研究员从使用 1 个 AI 辅助工具到使用 3-4 个 agents 在不同子任务或方法上工作,收益递减的模式类似。
3. 资源瓶颈和政治因素:所有 AI 公司都在获取大量资本、将新计算资源转化为足够需求的收入、以及在极端研究支出中重复这一过程之间走钢丝。在这个层面上,研究领导者高于 AI 和研究人员。即使模型继续改进,这种摩擦永远不会消失——AI 模型根本上在人类是资源瓶颈的组织的环境中运作。
LSI 时代:不是指数爆炸,而是线性爬坡¶
每个 sigmoid 的底部感觉都像指数。我们已经经历了语言模型时代的多个指数:2023 年扩展到巨大模型,GPT-4 像魔法一样;2025 年添加了推理时扩展(o1 和推理模型),让我们"解决"了数学和编码;现在我们将通过大规模扩展训练计算来完善整个 AI 工作流程。2026 年将感觉是巨大的一步,但没有什么根本性变化说服 Lambert 进步将开始起飞。
这仍然可能跨越 AGI 的通俗阈值——大多数远程 workers 的即插即用替代品——这将是一个难以置信的里程碑。但挑战在于 AI 模型在不同于人类的方式中是参差不齐且聪明的,它们不会看起来像远程 workers 的即插即用替代品,但在许多情况下使用 AI 比与人类合作要有效得多。它正在重塑工作的形态。
关键数据/实践启示¶
- PostTrainBench 局限:后训练性能提升的最后 1-3% 是最复杂且最容易 overfit 的部分
- Amdahl 定律应用:在 AI 研究中增加并行 agents 的边际收益严格受限,最好研究员的直觉是最终瓶颈
- AutoML 历史类比:2017-2022 年 AutoML hype 从未真正改变研究员的工作——AI 自动化研究也面临类似瓶颈
- LSI 持续数年:模型正在执行自我改进,但没有转变方法;未来几年将处于 LSI 时代而非 RSI 快速起飞
- 复杂系统崩溃风险:Paul Allen 的复杂性刹车理论暗示科学进步存在自我限制机制
深度分析¶
1. RSI 假设的结构性脆弱性¶
RSI 的三个假设(闭环、自放大、效率不减)相互依赖,形成"全有或全无"的逻辑结构——任何一个假设失效都会导致整个 RSI 框架崩溃。 LSI 框架的洞察力在于指出这三个假设在现实中被不同类型的 friction 分别击破:闭环假设被"可自动化研究范围过窄"击破,因为模型只能在局部损失函数上优化,无法形成真正的自我改进闭环;自放大假设被"并行化收益递减"击破,因为更多 agents 的边际贡献存在严格上限;效率不减假设被"资源瓶颈和政治因素"击破,因为组织内部的政治博弈永不消失。这种结构性脆弱性意味着 RSI 不是概率极低的"好事",而是逻辑上几乎不可能的"结构性失败"。
2. 复杂性刹车的双重来源¶
Paul Allen 的复杂性刹车理论存在两个不同层次的机制,需要区分。第一层是科学发现层面的刹车:随着已知知识库扩大,新发现需要理解的背景知识越来越多,导致边际发现成本上升——这解释了为什么专利数量自 1850 年后持续下降。 第二层是系统构建层面的刹车:构建前沿语言模型本身就是一项日益复杂的工程任务,需要协调的变量(架构、参数、数据配比、post-training 策略)数量爆炸,导致即使知道"正确答案",找到它也需要指数级更多的试错。 Lambert 的 LSI 框架主要依赖第二层机制来解释 AI 进步减速,但第一层刹车(科学发现的复杂性)实际上为 LSI 提供了更根本的论据:如果连人类科学家都在面临发现成本上升的问题,AI 模型作为科学研究的工具也会被这一刹车间接影响。
3. AutoML 的警示寓言¶
2017-2022 年间的 AutoML hype 是 LSI 框架最有力的历史类比。AutoML 的核心承诺是:用贝叶斯优化等自动化方法发现新架构和超参数,将取代人类研究员在模型设计中的角色。但实际结果是:AutoML 在特定小规模任务上确实有效,但从未能取代顶级研究员的直觉和工程判断。 这个案例揭示了一个关键不对称:AI 自动化擅长"在一个明确定义的搜索空间内优化",而顶级研究的核心工作是"定义搜索空间本身"——后者需要跨领域直觉、模糊判断和对未知的嗅觉。当前的 AI autoresearch 正在重走 AutoML 的老路:在测试损失这个单一指标上效果拔群,但"模型更有成效"的定义本身就是一个无法自动化的元问题。
4. Amdahl 定律的 AI 研究适配¶
Amdahl 定律原本是计算机架构中的并行计算理论:给定任务的加速比受制于无法并行化的串行部分比例。Lambert 将其创造性地应用于 AI 研究,其核心洞见是:AI 研究中"最好的研究员的直觉"和"运行实验的时间"构成了无法并行化的串行瓶颈。 这意味着即使将 10,000 个 AI agents 部署到同一个问题上,由于人类监督和协调的串行特性,整体效率的提升存在硬性上限。值得注意的是,这一瓶颈不仅存在于人多的情况——即使单个研究员使用 3-4 个 agents,也会开始出现收益递减,因为组织多个 agents 本身就需要研究员投入大量时间来分配任务和整合结果。 这一分析暗示 AI 研究的生产率提升曲线不是线性的,而是对数型的——初期大幅提升,后期缓慢逼近某个理论极限。
5. LSI 对 AGI 路径的重新定性¶
LSI 框架对 AGI 辩论的隐性贡献在于重新定性了"进步的类型":从"更快"到"更广",从"指数爆炸"到"线性爬坡"。 Lambert 指出,2026 年的 AI 进步"将感觉是巨大的一步,但没有什么根本性变化说服 Lambert 进步将开始起飞"。这个预测基于一个关键区分:每个 sigmoid 曲线的底部都感觉像指数,因为基数小;但当基数足够大时,即使维持同样的增长率,绝对增量也会让观察者产生"起飞"的错觉。LSI 的核心论点是 AI 进步正处于多个 sigmoid 的中段,而非某个指数曲线的起点。此外,Lambert 对 AGI 的"通俗阈值"定义(大多数远程 workers 的即插即用替代品)提供了一个可测试的里程碑——但同时也指出 AI 模型"参差不齐且聪明"的方式与人类不同,这使得它们不会成为真正意义上"即插即用"的替代品,而更像是一种新的工作形态。
实践启示¶
1. 建立 RSI 失败概率的先验评估框架¶
在评估任何"AI 自我改进"类项目时,主动列出 RSI 三大假设的潜在失效点,将其作为项目风险评估的标准维度。具体操作:在立项评审中增加一栏"RSI 假设检验",要求项目团队明确说明其方案依赖哪个 RSI 假设、该假设为何成立以及潜在的失效路径。如果无法清晰说明,则该假设是最可能的失败点。
2. 用 Amdahl 定律估算 AI 辅助研究的边际收益¶
在任何涉及多人 AI agents 协作的项目启动前,用 Amdahl 定律的基本框架估算并行化上限:识别哪些研究环节可以真正并行化(通常是新实验的运行),哪些环节必须串行完成(人类监督、直觉判断、跨任务整合)。重点关注串行瓶颈的绝对时长——它决定了整体加速的理论上限。如果串行瓶颈(如资深研究员的直觉注入)无法被缩短,单纯增加 agents 数量是无效的。
3. 设计抗"最后 1-3%" 过拟合的后训练流程¶
PostTrainBench 等基准测试的快速扭曲说明:后训练性能的最后 1-3% 是最容易被 overfit 的部分。 实践建议:建立独立的"外部分布验证集"(非任何公开基准的子集),专门用于检测模型在 out-of-distribution 任务上的表现退化。将此验证集作为后训练流程的强制关卡,而非仅依赖 PostTrainBench 等公开基准的分数提升。这能在追求局部指标提升的同时保持模型的泛化能力。
4. 区分"模型更准确"与"用户更有效"的评估体系¶
LSI 框架揭示的最大实践误区是:将"测试损失下降"等同于"用户价值提升"。 建议在所有 AI 产品评估中建立双轨指标:技术指标(测试损失、Benchmarks 分数)和用户价值指标(任务完成率、用户报告的生产力提升)。只有两条曲线同时上升才说明真正的进步。如果出现分歧(技术指标上升但用户价值指标持平或下降),说明存在"有损改进"——需要重新审视优化目标。
5. 以 AutoML 为鉴,警惕"研究自动化" hype¶
AutoML 的历史教训是:自动化在明确定义的搜索空间内效果拔群,但研究的核心工作恰好是定义搜索空间本身。 建议在评估 AI 自动化研究工具时,用以下问题过滤 hype:工具优化的是一个还是多个指标?它依赖谁来定义优化目标?如果答案是"单一指标"和"人类定义",则该工具属于 AutoML 类别的"窄域优化",不能期望它从根本上改变研究工作流。
相关实体¶
- The Shape Of The Thing Mollick
- World Knowledge Agent Self Evolution Tencent Hkustgz
- Claude Code Self Repair Hooks Memory Config
- Problem With Mathematically Proven Claims About Llms
- Deli Auto Research Skill Deepseek
相关引用¶
→ 原文存档