Yann LeCun JEPA世界模型与AMI Labs¶

Ch04.363 Yann LeCun JEPA世界模型与AMI Labs¶

📊 Level ⭐⭐ | 7.0KB | entities/yann-lecun-jepa-world-model.md

核心论点¶

"说话不等于理解"：

LLM只产出token，不做世界状态预测
没有"如果我这样做，会发生什么"的内部模拟
积累陈述性知识 ≠ 对世界的理解 智能标准：系统必须能预测自己行动的后果

关键计算¶

四岁孩子视觉信息量 ≈ 10^14字节 ≈ 最大LLM训练语料结论：靠训练文本永远不可能到达人类级别AI

JEPA架构¶

Joint Embedding Predictive Architecture

不预测像素，预测抽象状态
去掉不可预测的噪声，保留与规划相关的隐变量
推理 = 在世界模型里做搜索 vs 生成式架构：
生成式在像素层面预测视频 = 训练系统模拟随机性
JEPA学习抽象规律 = 可靠的预测

AMI Labs¶

方向：真实世界AI（工业控制、机器人、医疗、可穿戴）
投资：Zetta Ventures，10亿美元
目标：通用基础模型，运行物理过程

世界模型竞争¶

玩家	方向
World Labs	3D世界模型
Genie 3	实时交互
1X Technologies	视频+操作录像
Generalist AI	可穿戴数据，50万小时
特斯拉	同一模型跑汽车+机器人
AMI Labs	JEPA差异化

机器人两道墙¶

数据墙：远程操控无法并行，互联网视频无动作标签
机体锁定：知识锁在特定身体层面 世界模型攻两道墙：学物理规律（跨身体成立），适配新机体 = 校准问题

与现有知识的链接¶

→ 原文存档
→ Hermes Agent Skill — 技能系统

深度分析¶

LeCun对LLM的系统性批判揭示了当前AI范式的根本性局限。LLM的核心问题不是规模不够，而是架构层面的根本缺陷：自回归token预测无法产生对世界的理解。这一批判与"System 1 vs System 2"认知框架形成深度共鸣。LLM表现出的流畅语言能力类似于 Kahneman 的"快速思考"—— Pattern matching 在表层运作；而真正的理解需要"慢速思考"，即能够预测行动后果、进行反事实推理、在抽象状态空间中进行搜索。JEPA的贡献在于它试图在架构层面实现这种分离：学习抽象状态表示，而不是在像素层面徒劳地预测不可压缩的物理细节。 四岁孩子vs LLM的计算是一个被低估的关键论点。一个四岁孩子通过视觉通道接收的原始信息量(~10^14字节)与现代LLM训练语料量级相同，这不仅说明了scale law的局限性，更揭示了多模态具身经验与纯语言信号之间的本质差异。这意味着即使继续扩大语言模型规模，也永远无法弥补这种信息通道的根本缺失。 JEPA vs 生成式架构的对比是理解世界模型分野的关键。生成式方法在像素层面预测视频，本质上是训练系统模拟随机性——一个不可能完成的任务。JEPA通过学习抽象规律而非精确像素，实现了可靠的预测。这一思路与隐变量模型、状态空间表示(SSM)等研究方向存在共鸣，但JEPA的差异化在于它明确以规划为优化目标。 机器人两道墙的分析展示了世界模型的实际价值。数据墙和机体锁定是具身AI的两个核心挑战，而世界模型通过学习跨身体的物理规律和从无标注视频中吸收知识，为这两个问题提供了统一的解决框架——将新身体适配问题转化为校准问题。 AMI Labs获得10亿美元融资并选择JEPA路线，表明世界模型已经从学术概念进入产业阶段。这与李飞飞World Labs、Genie 3、特斯拉等人形机器人项目形成竞争，但差异化在于JEPA的抽象表示方法可能更适合需要高可靠性预测的工业场景。

实践启示¶

重新定义LLM的角色：对于构建AI系统的团队，LeCun的框架提供了一个重要的架构提示——LLM应该是接口层，而不是核心推理引擎。将LLM与能够预测行动后果的世界模型结合，可能是突破当前系统能力天花板的关键路径。
具身数据优先于语言数据：如果目标是接近人类级别的AI，那么投资于多模态具身数据（视觉、触觉、操作反馈）的采集和标注，比继续扩大语言模型规模更有长期价值。AMI Labs选择工业控制、医疗、可穿戴设备作为方向，正是看中了这些领域丰富且可结构化的具身数据。
世界模型是跨body transfer的关键：对于需要将AI能力迁移到新硬件/新机体的团队，学习跨身体的物理规律而非特定机体的动作模式，可以显著降低迁移成本。这对于多产品线的人形机器人公司（如特斯拉）尤为重要。
抽象表示 over 精确预测：在构建预测系统时，识别并去除不可预测的噪声，专注于与任务相关的抽象状态，比追求高精度的像素级预测更有效率。这适用于工业过程控制、机器人规划等需要高可靠性的场景。
LLM仍有价值的场景：LeCun明确承认LLM在编程和数学等符号操作领域是有效的，因为这些领域的"预测下一个符号"与"理解逻辑"存在实质性重叠。AI团队应该在这些领域继续发挥LLM的优势，而不是试图用LLM替代所有推理任务。