Yann LeCun JEPA世界模型与AMI Labs¶
Ch04.363 Yann LeCun JEPA世界模型与AMI Labs¶
📊 Level ⭐⭐ | 7.0KB |
entities/yann-lecun-jepa-world-model.md
核心论点¶
"说话不等于理解":
- LLM只产出token,不做世界状态预测
- 没有"如果我这样做,会发生什么"的内部模拟
- 积累陈述性知识 ≠ 对世界的理解 智能标准:系统必须能预测自己行动的后果
关键计算¶
四岁孩子视觉信息量 ≈ 10^14字节 ≈ 最大LLM训练语料 结论:靠训练文本永远不可能到达人类级别AI
JEPA架构¶
Joint Embedding Predictive Architecture
- 不预测像素,预测抽象状态
- 去掉不可预测的噪声,保留与规划相关的隐变量
-
推理 = 在世界模型里做搜索 vs 生成式架构:
-
生成式在像素层面预测视频 = 训练系统模拟随机性
- JEPA学习抽象规律 = 可靠的预测
AMI Labs¶
- 方向:真实世界AI(工业控制、机器人、医疗、可穿戴)
- 投资:Zetta Ventures,10亿美元
- 目标:通用基础模型,运行物理过程
世界模型竞争¶
| 玩家 | 方向 |
|---|---|
| World Labs | 3D世界模型 |
| Genie 3 | 实时交互 |
| 1X Technologies | 视频+操作录像 |
| Generalist AI | 可穿戴数据,50万小时 |
| 特斯拉 | 同一模型跑汽车+机器人 |
| AMI Labs | JEPA差异化 |
机器人两道墙¶
- 数据墙:远程操控无法并行,互联网视频无动作标签
- 机体锁定:知识锁在特定身体层面 世界模型攻两道墙:学物理规律(跨身体成立),适配新机体 = 校准问题
与现有知识的链接¶
- → 原文存档
- → Hermes Agent Skill — 技能系统
深度分析¶
LeCun对LLM的系统性批判揭示了当前AI范式的根本性局限。LLM的核心问题不是规模不够,而是架构层面的根本缺陷:自回归token预测无法产生对世界的理解。 这一批判与"System 1 vs System 2"认知框架形成深度共鸣。LLM表现出的流畅语言能力类似于 Kahneman 的"快速思考"—— Pattern matching 在表层运作;而真正的理解需要"慢速思考",即能够预测行动后果、进行反事实推理、在抽象状态空间中进行搜索。JEPA的贡献在于它试图在架构层面实现这种分离:学习抽象状态表示,而不是在像素层面徒劳地预测不可压缩的物理细节。 四岁孩子vs LLM的计算是一个被低估的关键论点。一个四岁孩子通过视觉通道接收的原始信息量(~10^14字节)与现代LLM训练语料量级相同,这不仅说明了scale law的局限性,更揭示了多模态具身经验与纯语言信号之间的本质差异。这意味着即使继续扩大语言模型规模,也永远无法弥补这种信息通道的根本缺失。 JEPA vs 生成式架构的对比是理解世界模型分野的关键。生成式方法在像素层面预测视频,本质上是训练系统模拟随机性——一个不可能完成的任务。JEPA通过学习抽象规律而非精确像素,实现了可靠的预测。这一思路与隐变量模型、状态空间表示(SSM)等研究方向存在共鸣,但JEPA的差异化在于它明确以规划为优化目标。 机器人两道墙的分析展示了世界模型的实际价值。数据墙和机体锁定是具身AI的两个核心挑战,而世界模型通过学习跨身体的物理规律和从无标注视频中吸收知识,为这两个问题提供了统一的解决框架——将新身体适配问题转化为校准问题。 AMI Labs获得10亿美元融资并选择JEPA路线,表明世界模型已经从学术概念进入产业阶段。这与李飞飞World Labs、Genie 3、特斯拉等人形机器人项目形成竞争,但差异化在于JEPA的抽象表示方法可能更适合需要高可靠性预测的工业场景。
实践启示¶
- 重新定义LLM的角色:对于构建AI系统的团队,LeCun的框架提供了一个重要的架构提示——LLM应该是接口层,而不是核心推理引擎。将LLM与能够预测行动后果的世界模型结合,可能是突破当前系统能力天花板的关键路径。
- 具身数据优先于语言数据:如果目标是接近人类级别的AI,那么投资于多模态具身数据(视觉、触觉、操作反馈)的采集和标注,比继续扩大语言模型规模更有长期价值。AMI Labs选择工业控制、医疗、可穿戴设备作为方向,正是看中了这些领域丰富且可结构化的具身数据。
- 世界模型是跨body transfer的关键:对于需要将AI能力迁移到新硬件/新机体的团队,学习跨身体的物理规律而非特定机体的动作模式,可以显著降低迁移成本。这对于多产品线的人形机器人公司(如特斯拉)尤为重要。
- 抽象表示 over 精确预测:在构建预测系统时,识别并去除不可预测的噪声,专注于与任务相关的抽象状态,比追求高精度的像素级预测更有效率。这适用于工业过程控制、机器人规划等需要高可靠性的场景。
- LLM仍有价值的场景:LeCun明确承认LLM在编程和数学等符号操作领域是有效的,因为这些领域的"预测下一个符号"与"理解逻辑"存在实质性重叠。AI团队应该在这些领域继续发挥LLM的优势,而不是试图用LLM替代所有推理任务。
相关实体¶
- Baixing Ontoz Enterprise Ontology Multi Agent
- Tsinghua Self Evolving Skill Agent
- 直播预约 数据引擎具身智能的下一个决胜局
- Video Agent Paradigm Compute Talent Flywheel Ethan He 20260606
- Nvidia Gamma World Multi Agent World Model