跳转至

蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场

Ch01.624 蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场

📊 Level ⭐⭐ | 5.4KB | entities/genesis-ai-gene-25-embodied-foundation-model.md

蛰伏一年,周衔团队带来首个具身基础模型,烹饪做实验弹琴,效果炸场

Genesis AI 发布首个机器人基础模型 GENE-26.5(GENE = Genesis Embodied Neural,26.5 = 2026年5月)。核心演示:4分钟烹饪(20+步骤)、解魔方、Rush E 弹琴、实验室移液、线束整理——全由同一模型/硬件/数据/控制栈完成。 GENE-26.5 不是孤立模型,而是全栈系统:

  • 接近人手的机器人硬件(Genesis Hand 1.0)
  • 低成本人类数据采集体系(EMF 数据手套)

相关实体

原文存档

深度分析

GENE-26.5 的核心突破不是单一模型能力,而是全栈系统的协同优化。 从硬件(Genesis Hand 1.0)、数据采集(EMF 数据手套)、仿真评测栈、多模态基础模型到低延迟控制系统(3ms/2mm),这五个层级缺一不可。任一层级的短板都会成为系统瓶颈。这与"大力出奇迹"的单模型路线不同,代表了具身智能的正确工程路径——系统级优化而非模型级优化。

数据效率的关键不在于数据量,而在于数据质量和数据采集方式。 每个任务少于 1 小时机器人数据即可学会,20秒技能 < 200 episodes。这个数据效率的突破来自于 EMF 数据手套——低成本、高精度的人类手部运动采集。相比于示教器或遥操作,EMF 数据手套让普通人类直接演示成为可能,从根本上扩大了数据来源和多样性。

仿真评测是具身基础模型Scaling的关键基础设施。 1 个仿真评测数据点 = 200 评测设置 + 150 小时机器人执行时间;若真实评测,同等覆盖需要 2700 小时人机评测。仿真系统将评测成本降低了约 18 倍,同时保证了评测的标准化和可复现性。这使得大规模自动化评测成为可能,是具身模型迭代速度的核心保障。

Genesis Hand 的硬件设计哲学是"接近人手"而非"超越人手"。 20 个主动可反驱自由度、1:1 人手尺寸匹配、柔性材料覆盖——这些设计决策的目标是降低具身差距(embodiment gap),让模型学习的人类数据可以直接泛化到真实物理世界,而非需要复杂的从仿真到真实的迁移(Sim-to-Real transfer)。

通用双手机器人解魔方和弹奏 Rush E(非人类极限但高难度曲目)代表了具身基础模型的泛化能力边界。 此前这些任务都是各自领域的独立专有系统,GENE-26.5 用同一套模型/硬件/数据栈完成,说明具身基础模型已开始具备跨任务泛化的初步能力,而非简单的多任务拼接。

实践启示

构建具身智能系统时,应优先投资数据采集和仿真评测基础设施,而非直接扩大模型规模。 GENE-26.5 的数据效率突破来自于 EMF 数据手套和仿真系统,这两条是具身智能Scaling的实际瓶颈。在模型训练之前,应先解决数据从哪来、评测怎么跑这两个基础设施问题。

硬件选型时应以"最小具身差距"为首要目标,而非追求硬件的极限性能指标。 Genesis Hand 的 20 个自由度和柔性材料设计直接服务于"让模型学到的技能可直接部署"这一目标。过于极端的硬件设计会增加 Sim-to-Real 迁移的难度,反而得不偿失。

对于机器人领域的从业者,线束整理作为"汽车行业圣杯任务"的攻克具有重要的行业信号意义。 这意味着软体物体控制(此前被认为是具身领域的最后堡垒之一)已开始被基础模型突破。相关行业(汽车装配、电子制造、物流分拣)应密切关注具身基础模型的进展,评估对现有自动化方案的潜在影响。

建立具身基础模型的评测体系时,应参考 GENE-26.5 的仿真评测思路——用标准化、可复现的仿真环境替代部分真实评测,以 18 倍成本优势换取评测规模。 同时,评测任务的选择应覆盖多样化技能类型(精细操作、双手协同、多步骤规划),而非仅关注单一任务指标。

原文存档