跳转至

国产预训练具身大模型开源:Wall-OSS-0.5零样本上真机,预训练即可部署

Ch01.462 国产预训练具身大模型开源:Wall-OSS-0.5零样本上真机,预训练即可部署

📊 Level ⭐⭐ | 7.6KB | entities/wall-oss-05-pretraining-embodied-ai-x-square-robot.md

-> 原文存档

Wall-OSS-0.5:预训练即可部署的具身大模型

一句话

自变量机器人开源 Wall-OSS-0.5:国产 VLA 模型,预训练 checkpoint 直接上真机零样本,400k 步 checkpoint 在 17 任务中 4 个超 80 分,全部开源。

四项核心技术

梯度桥接:动作离散化为 Token 与文本拼接到同一序列,用交叉熵损失训练——强迫主干把"看、说、动"统一在同一表征空间

视觉对齐动作 Tokenizer:动作 Token 同时承载「电机怎么转」+「画面怎么变」,进入与视觉、语言同一语义空间

动作空间监督:损失从「预测速度」改为「预测重建出来的最终动作」——高噪声阶段自动加权,收敛速度和稳定性远超前人

DMuon:分布式 Muon 优化器,开销从 2x 降至 0.02x(缩减 100 倍)

关键结果

  • 零样本(预训练 checkpoint):17 任务中 4 个超 80 分
  • 微调后:进一步大幅领先
  • 具身智能还有很长的路(毛巾折叠<10分,长程任务依赖单帧视觉)

深度分析

VLA 预训练 vs 微调的范式之争

当前大多数 VLA 模型的评测方法存在根本性缺陷——它们在微调之后才汇报成绩,相当于先参加"考前培训"再参加正式考试。 这种做法导致业界无法真正判断是预训练(大学课程)还是微调(培训班)对最终性能起了作用。Wall-OSS-0.5 的核心贡献在于,它首次将评测聚焦在纯粹的预训练 checkpoint 上,不经过任何任务微调直接部署到真实机器人。

梯度桥接的技术突破

传统 VLA 模型中,VLM 主干永远无法学会"动作"——它只是在为动作专家提供特征,并不真正理解物理世界的可操作结构。 梯度桥接通过将动作离散化为特殊的「字符 Token」,与文本 Token 拼接在同一自回归序列中,用大模型原生的交叉熵损失训练,从而架起一座"梯度桥",强迫主干在预训练阶段就把"看、说、动"统一在同一套表征空间里。 实验表明,砍掉这座桥后真实机器人任务成功率断崖式下降,印证了这一设计的必要性。

动作 Tokenizer 的物理可解释性

FAST Tokenizer 等业界方案能还原动作,但传进主干的是没有物理意义的编号,主干只学到统计学共现。 Wall-OSS-0.5 的视觉对齐残差向量量化 Tokenizer 在量化动作的同时,强制 Token 表征与对应时刻视觉特征对齐,并要求预测下一帧视觉变化。 这使得每个动作 Token 同时承载「电机怎么转」和「画面怎么变」两层信息,主干网络预测下一个动作时,就是在脑海里进行高维度时空推演。

动作空间监督的收敛效率

流匹配的标准做法是预测"速度"(噪声到目标的瞬时方向),但机器人物理动作轨迹的高频细节几乎不影响成败,模型会把大量算力浪费在拟合无关的高频抖动上。 Wall-OSS-0.5 将损失从「预测速度」改写为「预测重建出来的最终动作」,数学上等价于对动作轨迹成型初期(高噪声阶段)自动加权。 这让模型先集中精力把人体骨架打准,再描绘衣服褶皱,训练收敛速度和稳定性远超前人。

DMuon 的工程可行性

VLM 骨干(大规模预训练)和动作头(从头初始化)三路损失反传的梯度量级系统性失配,是 VLA 训练中的工程难题。 Muon 优化器能缓解这一问题,但原生单步开销不可接受。 DMuon 通过 LPT 专属所有权调度和 CuteDSL 内核的回收迭代冗余计算,将引入 Muon 的整体开销从 2x 降至 0.02x(缩减约 100 倍),使得这一精密优化策略在真实集群上具备了工程可行性。

实践启示

对具身智能研究社区

Wall-OSS-0.5 证明了"让预训练主干真正经历动作"这一路径的可行性。 研究社区应重新审视预训练-微调范式中的评测标准,将零样本预训练性能作为衡量主干网络真正能力的基准。梯度桥接设计表明,动作监督信号必须穿透整个主干网络,而非仅停留在动作头部。

对机器人工程实践

在真实机器人部署中,微调的成本和周期往往是主要瓶颈。 Wall-OSS-0.5 的 400k 步预训练 checkpoint 已能在 17 个任务中让 4 个超过 80 分,这意味着在许多场景下,开箱即用的预训练模型已具备初步实用价值。 工程实践中应优先评估预训练模型的零样本能力,再决定是否需要针对特定任务进行微调。

对动作表征学习的演进

视觉对齐的动作 Tokenizer 表明,动作 Token 必须同时编码物理执行过程和对应的视觉变化,才能被主干网络有效利用。 未来的动作表征学习应超越简单的离散化编号,走向物理可解释的、多模态对齐的表征方案。

对优化器设计的启示

DMuon 将 Muon 优化器的开销降低 100 倍,使得原本理论上优越但工程上不可行的优化策略变得可用。 这提示硬件和系统层面的协同优化(如专属调度、冗余计算回收)可能是释放算法潜力的关键。

清醒认识当前局限

毛巾折叠和充电器插接仍在 10 分以下,长程任务仍依赖单帧视觉输入——具身智能距离通用机器人仍有很长的路要走。

一句话

梯度桥 + 语义 Tokenizer + 动作空间监督 + DMuon = 让主干真正"经历"动作,而非只是"见过"动作数据。

相关实体