国产预训练具身大模型开源：Wall-OSS-0.5零样本上真机，预训练即可部署¶

Ch01.462 国产预训练具身大模型开源：Wall-OSS-0.5零样本上真机，预训练即可部署¶

📊 Level ⭐⭐ | 7.6KB | entities/wall-oss-05-pretraining-embodied-ai-x-square-robot.md

-> 原文存档

Wall-OSS-0.5：预训练即可部署的具身大模型¶

一句话¶

自变量机器人开源 Wall-OSS-0.5：国产 VLA 模型，预训练 checkpoint 直接上真机零样本，400k 步 checkpoint 在 17 任务中 4 个超 80 分，全部开源。

四项核心技术¶

梯度桥接：动作离散化为 Token 与文本拼接到同一序列，用交叉熵损失训练——强迫主干把"看、说、动"统一在同一表征空间

视觉对齐动作 Tokenizer：动作 Token 同时承载「电机怎么转」+「画面怎么变」，进入与视觉、语言同一语义空间

动作空间监督：损失从「预测速度」改为「预测重建出来的最终动作」——高噪声阶段自动加权，收敛速度和稳定性远超前人

DMuon：分布式 Muon 优化器，开销从 2x 降至 0.02x（缩减 100 倍）

关键结果¶

零样本（预训练 checkpoint）：17 任务中 4 个超 80 分
微调后：进一步大幅领先
具身智能还有很长的路（毛巾折叠<10分，长程任务依赖单帧视觉）

深度分析¶

VLA 预训练 vs 微调的范式之争¶

当前大多数 VLA 模型的评测方法存在根本性缺陷——它们在微调之后才汇报成绩，相当于先参加"考前培训"再参加正式考试。这种做法导致业界无法真正判断是预训练（大学课程）还是微调（培训班）对最终性能起了作用。Wall-OSS-0.5 的核心贡献在于，它首次将评测聚焦在纯粹的预训练 checkpoint 上，不经过任何任务微调直接部署到真实机器人。

梯度桥接的技术突破¶

传统 VLA 模型中，VLM 主干永远无法学会"动作"——它只是在为动作专家提供特征，并不真正理解物理世界的可操作结构。梯度桥接通过将动作离散化为特殊的「字符 Token」，与文本 Token 拼接在同一自回归序列中，用大模型原生的交叉熵损失训练，从而架起一座"梯度桥"，强迫主干在预训练阶段就把"看、说、动"统一在同一套表征空间里。实验表明，砍掉这座桥后真实机器人任务成功率断崖式下降，印证了这一设计的必要性。

动作 Tokenizer 的物理可解释性¶

FAST Tokenizer 等业界方案能还原动作，但传进主干的是没有物理意义的编号，主干只学到统计学共现。 Wall-OSS-0.5 的视觉对齐残差向量量化 Tokenizer 在量化动作的同时，强制 Token 表征与对应时刻视觉特征对齐，并要求预测下一帧视觉变化。这使得每个动作 Token 同时承载「电机怎么转」和「画面怎么变」两层信息，主干网络预测下一个动作时，就是在脑海里进行高维度时空推演。

动作空间监督的收敛效率¶

流匹配的标准做法是预测"速度"（噪声到目标的瞬时方向），但机器人物理动作轨迹的高频细节几乎不影响成败，模型会把大量算力浪费在拟合无关的高频抖动上。 Wall-OSS-0.5 将损失从「预测速度」改写为「预测重建出来的最终动作」，数学上等价于对动作轨迹成型初期（高噪声阶段）自动加权。这让模型先集中精力把人体骨架打准，再描绘衣服褶皱，训练收敛速度和稳定性远超前人。

DMuon 的工程可行性¶

VLM 骨干（大规模预训练）和动作头（从头初始化）三路损失反传的梯度量级系统性失配，是 VLA 训练中的工程难题。 Muon 优化器能缓解这一问题，但原生单步开销不可接受。 DMuon 通过 LPT 专属所有权调度和 CuteDSL 内核的回收迭代冗余计算，将引入 Muon 的整体开销从 2x 降至 0.02x（缩减约 100 倍），使得这一精密优化策略在真实集群上具备了工程可行性。

实践启示¶

对具身智能研究社区¶

Wall-OSS-0.5 证明了"让预训练主干真正经历动作"这一路径的可行性。研究社区应重新审视预训练-微调范式中的评测标准，将零样本预训练性能作为衡量主干网络真正能力的基准。梯度桥接设计表明，动作监督信号必须穿透整个主干网络，而非仅停留在动作头部。

对机器人工程实践¶

在真实机器人部署中，微调的成本和周期往往是主要瓶颈。 Wall-OSS-0.5 的 400k 步预训练 checkpoint 已能在 17 个任务中让 4 个超过 80 分，这意味着在许多场景下，开箱即用的预训练模型已具备初步实用价值。工程实践中应优先评估预训练模型的零样本能力，再决定是否需要针对特定任务进行微调。

对动作表征学习的演进¶

视觉对齐的动作 Tokenizer 表明，动作 Token 必须同时编码物理执行过程和对应的视觉变化，才能被主干网络有效利用。未来的动作表征学习应超越简单的离散化编号，走向物理可解释的、多模态对齐的表征方案。

对优化器设计的启示¶

DMuon 将 Muon 优化器的开销降低 100 倍，使得原本理论上优越但工程上不可行的优化策略变得可用。这提示硬件和系统层面的协同优化（如专属调度、冗余计算回收）可能是释放算法潜力的关键。

清醒认识当前局限¶

毛巾折叠和充电器插接仍在 10 分以下，长程任务仍依赖单帧视觉输入——具身智能距离通用机器人仍有很长的路要走。

一句话¶

梯度桥 + 语义 Tokenizer + 动作空间监督 + DMuon = 让主干真正"经历"动作，而非只是"见过"动作数据。

国产预训练具身大模型开源：Wall-OSS-0.5零样本上真机，预训练即可部署¶

Ch01.462 国产预训练具身大模型开源：Wall-OSS-0.5零样本上真机，预训练即可部署¶

Wall-OSS-0.5：预训练即可部署的具身大模型¶

一句话¶

四项核心技术¶

关键结果¶

深度分析¶

VLA 预训练 vs 微调的范式之争¶

梯度桥接的技术突破¶

动作 Tokenizer 的物理可解释性¶

动作空间监督的收敛效率¶

DMuon 的工程可行性¶

实践启示¶

对具身智能研究社区¶

对机器人工程实践¶

对动作表征学习的演进¶

对优化器设计的启示¶

清醒认识当前局限¶

一句话¶

相关实体¶