小米AI — ICML 2026 论文矩阵（11篇）¶

Ch01.872 小米AI — ICML 2026 论文矩阵（11篇）¶

📊 Level ⭐⭐⭐ | 9.9KB | entities/xiaomi-ai-icml-2026-11papers.md

概述¶

小米及合作单位11篇论文入选 ICML 2026，构成完整 AI 能力进化体系： | 层级 | 论文 | 合作单位 |
|------|------|---------|
| 应用-GUI Agent | Video2GUI | 北京大学 |
| 应用-GUI Agent | GUIEvalKit | — |
| 应用-GUI Agent | CoME | 人大/武大/南洋理工/港中文 |
| 能力-推理增强 | LED | 人大/Unimore |
| 能力-推理增强 | VeriTime | 中山大学/NUS |
| 能力-多模态 | Visual Para-Thinker | 浙大/湖大 |
| 能力-多模态 | Video-OPD | 浙大/人大 |
| 能力-多模态 | GAD | 武大/巴黎综合理工 |
| 能力-多模态 | MECAT | 港中文 |
| 底座-训练 | R3 | 北京大学 |
| 底座-训练 | SPARK | 西安交大/北方工大 |

GUI Agent 全栈¶

Video2GUI → WildGUI¶

从5亿条互联网视频中提炼出全球最大开源 GUI 预训练数据集：

Pipeline：元信息粗筛 + Gemini-3-Pro 细筛 → 结构化轨迹
WildGUI：1270万轨迹、1.245亿截图、1500+应用/网站、五大平台
效果：MiMo-VL-7B 预训练后 ScreenSpot-Pro 准确率 +38%；Scaling 未饱和

CoME（Channel-of-Mobile-Experts）¶

面向 GUI Agent 的多专家推理架构：屏幕总结→子任务规划→动作决策→函数调用四阶段，每阶段配置专门专家。

面向输出的专家激活（替代传统面向输入的激活）
信息增益筛选有效推理轨迹
更少激活参数，优于 Dense/Sparse MoE GUI Agents

LED（Latent-Exploration-Decoding）¶

恢复 RL 训练后推理模型的测试时探索多样性：

问题：entropy collapse——温度↑但 pass@k 不涨，hidden states 仍保留 uncertainty
解法：利用多层隐状态聚合概率分布采样，不改模型/不加参数/不需训练
效果：5模型×6基准验证，RL 训练效果也同步提升

VeriTime：Token 省71%¶

时序推理数据合成 + 两阶段强化微调：

TSRgen：首个过程可验证标注的时序-文本多模态推理数据集
效果：3B-4B 模型达/超越更大规模专有 LLM，Token 消耗 -71%

多模态理解¶

Visual Para-Thinker¶

首个 LMM 并行推理框架：

基于块的分区 + 基于扫描顺序的分区
路径感知注意力机制 + 可学习并行旋转位置编码
3B/7B 模型均持续超越顺序推理和多数投票基线

Video-OPD¶

时序视频定位 GRPO 改进：

细粒度逐词元监督信号替代稀疏序列级奖励
教师验证差异聚焦训练课程策略
超越 GRPO 17%+，计算开销大幅降低

GAD（Geometry-Aware Distillation）¶

蒸馏后恢复对初始噪声的敏感性：

问题：蒸馏后不同随机种子生成趋同（多样性↓）
解法：Jacobian 响应对齐（替代点对点输出对齐），恢复局部敏感性
效果：布局/低级控制任务显著恢复教师性能

MECAT¶

细粒度音频理解评测：

多专家标注流水线（20000条，8个音频域）+ DATE 指标
当前最强模型（Gemini系列）在细粒度音频描述仅53.1%——巨大提升空间

训练底座¶

R3（Rollout Routing Replay）¶

解决 MoE + RL 训练的"路由器错配"问题：

推理阶段记录路由分布，训练阶段重放
"谁干活，谁收反馈"
避免训练崩溃，仅3.45%速度下降

SPARK¶

LLM 驱动的神经架构搜索：

问题：功能纠缠（算子和调用方式被同时改动→频繁报错）
解法：Operator / Action 互斥分区，结构化逐块编辑
相同计算量下，更低成本+更高准确率

技术演进判断¶

小米 AI 正在从"单点突破"迈向"体系化能力建设"：

GUI Agent：数据规模（5亿视频→420万教程）是可规模化的数据生产配方
推理增强：LED 揭示了 RL 训练后 hidden states 仍保留探索能力这一重要观察
端侧落地：VeriTime（Token -71%）+ CoME（更少激活参数）= 端侧小模型实用路径

深度分析¶

小米 ICML 2026 论文矩阵揭示了 AI 能力建设的三层金字塔架构：应用层（GUI Agent）→ 能力层（推理增强、多模态理解）→ 底座层（训练基础设施）。 关键发现一：GUI Agent 是应用层的主攻方向。Video2GUI → WildGUI 的演进展示了小米在大规模 GUI 预训练数据上的投入（5亿视频→1270万轨迹），这是可规模化的数据生产配方。ScreenSpot-Pro 准确率 +38% 且 Scaling 未饱和，说明这条路还有很大空间。CoME 的多专家推理架构通过"面向输出的专家激活"创新，在更少激活参数下超越了 Dense/Sparse MoE 方案。 关键发现二：推理增强的 LED 发现了重要观察。LED（Latent-Exploration-Decoding）揭示了 RL 训练后 entropy collapse 现象：温度升高但 pass@k 不涨，hidden states 仍保留 uncertainty。这个"测试时探索多样性"的恢复方法（多层隐状态聚合概率分布采样）不改模型/不加参数/不需训练，5模型×6基准验证有效。这是一个重要的训练-推理解耦洞察。 关键发现三：端侧小模型实用路径清晰。VeriTime（Token -71%）和 CoME（更少激活参数）共同指向一个方向：端侧小模型可以通过推理效率和架构优化弥补模型规模差距。TSRgen 时序推理数据集的"过程可验证标注"创新也值得注意——这种细粒度监督信号可能是未来多模态推理数据的方向。 关键发现四：训练底座关注 MoE + RL 的路由器问题。R3（Rollout Routing Replay）的核心洞察是"谁干活，谁收反馈"——推理阶段记录路由分布，训练阶段重放，避免训练崩溃。SPARK 的 Operator/Action 互斥分区则解决了神经架构搜索中功能纠缠的问题。 行业趋势：小米 AI 的论文矩阵呈现了"从应用牵引到底座夯实"的完整链条，GUI Agent 和端侧部署是两个明确的落地锚点。

实践启示¶

GUI Agent 场景优先考虑视频数据挖据方案：小米的 WildGUI 数据生产配方（5亿视频→420万教程）是可规模化的路径。如果你在构建 GUI Agent，先思考大规模预训练数据的来源问题。
推理效率优化是端侧部署的关键：VeriTime（Token -71%）展示了通过训练方法（时序推理数据合成 + 两阶段强化微调）而非模型压缩来提升效率的路径。在评估端侧方案时，关注这类"原生效率优化"而非仅依赖量化。
MoE + RL 训练注意路由器错配问题：如果你在 MoE 上做 RL 训练，关注 R3 揭示的路由器问题——"推理阶段记录的路由分布"和"训练阶段实际的路由分布"可能不一致，导致 expert collapse。建议加入路由分布重放机制。
多模态评测关注细粒度任务：MECAT 揭示当前最强模型在细粒度音频描述仅53.1%，意味着细粒度多模态理解还有巨大提升空间。如果你的场景需要细粒度（布局控制、音频描述、视频定位），当前模型普遍不足，需要专门的微调或数据。
架构搜索关注功能纠缠问题：SPARK 的 Operator/Action 互斥分区思路值得借鉴——在自动化架构搜索时，把"算子选择"和"调用方式"分开处理，可以避免频繁报错。