跳转至

小米AI — ICML 2026 论文矩阵(11篇)

Ch01.872 小米AI — ICML 2026 论文矩阵(11篇)

📊 Level ⭐⭐⭐ | 9.9KB | entities/xiaomi-ai-icml-2026-11papers.md

概述

小米及合作单位11篇论文入选 ICML 2026,构成完整 AI 能力进化体系: | 层级 | 论文 | 合作单位 |
|------|------|---------|
| 应用-GUI Agent | Video2GUI | 北京大学 |
| 应用-GUI Agent | GUIEvalKit | — |
| 应用-GUI Agent | CoME | 人大/武大/南洋理工/港中文 |
| 能力-推理增强 | LED | 人大/Unimore |
| 能力-推理增强 | VeriTime | 中山大学/NUS |
| 能力-多模态 | Visual Para-Thinker | 浙大/湖大 |
| 能力-多模态 | Video-OPD | 浙大/人大 |
| 能力-多模态 | GAD | 武大/巴黎综合理工 |
| 能力-多模态 | MECAT | 港中文 |
| 底座-训练 | R3 | 北京大学 |
| 底座-训练 | SPARK | 西安交大/北方工大 |


GUI Agent 全栈

Video2GUI → WildGUI

从5亿条互联网视频中提炼出全球最大开源 GUI 预训练数据集:

  • Pipeline:元信息粗筛 + Gemini-3-Pro 细筛 → 结构化轨迹
  • WildGUI:1270万轨迹、1.245亿截图、1500+应用/网站、五大平台
  • 效果:MiMo-VL-7B 预训练后 ScreenSpot-Pro 准确率 +38%;Scaling 未饱和

CoME(Channel-of-Mobile-Experts)

面向 GUI Agent 的多专家推理架构:屏幕总结→子任务规划→动作决策→函数调用四阶段,每阶段配置专门专家。

  • 面向输出的专家激活(替代传统面向输入的激活)
  • 信息增益筛选有效推理轨迹
  • 更少激活参数,优于 Dense/Sparse MoE GUI Agents

LED(Latent-Exploration-Decoding)

恢复 RL 训练后推理模型的测试时探索多样性:

  • 问题:entropy collapse——温度↑但 pass@k 不涨,hidden states 仍保留 uncertainty
  • 解法:利用多层隐状态聚合概率分布采样,不改模型/不加参数/不需训练
  • 效果:5模型×6基准验证,RL 训练效果也同步提升

VeriTime:Token 省71%

时序推理数据合成 + 两阶段强化微调:

  • TSRgen:首个过程可验证标注的时序-文本多模态推理数据集
  • 效果:3B-4B 模型达/超越更大规模专有 LLM,Token 消耗 -71%

多模态理解

Visual Para-Thinker

首个 LMM 并行推理框架:

  • 基于块的分区 + 基于扫描顺序的分区
  • 路径感知注意力机制 + 可学习并行旋转位置编码
  • 3B/7B 模型均持续超越顺序推理和多数投票基线

Video-OPD

时序视频定位 GRPO 改进:

  • 细粒度逐词元监督信号替代稀疏序列级奖励
  • 教师验证差异聚焦训练课程策略
  • 超越 GRPO 17%+,计算开销大幅降低

GAD(Geometry-Aware Distillation)

蒸馏后恢复对初始噪声的敏感性:

  • 问题:蒸馏后不同随机种子生成趋同(多样性↓)
  • 解法:Jacobian 响应对齐(替代点对点输出对齐),恢复局部敏感性
  • 效果:布局/低级控制任务显著恢复教师性能

MECAT

细粒度音频理解评测:

  • 多专家标注流水线(20000条,8个音频域)+ DATE 指标
  • 当前最强模型(Gemini系列)在细粒度音频描述仅53.1%——巨大提升空间

训练底座

R3(Rollout Routing Replay)

解决 MoE + RL 训练的"路由器错配"问题:

  • 推理阶段记录路由分布,训练阶段重放
  • "谁干活,谁收反馈"
  • 避免训练崩溃,仅3.45%速度下降

SPARK

LLM 驱动的神经架构搜索:

  • 问题:功能纠缠(算子和调用方式被同时改动→频繁报错)
  • 解法:Operator / Action 互斥分区,结构化逐块编辑
  • 相同计算量下,更低成本+更高准确率

技术演进判断

小米 AI 正在从"单点突破"迈向"体系化能力建设":

  • GUI Agent:数据规模(5亿视频→420万教程)是可规模化的数据生产配方
  • 推理增强:LED 揭示了 RL 训练后 hidden states 仍保留探索能力这一重要观察
  • 端侧落地:VeriTime(Token -71%)+ CoME(更少激活参数)= 端侧小模型实用路径

深度分析

小米 ICML 2026 论文矩阵揭示了 AI 能力建设的三层金字塔架构:应用层(GUI Agent)→ 能力层(推理增强、多模态理解)→ 底座层(训练基础设施)。 关键发现一:GUI Agent 是应用层的主攻方向。Video2GUI → WildGUI 的演进展示了小米在大规模 GUI 预训练数据上的投入(5亿视频→1270万轨迹),这是可规模化的数据生产配方。ScreenSpot-Pro 准确率 +38% 且 Scaling 未饱和,说明这条路还有很大空间。CoME 的多专家推理架构通过"面向输出的专家激活"创新,在更少激活参数下超越了 Dense/Sparse MoE 方案。 关键发现二:推理增强的 LED 发现了重要观察。LED(Latent-Exploration-Decoding)揭示了 RL 训练后 entropy collapse 现象:温度升高但 pass@k 不涨,hidden states 仍保留 uncertainty。这个"测试时探索多样性"的恢复方法(多层隐状态聚合概率分布采样)不改模型/不加参数/不需训练,5模型×6基准验证有效。这是一个重要的训练-推理解耦洞察。 关键发现三:端侧小模型实用路径清晰。VeriTime(Token -71%)和 CoME(更少激活参数)共同指向一个方向:端侧小模型可以通过推理效率和架构优化弥补模型规模差距。TSRgen 时序推理数据集的"过程可验证标注"创新也值得注意——这种细粒度监督信号可能是未来多模态推理数据的方向。 关键发现四:训练底座关注 MoE + RL 的路由器问题。R3(Rollout Routing Replay)的核心洞察是"谁干活,谁收反馈"——推理阶段记录路由分布,训练阶段重放,避免训练崩溃。SPARK 的 Operator/Action 互斥分区则解决了神经架构搜索中功能纠缠的问题。 行业趋势:小米 AI 的论文矩阵呈现了"从应用牵引到底座夯实"的完整链条,GUI Agent 和端侧部署是两个明确的落地锚点。

实践启示

  1. GUI Agent 场景优先考虑视频数据挖据方案:小米的 WildGUI 数据生产配方(5亿视频→420万教程)是可规模化的路径。如果你在构建 GUI Agent,先思考大规模预训练数据的来源问题。
  2. 推理效率优化是端侧部署的关键:VeriTime(Token -71%)展示了通过训练方法(时序推理数据合成 + 两阶段强化微调)而非模型压缩来提升效率的路径。在评估端侧方案时,关注这类"原生效率优化"而非仅依赖量化。
  3. MoE + RL 训练注意路由器错配问题:如果你在 MoE 上做 RL 训练,关注 R3 揭示的路由器问题——"推理阶段记录的路由分布"和"训练阶段实际的路由分布"可能不一致,导致 expert collapse。建议加入路由分布重放机制。
  4. 多模态评测关注细粒度任务:MECAT 揭示当前最强模型在细粒度音频描述仅53.1%,意味着细粒度多模态理解还有巨大提升空间。如果你的场景需要细粒度(布局控制、音频描述、视频定位),当前模型普遍不足,需要专门的微调或数据。
  5. 架构搜索关注功能纠缠问题:SPARK 的 Operator/Action 互斥分区思路值得借鉴——在自动化架构搜索时,把"算子选择"和"调用方式"分开处理,可以避免频繁报错。

相关实体

主题导航

原文存档