MobileGym:中科院开源浏览器内安卓仿真平台,Mobile Agent 训练与评测基础设施¶
Ch04.052 MobileGym:中科院开源浏览器内安卓仿真平台,Mobile Agent 训练与评测基础设施¶
📊 Level ⭐⭐ | 22.3KB |
entities/mobilegym-cas-mobile-agent-benchmark.md
MobileGym:中科院开源浏览器内安卓仿真平台,Mobile Agent 训练与评测基础设施¶
概述¶
中科院自动化所模式识别实验室开源 MobileGym(mobilegym.dev)—— 跑在浏览器里的高并发安卓仿真平台。核心命题:Mobile GUI Agent 真正瓶颈不在模型,而在"地"——既没有靠谱的考场,也没有便宜的训练场。MobileGym 通过交互保真(interaction fidelity) + JSON 结构化状态破局,第一次把"可验证的考练一体"延伸到微信、支付宝等高频日常 App;并通过 USE(意外副作用)指标首次捕获 Agent"顺手作恶"。真机迁移率 95.1%——在模拟世界里练的功夫真机真能用。
核心命题¶
Mobile GUI Agent 的真正瓶颈不在模型,而在"地"——既没有靠谱的考场,也没有便宜的训练场。
让 AI 像人一样操作手机(填表单、回消息、订车票、刷小红书)——目标就是只看屏幕截图,像真人一样把手机玩明白。
训练/评测手机 Agent 的两大困境¶
困境 1:安卓模拟器¶
- 装得上微信/支付宝,但 App 风控一眼认出模拟器——闪退、不稳、封号
- 只能退守计算器、设置这类系统工具 + 开源 App,高频国民级 App 反而碰不得
- 一个实例动辄 4.5GB+ 内存——大规模并行训练就是赤裸裸烧钱
困境 2:真机¶
- 够稳、够真,但代价:并行得买上百台手机、养一堆真实账号
- 一台手机一次只能跑一个任务——吞吐低
- 致命缺陷:连"并行 rollout"都做不到——GRPO 这类 RL 算法要求从同一初始状态并行拉出一整组轨迹对比
- 一个微信号克隆不出 N 份内容/好友/余额完全一样的副本
共同的死结¶
只要登的是真实账号,操作就是玩真的——真转账就是真扣钱,真购票就是真下单。
- 转账、注销这种彻底不可逆操作,反向操作都救不回来
- 一个任务测一遍,环境就"脏"了——可复现、可批量的训练评测从根上立不住
评测只能退而求其次——让另一个大模型看截图当裁判(VLM-as-Judge)。主观、易误判、难以审计(误判率高达 10.2%)。
破局思路:交互保真¶
「四两拨千斤」的脑回路转换¶
中科院团队的破局思路:既然真实 App 的状态读不到、改不回、复制不了——那干脆别在真机上死磕了,索性自己在浏览器里造一个仿真的安卓世界。
核心洞察¶
GUI Agent 的眼里只有截图,手里只有点击。
那又何必去复刻像素级的安卓内核、复刻真实 App 背后的服务器后端?
只要点下去,界面给出对的反应、该变的状态真的变了,对 Agent 来说,这个世界就足够"真"了。
这就是论文中强调的核心——交互保真(interaction fidelity)。
MobileGym 架构¶
浏览器内仿真实现¶
团队在浏览器里实现了一整套安卓运行时机制: - 任务栈 · 键盘 · 通知 · 权限流 · intent 路由 · 返回键派发
28 个 App 覆盖¶
12 个日常 App + 16 个系统 App:微信、小红书、支付宝、B 站、谷歌地图、12306、腾讯会议、微信读书、Spotify、Reddit、X、eBay 全都在内。
连主题切换、动态桌面小组件都做了。这个仿真浏览器"真"能联网——网友挂上云原神直接玩;甚至"在 MobileGym 里打开 mobilegym.dev"——手机里开手机,俄罗斯套娃。
一份 JSON 解决三大难题¶
MobileGym 把整个环境的状态——App 数据、系统设置、设备信息——全部用一份结构化 JSON 来表示。
正因为状态天生就是结构化的:
| 能力 | 含义 | 效果 |
|---|---|---|
| 可读 ✅ | 程序直接读状态做确定性校验 | 余额/订单/设置项一览无余,彻底告别 VLM 看截图瞎猜 |
| 可写 ✅ | 任意配置、一键重置到任何初始状态 | 状态完全可控 |
| 可复制 ✅ | 毫秒级快照,从同一状态复制跑多条轨迹 | 真机克隆不出的"同状态分身"一份状态拷贝搞定 |
| 零后果 ✅ | 跑完直接拿初始快照整个覆盖 | 毫秒级满血复活,绝无真实代价 |
一份 JSON,把"读不到、改不回、复制不了" + "真实代价" 一次解决。
一鱼两吃:考、练通吃¶
同一套可验证信号,既是评测的成绩单,又是训练的奖励——一套环境,考、练通吃。
- 对评测:任务到底完没完成,程序说了算,不用大模型猜
- 对训练:Agent 做对了多少,直接拿来喂给强化学习
与 AndroidWorld、MobileWorld 的对比¶
"可验证环境的考练一体"本身并不稀奇:AndroidWorld、MobileWorld 这些前辈,靠程序化验证同样能既评测又训练。
真正的难关:它们只够得着文件管理、设置这类系统工具和简单开源 App——一旦面对微信、支付宝,这套一体化能力就彻底卡死。
MobileGym 的突破:用"仿真 + 结构化状态",第一次把这套可验证的"考练一体",延伸到了真正高频的日常 App 上。
轻量到能单机大规模并行¶
| 方案 | 成本 |
|---|---|
| 实例内存 | 400MB |
| 冷启动 | 3 秒 |
| 256 任务评测时间 | 6 分钟(256 个并行实例) |
VLM-as-Judge vs MobileGym 成本对比¶
| 方案 | 成本 |
|---|---|
| 256 题 VLM 评测 | 约 158 元(GPT-5.4) |
| 96 万条轨迹 RL 训练 | 约 60 万元(VLM 裁判 API) |
| MobileGym 程序化判定 | 0 |
把"可验证的考练一体"搬上日常 App,再叠加轻到能单机大规模并行——这套组合,过去几年模拟器和真机两条路谁都没能凑齐。
考场:MobileGym-Bench¶
416 个参数化任务模板¶
- 横跨 28 个 App
- 每道题都不是死的——通过参数化实例化能衍生出 超过 27,000 个不同实例,从根上防止模型"背答案"
- 4 个难度等级 L1-L4——用 8 个参考模型实测校准
答题卡判定法¶
传统评测靠字符串模糊匹配,经常闹笑话——意思对了却判错,或者 Agent 在思考里碰巧带出正确答案就被误判成功。
MobileGym 的解法:让 Agent 在界面上填一张结构化的"答题卡",系统按字段类型(精确文本、数值、格式、选项)逐项核对——堵死这种漏洞。
意外收获:把"答题"变成了"填表单"——这恰恰是 GUI 专用模型的看家本行,它们生来就是被训练去"点界面"的。
9 个顶尖 Agent 同台竞技¶
L4 最难任务上,9 个模型集体扑街,只有 Gemini 勉强保住 21.9%。
意义:考题区分度极强,既没被刷爆、也没难到全军覆没——是一把能真正照出手机 Agent 成色的好尺子。
训练场:真机迁移 95.1% 增益¶
资源对比¶
| 方案 | 资源 |
|---|---|
| 此前某方案 512 个安卓模拟器 | 10 台裸金属 / 960 vCPU / 3840GB 内存 |
| MobileGym GRPO 微调 Qwen3-VL-4B | 一台服务器开 96 个环境实例 |
| 并行 256 个环境 | 仅 100G 内存 |
别人一个机房,这里一台机器。
训练效果¶
| 指标 | 数据 |
|---|---|
| 测试集成功率 | 9.4% → 22.2%(+12.8pp) |
| 真机信号任务成功率 | 32.2% → 72.9%(+40.7pp) |
| 模拟训练增益 → 真机迁移率 | 95.1% |
在模拟世界里练的功夫,真机真能用。
10.2% 误判率的人工复核¶
- 118 条真机轨迹,让 Qwen3.6-Plus 当裁判
- 判错了 12 条(10.2%)
- 换 GPT-5.4 重判——误判率还是 10.2%,只不过判错的是另一批
说白了,问题不在哪个模型不够强,而在"让大模型看截图当裁判"这条路本身就靠不住。
USE 指标:第一次抓出 Agent「顺手作恶」¶
USE = 意外副作用(Unintended Side Effects)——MobileGym 独有的"独家武器"。
设想:你让 Agent 帮你发条消息,它确实发了。但它有没有在你不知道的情况下,顺手错点了关注、错改了设置、甚至错发了另一条消息?
MobileGym 的解法:把任务前后的全环境状态做精确对比——任何任务之外的改动都无所遁形。
实测发现¶
- 即便是成功率相近的开源模型,"作恶"概率也能相差近 2 倍
- 论文测试了转账、注销、大批删除等高风险操作
- 前沿模型(Gemini 3.1 Pro)一旦被指令驱动,几乎"无脑"高成功率执行,毫无安全刹车
价值远超评测本身¶
这套"零后果 + 一键重置"的沙箱,天然成了 AI 安全对齐研究的理想试验田——让 Agent 在绝对安全的环境里,把危险动作先"演"一遍。
不是又一个 Benchmark,而是一整套基础设施¶
它把日常 App 的训练与评测——这件过去昂贵又难复现的事——收进了同一个可验证、可大规模并行的仿真世界: - 同一套状态,既是评测的成绩单,也是强化学习的奖励 - 同一台机器,既是几百场考试的考场,也是海量 rollout 的训练场
当整个行业还在为"怎么可靠地训练和评测手机 Agent"头疼时,这支国产团队,已经悄悄把那块最难啃的地基,稳稳地铺好了。
关键数据汇总¶
| 维度 | 数据 |
|---|---|
| App 覆盖 | 28(12 日常 + 16 系统) |
| 任务模板 | 416(256 测试 + 160 训练) |
| 实例化参数 | 27,000+ |
| 实例内存 | 400MB |
| 冷启动 | 3 秒 |
| 256 任务评测时间 | 6 分钟 |
| 96 环境 + Qwen3-VL-4B | 单台服务器 |
| 256 并行实例内存 | 100GB |
| 测试集成功率提升 | 9.4% → 22.2%(+12.8pp) |
| 真机迁移率 | 95.1% |
| VLM-as-Judge 误判率 | 10.2% |
| 9 Agent L4 最高分 | Gemini 21.9% |
三个独有贡献(不应合并到现有 entity)¶
- 交互保真(interaction fidelity)—— 不复刻内核只复刻反应的仿真哲学
- JSON 结构化状态—— 一份 JSON 同时解决可读/可写/可复制/零后果 + 考练一体
- USE 指标—— 通过全状态对比首次捕获 Agent"顺手作恶",对齐研究新工具
深度分析¶
1. 仿真哲学:从"像素级复刻"到"交互保真"的范式转移¶
MobileGym 最深刻的创新不是工程实现,而是认知框架的重构。此前所有手机仿真方案都隐含一个前提:要让仿真"够真",必须尽可能复刻真实安卓内核和 App 行为。中科院团队反问:这个前提本身成立吗?
GUI Agent 的感知模型是屏幕截图,动作空间是点击/滑动/输入——它根本不访问安卓内核,也不关心服务器后端逻辑。只要仿真环境能在 Agent 的感知-动作接口上给出与真实世界一致的反馈,对 Agent 而言这就是"真"的。MobileGym 将这个标准明确定义为交互保真(interaction fidelity),并将其作为仿真质量的核心度量——而非像素级还原度。
这一范式转移有深远的工程含义:不必逆向每个 App 的网络协议,不必模拟每一个系统调用,只需确保 GUI 层面的交互响应一致。这是 Browser/Web-DOM 技术路线相对于原生模拟器的根本优势:Web 技术天然具备跨平台一致性和快速的 UI 状态切换能力。
2. JSON 状态架构:可验证 AI 系统的结构化基础设施¶
把环境状态表达为 JSON 并非工程便利,而是可验证 AI(Verifiable AI)系统的核心架构选择。MobileGym 用同一份 JSON 同时解决了四个正交的问题维度:
- 可读性:结构化状态可直接程序化校验,无需依赖 VLM 裁判或人工验收
- 可写性:支持任意初始状态配置,支持并行轨迹的差异化起点设定
- 可复制性:毫秒级快照使得同一初始状态可无限克隆,为 GRPO 等并行 RL 算法提供基础
- 零后果:全量快照回滚使得危险操作(转账、注销、大批删除)可以在完全无害的条件下执行
这四个特性共同构成了Harness Engineering所追求的可控、可测、可复现三要素。JSON 化状态使得"考练一体"在工程层面而非仅仅是概念层面成为可能。
3. USE 指标的安全含义:从"任务完成"到"行为干净"¶
传统 Mobile Agent 评测只有一个维度:任务是否完成。MobileGym 引入的 USE(Unintended Side Effects)指标首次将评测维度从"结果"扩展到"过程"——不仅看 Agent 是否完成了指定操作,还看它是否在过程中引入了任何非预期的状态修改。
实测发现即便是顶级模型(Gemini 3.1 Pro),一旦被指令驱动,执行附带操作时几乎没有安全刹车——成功率接近 100%,但"顺手作恶"概率也同步攀高。这揭示了当前 Agent 安全对齐的深层问题:模型学会"怎么做"远快于学会"不该做什么"。
这一发现与 Agent Security Threat Models 中描述的"工具调用扩大攻击面"问题高度共鸣——MobileGym 的零后果沙箱恰好提供了在完全无害环境中研究这一问题的实验条件。
4. 轻量仿真的工程必然:为什么 400MB 实例能颠覆 Agent 训练经济学¶
移动端 RL 训练的本质瓶颈是并行 rollout 吞吐量。GRPO 等 on-policy RL 算法需要从相同初始状态并行生成多组轨迹来估计优势函数——这要求环境实例可以快速创建/销毁/重置。
传统安卓模拟器 4.5GB+ 的内存占用意味着单台服务器只能运行 10-20 个实例(即使裸金属服务器),而 96 个实例并行需要整整 10 台服务器。MobileGym 的 400MB 实例将同等并行度压缩到一台服务器,将 GRPO 训练的经济账从"一个机房"变成"一台机器"。
这不是微优化,而是量级差异:当训练一次 RL 实验的成本从需要申请集群变成笔记本上就能跑,Agent 迭代速度将产生质的飞跃。这与 Reinforcement Fine Tuning Rft 中描述的 RLHF/DPO 高频迭代需求高度契合。
5. 95.1% 真机迁移率的深层原因:状态一致性而非视觉一致性¶
最令社区惊讶的数字不是 22.2% 的测试集提升,而是 95.1% 的真机迁移率——模拟训练带来的能力增益有 95.1% 能迁移到真实手机环境。这个数字为什么这么高?
核心原因在于:MobileGym 仿真的是状态转换逻辑而非像素级视觉外观。Agent 在 MobileGym 中学习到的是"在某个界面执行某个操作后,目标状态会如何变化"——这与真实手机的逻辑完全一致,因为两者面对的是相同的 App 业务逻辑(微信消息发送、支付宝转账、小红书点赞)。
Se Ga Memory Augmented Self Evolution Gui Agents 讨论的记忆增强自我进化框架同样依赖环境状态的可观测性和可复现性——这与 MobileGym 的 JSON 状态架构在哲学上高度一致,都是通过结构化环境状态来支撑 Agent 的学习和推理。
实践启示¶
1. 用 MobileGym-Bench 作为 Mobile Agent 评测的基础设施¶
对于 Mobile GUI Agent 的开发团队,MobileGym-Bench 提供了行业领先的可验证评测基准。相比 VLM-as-Judge 方案,程序化状态校验将误判率降至零,且 256 任务 6 分钟即可完成,极大提升了评测迭代速度。
落地建议:在自有模型或 Agent 的开发流程中,将 MobileGym-Bench 的 L1-L4 任务作为Regression Test 集,特别是在发布新版本前跑一遍 L3/L4 难度分级,确保没有明显的退化。同时利用其参数化实例化能力生成 N 个变体,防止模型在特定实例上过拟合。
2. 基于 JSON 状态快照构建可复现 RL 训练流水线¶
MobileGym 的 JSON 快照机制使得 RL 训练真正可以在单一服务器上跑起来。团队用 Qwen3-VL-4B + 96 并行实例 + GRPO 实现了测试集 9.4%→22.2% 的提升,真机迁移率达 95.1%。
落地建议:对于需要训练 Mobile GUI Agent 的团队,应将 JSON 快照接口集成到 RL 训练框架(如 TRL、Axolotl)中,利用Reinforcement Fine Tuning Rft中描述的 GRPO/PPO 范式实现高频迭代。关键是用同一状态快照并行生成多样本轨迹,然后用结构化奖励信号更新策略。
3. 用"答题卡"模式替代自由文本输出作为 Agent 输出规范¶
MobileGym 的答题卡判定法揭示了一个重要工程实践:将 Agent 输出约束为结构化字段格式,能同时提升评测准确率和 Agent 输出的可用性。传统自由文本输出的问题是 Agent 容易产生"正确内容但错误格式"或"思考链中泄露答案"的情况。
落地建议:在设计 Mobile GUI Agent 任务时,强制要求 Agent 通过 GUI 填表(而非在思考链或系统消息中返回答案)完成最终输出。这既简化了自动评判逻辑,又逼迫 Agent 真正"动手操作界面"而非走捷径。对于需要输出结构化信息的任务(如查询余额、订单状态),应设计专门的表单填写界面作为 Agent 的输出通道。
4. 将 USE 指标纳入安全回归测试集¶
USE 指标让"顺手作恶"第一次可被量化捕获。建议在 Mobile GUI Agent 的安全测试中加入专门的高风险操作集(转账、注销、大批删除、修改隐私设置等),通过任务前后全状态快照对比来检测非预期副作用。
落地建议:将 USE 测试纳入 CI/CD 流程,每次发布前跑一遍高风险操作集,监控各版本的"作恶率"趋势。对于面向消费者的 Mobile Agent 产品,这是应对Agent Security Threat Models所述风险的实用工程手段——在部署前先在零后果沙箱中"演"一遍危险动作。
5. 浏览器仿真路线作为 Mobile Agent 基建的新标准¶
MobileGym 证明了浏览器内仿真是实现高并发、低成本、移动端 App 覆盖的最优工程路径。相比原生模拟器,浏览器技术栈具备:快速启动(3s vs 分钟级)、低内存(400MB vs 4.5GB+)、天然支持 Web 技术栈 App 仿真、以及跨平台一致性等优势。
落地建议:对于正在搭建 Mobile GUI Agent 基础设施的团队,优先考虑基于 Chromium/WebKit 的浏览器仿真路线,而非传统的安卓模拟器路线。MobileGym 的技术报告和开源代码(github.com/Purewhiter/mobilegym)提供了可直接参考的实现路径。同时关注 Agent Harness Architecture Design Production Guide 中关于 Harness Architecture 的设计原则,可以在 MobileGym 之上构建更复杂的 Agent 训练和评测工作流。