MapSatisfyBench:首个以满意度为核心目标的地图智能体评测基准¶
Ch07.032 MapSatisfyBench:首个以满意度为核心目标的地图智能体评测基准¶
📊 Level ⭐⭐ | 9.2KB |
entities/mapsatisfybench-map-agent-satisfaction-eval-gaode-pku.md原文存档:原文存档
MapSatisfyBench:从"任务完成"到"满意度感知"的 Agent 评测范式转移¶
高德地图平台技术中心 AI 评测部联合北京大学推出 MapSatisfyBench——首个以满意度为核心目标的地图智能体评测基准。核心命题:完成了任务 ≠ 给出了用户愿意接受的方案。评估范式从"任务完成度"升级为"决策满意度"。
论文:arxiv.org/abs/2606.17453 | 数据及代码:6 月底开源
核心创新¶
评测哲学:不标"正确答案",标"影响用户接受度的因素"¶
地图交互本质是一类多解且强情境依赖的开放式决策问题。用户查询仅界定可行解空间,而非唯一最优解。MapSatisfyBench 的核心洞察:理想的智能体应优先从可用信息源主动恢复隐式约束,在意图模糊条件下做出高接受度决策,而非依赖澄清追问(高频轻量交互中增加认知负担)。
隐式决策因素挖掘:还原-识别-过滤三步法¶
从大规模匿名地图服务日志中系统性发现影响满意度的隐式决策因素:
- 还原:基于全链路交互信号(查询前序操作 + 当前表达 + 查询后序操作 + 最终任务状态)还原决策逻辑,定位原始意图的未满足点
- 识别:比对完整需求与显式查询,识别查询未显式表述但会显著缩小可行解空间的隐式因素
- 过滤:将每个因素的证据追溯到决策时刻可用的信息源,只保留从可见信息中有据可查的因素——确保评估公平性
满意度影响量化:长期偏好 × 即时调制¶
每个隐式因素通过证据支持权重量化对用户接受概率的影响:
长期偏好概率(三因子分解模型): - 偏好强度:同一决策维度内支持该因素的操作占比 - 时新性:近期/非常规证据赋予更高权重 - 时间动量:偏好形成/巩固/衰减趋势的梯度赋值
即时成立概率(习惯-场景博弈): - 有效证据圈选:从当天前序交互中圈选仍有效的前序动作 - 奖惩因子映射:基于相关性/连续性/冲突情况映射为分档系数
双重交叉验证信号越强,隐式约束权重越大。既识别稳定倾向,又捕捉"习惯被即时状态覆盖"的关键时刻。
五维真值:G(x) = (E, Z, T, C, R)¶
| 维度 | 符号 | 说明 |
|---|---|---|
| 显式决策约束 | E(x) | query 字面 + 时空背景 → 有效性边界 |
| 隐式决策约束 | Z(x) | 未言明决策因子 + 满意度影响权重 |
| 工具调用轨迹 | T(x) | 预期工具类型/参数/调用顺序 |
| 主动澄清轮次 | C(x) | 澄清频次 → 认知负担控制 |
| 结果可靠性 | R(x) | 响应与工具输出/事实一致性 → 杜绝幻觉 |
七维评估指标体系¶
| 维度 | 指标 | 说明 |
|---|---|---|
| 任务执行 | ECR(显式决策因子完成率) | 显式需求覆盖度 |
| 任务执行 | TS(工具选择准确率) | 工具选择与参数正确性 |
| 结果可靠性 | IFS(信息忠实度分数) | 生成内容与事实一致性 |
| 交互体验 | IISR(隐式决策因子满足率) | 隐式需求洞察与响应 |
| 交互体验 | Eff(交互效率) | 对话轮次与认知负担 |
| 交互体验 | AR(决策可接受概率) | ECR × IISR,核心聚合指标 |
| 交互体验 | SES(满意度效率分数) | 高满意度 × 高效率综合效能 |
关键设计:AR = ECR × IISR,显式任务未完成或隐式需求缺失均导致显著衰减。SES 进一步引入效率维度:低满意度不可由短轮次补偿,低效交互折损可接受度。
关键发现(12 模型实测)¶
基于 React Agent 框架,评估 GPT 系列、Claude 系列、Gemini 系列、DeepSeek 系列、Qwen 系列共 12 个主流大模型。
发现一:能完成任务,但猜不准你¶
- ECR 普遍 > 0.85(GPT-5.3 达 0.9272)——任务完成能力强
- IISR 最高仅 0.7170(Claude-4.6-Opus)——隐式需求洞察弱
- SES 非思考模式最高分仅 0.2755——满意度效率极低
- 结论:模型能完成表面任务,却难以满足决定用户接受度的隐式决策因素
发现二:缺乏主动获取可用证据的能力¶
- 所有模型 TS < 50%,Eff < 0.5
- POI 搜索调用次数是特征总结工具的 23 倍(16,061 vs 691)
- 评测环境提供了匿名化偏好总结和历史交互统计数据,但模型普遍较少调用
- 结论:信息客观存在,模型更倾向直接追问用户而非从已有信息中提取线索
发现三:思考模式能补课,但补不到满分¶
- 开启思考模式后 IISR 均有提升,Gemini 3.1 Pro 增幅最大
- 但思考模式下 IISR 仍显著低于 ECR
- 结论:更长推理链不能完全解决满意度感知决策难题
系统设计亮点¶
- UserAgent 仿真:当被评估 Agent 主动问询时,根据真值自动提供最小充分回答,自然扩展到多轮对话场景
- 离线沙箱:缓存 22 个真实地图服务工具 API 响应,基于 embedding 相似度检索确保可复现公平比较
- 真值质控三阶闭环:自动生成 → 多 LLM 共识校验 → 专家审定,仅双重验证通过的标注保留在基准中
与已有实体的关系¶
- 与 高德 SDD/Harness 体系 同源(高德技术团队),但聚焦评测而非编码
- 与 高德 Uplift 模型迭代 Agent 同源(高德 AI 团队),但聚焦地图交互而非营销算法
- "隐式决策因素"概念与 Agent 编排范式 中"意图恢复"问题呼应——Agent 不应仅执行显式指令,还需主动推断未言明的约束
- AR = ECR × IISR 的"乘法衰减"设计与 Agent 可靠性 的"单点失败传播"模式一致
- 12 模型的 ECR vs IISR 差距(任务完成 vs 隐式需求)与 Harness Engineering 中"验证 ≠ 满意"的核心命题呼应
实践启示¶
- Agent 评测应超越"任务完成度":ECR 高不等于用户体验好,隐式需求满足率(IISR)才是"可用→好用"的关键指标
- 主动获取证据 > 追问用户:Agent 应优先利用已有信息源(偏好历史、上下文)推断隐式约束,减少用户认知负担
- 乘法衰减设计值得借鉴:AR = ECR × IISR 的设计确保显式和隐式需求都不可偏废——任一维度短板都会拉低整体
- 思考模式是"补课"而非"满分":推理链能补全部分隐式因素,但不能替代主动证据获取能力的系统性提升
- 地图交互是 Agent 评测的理想试验场:多解、强情境依赖、隐式需求丰富——比封闭域任务更能暴露 Agent 的真实能力边界
→ 原文存档