跳转至

LBS-IntentBench — 首个真实出行隐式意图评测基准

Ch04.246 LBS-IntentBench — 首个真实出行隐式意图评测基准

📊 Level ⭐⭐ | 9.6KB | entities/lbs-intentbench.md

核心定位

首个基于大规模匿名化真实出行数据的用户隐式意图评测基准(来自高德,AMAP-ML)。 解决的问题: 现有出行规划 benchmark 预设用户会显式告知目的地。真实 LBS 场景的难点是"如何推断最合适的目的地"而非"如何到达已知目的地"。 评测范式转变: 从"遵循显式指令" → "依赖上下文且受物理约束的隐式意图推理"

三维评测架构

任务 名称 核心能力 题型
Task 1 MII(出行意图推断) 多意图排序,感知→分析→决策最终环 排序题
Task 2 CCI(上下文约束推断) 逻辑辨析与纠错 单选+多选题
Task 3 GMT(通用出行任务) 7子任务:POI语义/事实检索/预测/推理/异常识别 开放问答

干扰项设计(三类系统化陷阱)

  • 时序错位类:沉寂意图当成近期偏好,考察时序衰减建模
  • 约束违背类:生成与用户核心属性冲突的意图(如给单身用户推亲子娱乐)
  • 因果倒置类:把已发生意图当作未发生,考察深层因果推理

真值审核:双阶段共识机制

  1. 6个独立 LLM 裁判统一协议评判
  2. 5/6 共识 → 5名领域专家盲审
  3. ≥80%(4/5)专家共识才采纳

关键发现

1. 闭源领先,开源小模型性价比极高

模型 典型表现
Gemini-3.1-Pro / Claude-Opus-4.6 绝大多数任务 SOTA
Qwen3.5-35B-A3B POI语义理解与事实检索逼近/超越顶级闭源模型,轻量化适合车机/移动端

2. 多意图全局排序是共同瓶颈

  • Top-1 Accuracy(单一意图识别):尚可
  • Exact Match(全排序正确):最优闭源模型 <60%
  • 模型能感知"用户可能想去哪",但难以建立"为何A优先于B"的全局一致性判断

3. 复杂多约束决策边界模糊

题型 准确率
单一约束判断(单选) 多数模型 90%+
多约束协同判断(多选) 断崖式下跌
模型倾向于识别"表面合理的局部解释",而非构建"全局自洽的约束满足"。

4. GPT-5.4 计数能力严重不足

  • GPT-5.4 长序列事实检索(~150条):6.1%准确率
  • Qwen3.5 系列同任务:70%左右
  • 在出行推荐领域,从大量无关信号中提取有用信息依赖底层时空事实感知能力

评测数据

  • 微观行为序列:用户意图基础数据集 + 出行基础数据集,全量匿名化(用户匿名化、POI匿名化、时间随机扰动、噪声添加)
  • 宏观物理常识:全国34省公共POI知识库(省市区、类型、描述)
  • 开源禁止:禁止尝试重新识别个人身份

深度分析

隐式意图推理的技术本质

LBS-IntentBench 揭示了一个核心命题:在真实出行场景中,用户的"想去哪儿"并非直接告知,而是从碎片化行为信号中动态推断。这与传统的指令遵循 benchmark(如 GPS 导航任务)有本质区别——后者的输入已包含完整目的地信息,而隐式意图推理需要模型自主完成"信号→意图"的映射。

多意图排序的瓶颈根源

Exact Match(全排序正确率)<60% 背后反映的是:模型擅长单点推理(Top-1 尚可),但缺乏跨意图的全局一致性建模能力。当多个潜在意图在语义空间中距离相近时,模型缺乏明确的机制来建立"为何 A 优先于 B"的全局判断逻辑。这意味着即使感知层(知道用户可能想去哪儿)已接近瓶颈,决策层(为什么最终选择 A 而非 B)仍是未解决的难题。

三类干扰项的设计逻辑

  • 时序错位:模拟真实用户兴趣的衰减特性——沉寂意图不等于消失意图,模型需要建模时间维度的衰减曲线
  • 约束违背:检验模型是否能识别"表面合理但属性冲突"的陷阱(如给无儿童用户推荐亲子乐园),这要求模型整合用户画像的多个维度
  • 因果倒置:将已发生的意图当作候选,考察模型是否建立了时序因果的推理链

开源小模型性价比的启示

Qwen3.5-35B-A3B 在 POI 语义理解和事实检索上逼近顶级闭源模型,且适合车机/移动端部署。这意味着出行领域的隐式意图推理不一定需要千亿参数大模型,轻量级模型通过专项优化可获得较高性价比。这对边缘部署场景(车载导航、移动端)具有直接工程价值。

实践启示

对 LBS 产品设计的建议

  1. 多意图候选排序:在推荐系统层面,应设计"意图候选集 + 全局排序"的二层架构,而非单一意图输出。第一层广泛召回,第二层通过全局约束建模(时间、用户属性、地理可达性)做精细排序。
  2. 约束满足优先于意图识别:当多约束冲突时,应优先满足核心约束(如出行时间窗口),而非追求意图识别的完整性。这意味着评测指标设计应从"意图识别准确率"转向"约束满足率 + 意图满意度"的复合指标。
  3. 边缘部署策略:对于车机/移动端等资源受限场景,优先部署 Qwen3.5 量级的开源模型,配合轻量化时序衰减模块,可获得较好的投入产出比。

对评测基准设计的建议

  1. 真值共识机制:双阶段(6 LLM 裁判 + 5 专家盲审)的设计为高争议性任务提供了可复用的质量保障范式,尤其适用于主观性强的意图排序任务。
  2. 干扰项系统化:三类系统化陷阱(时序错位/约束违背/因果倒置)为后续 LBS benchmark 设计提供了分类框架,可沿此路径继续扩展更细粒度的干扰类型。

对模型能力提升的建议

  1. 计数与事实检索专项优化:GPT-5.4 在长序列事实检索(~150条)中准确率仅 6.1%,表明当前主流模型在"从大量无关信号中提取目标信息"这一基础能力上存在显著缺陷。建议在训练数据中增加长序列干扰项的比例,并引入计数验证的辅助任务。
  2. 多约束协同决策训练:单选90%+ 与多选断崖式下跌的差距表明,模型缺乏多约束同时满足的联合推理训练范式。可考虑引入多标签分类的对比学习或构建专门的约束满足数据集。

项目信息

  • 开源地址:https://github.com/lbs-researcher/LBS-IntentBench
  • 相关体系:Skillclaw(同属高德 AMAP-ML)

关联条目

  • — 同属高德 AMAP-ML,群体智能进化系统
  • — SkillClaw 原文存档

相关实体

原文存档