LBS-IntentBench — 首个真实出行隐式意图评测基准¶
Ch04.246 LBS-IntentBench — 首个真实出行隐式意图评测基准¶
📊 Level ⭐⭐ | 9.6KB |
entities/lbs-intentbench.md
核心定位¶
首个基于大规模匿名化真实出行数据的用户隐式意图评测基准(来自高德,AMAP-ML)。 解决的问题: 现有出行规划 benchmark 预设用户会显式告知目的地。真实 LBS 场景的难点是"如何推断最合适的目的地"而非"如何到达已知目的地"。 评测范式转变: 从"遵循显式指令" → "依赖上下文且受物理约束的隐式意图推理"
三维评测架构¶
| 任务 | 名称 | 核心能力 | 题型 |
|---|---|---|---|
| Task 1 | MII(出行意图推断) | 多意图排序,感知→分析→决策最终环 | 排序题 |
| Task 2 | CCI(上下文约束推断) | 逻辑辨析与纠错 | 单选+多选题 |
| Task 3 | GMT(通用出行任务) | 7子任务:POI语义/事实检索/预测/推理/异常识别 | 开放问答 |
干扰项设计(三类系统化陷阱)¶
- 时序错位类:沉寂意图当成近期偏好,考察时序衰减建模
- 约束违背类:生成与用户核心属性冲突的意图(如给单身用户推亲子娱乐)
- 因果倒置类:把已发生意图当作未发生,考察深层因果推理
真值审核:双阶段共识机制¶
- 6个独立 LLM 裁判统一协议评判
- 5/6 共识 → 5名领域专家盲审
- ≥80%(4/5)专家共识才采纳
关键发现¶
1. 闭源领先,开源小模型性价比极高¶
| 模型 | 典型表现 |
|---|---|
| Gemini-3.1-Pro / Claude-Opus-4.6 | 绝大多数任务 SOTA |
| Qwen3.5-35B-A3B | POI语义理解与事实检索逼近/超越顶级闭源模型,轻量化适合车机/移动端 |
2. 多意图全局排序是共同瓶颈¶
- Top-1 Accuracy(单一意图识别):尚可
- Exact Match(全排序正确):最优闭源模型 <60%
- 模型能感知"用户可能想去哪",但难以建立"为何A优先于B"的全局一致性判断
3. 复杂多约束决策边界模糊¶
| 题型 | 准确率 |
|---|---|
| 单一约束判断(单选) | 多数模型 90%+ |
| 多约束协同判断(多选) | 断崖式下跌 |
| 模型倾向于识别"表面合理的局部解释",而非构建"全局自洽的约束满足"。 |
4. GPT-5.4 计数能力严重不足¶
- GPT-5.4 长序列事实检索(~150条):6.1%准确率
- Qwen3.5 系列同任务:70%左右
- 在出行推荐领域,从大量无关信号中提取有用信息依赖底层时空事实感知能力
评测数据¶
- 微观行为序列:用户意图基础数据集 + 出行基础数据集,全量匿名化(用户匿名化、POI匿名化、时间随机扰动、噪声添加)
- 宏观物理常识:全国34省公共POI知识库(省市区、类型、描述)
- 开源禁止:禁止尝试重新识别个人身份
深度分析¶
隐式意图推理的技术本质¶
LBS-IntentBench 揭示了一个核心命题:在真实出行场景中,用户的"想去哪儿"并非直接告知,而是从碎片化行为信号中动态推断。这与传统的指令遵循 benchmark(如 GPS 导航任务)有本质区别——后者的输入已包含完整目的地信息,而隐式意图推理需要模型自主完成"信号→意图"的映射。
多意图排序的瓶颈根源¶
Exact Match(全排序正确率)<60% 背后反映的是:模型擅长单点推理(Top-1 尚可),但缺乏跨意图的全局一致性建模能力。当多个潜在意图在语义空间中距离相近时,模型缺乏明确的机制来建立"为何 A 优先于 B"的全局判断逻辑。这意味着即使感知层(知道用户可能想去哪儿)已接近瓶颈,决策层(为什么最终选择 A 而非 B)仍是未解决的难题。
三类干扰项的设计逻辑¶
- 时序错位:模拟真实用户兴趣的衰减特性——沉寂意图不等于消失意图,模型需要建模时间维度的衰减曲线
- 约束违背:检验模型是否能识别"表面合理但属性冲突"的陷阱(如给无儿童用户推荐亲子乐园),这要求模型整合用户画像的多个维度
- 因果倒置:将已发生的意图当作候选,考察模型是否建立了时序因果的推理链
开源小模型性价比的启示¶
Qwen3.5-35B-A3B 在 POI 语义理解和事实检索上逼近顶级闭源模型,且适合车机/移动端部署。这意味着出行领域的隐式意图推理不一定需要千亿参数大模型,轻量级模型通过专项优化可获得较高性价比。这对边缘部署场景(车载导航、移动端)具有直接工程价值。
实践启示¶
对 LBS 产品设计的建议¶
- 多意图候选排序:在推荐系统层面,应设计"意图候选集 + 全局排序"的二层架构,而非单一意图输出。第一层广泛召回,第二层通过全局约束建模(时间、用户属性、地理可达性)做精细排序。
- 约束满足优先于意图识别:当多约束冲突时,应优先满足核心约束(如出行时间窗口),而非追求意图识别的完整性。这意味着评测指标设计应从"意图识别准确率"转向"约束满足率 + 意图满意度"的复合指标。
- 边缘部署策略:对于车机/移动端等资源受限场景,优先部署 Qwen3.5 量级的开源模型,配合轻量化时序衰减模块,可获得较好的投入产出比。
对评测基准设计的建议¶
- 真值共识机制:双阶段(6 LLM 裁判 + 5 专家盲审)的设计为高争议性任务提供了可复用的质量保障范式,尤其适用于主观性强的意图排序任务。
- 干扰项系统化:三类系统化陷阱(时序错位/约束违背/因果倒置)为后续 LBS benchmark 设计提供了分类框架,可沿此路径继续扩展更细粒度的干扰类型。
对模型能力提升的建议¶
- 计数与事实检索专项优化:GPT-5.4 在长序列事实检索(~150条)中准确率仅 6.1%,表明当前主流模型在"从大量无关信号中提取目标信息"这一基础能力上存在显著缺陷。建议在训练数据中增加长序列干扰项的比例,并引入计数验证的辅助任务。
- 多约束协同决策训练:单选90%+ 与多选断崖式下跌的差距表明,模型缺乏多约束同时满足的联合推理训练范式。可考虑引入多标签分类的对比学习或构建专门的约束满足数据集。
项目信息¶
- 开源地址:https://github.com/lbs-researcher/LBS-IntentBench
- 相关体系:Skillclaw(同属高德 AMAP-ML)
关联条目¶
- — 同属高德 AMAP-ML,群体智能进化系统
- — SkillClaw 原文存档
相关实体¶
→ 原文存档