LBS-IntentBench — 首个真实出行隐式意图评测基准¶

Ch04.246 LBS-IntentBench — 首个真实出行隐式意图评测基准¶

📊 Level ⭐⭐ | 9.6KB | entities/lbs-intentbench.md

核心定位¶

首个基于大规模匿名化真实出行数据的用户隐式意图评测基准（来自高德，AMAP-ML）。 解决的问题： 现有出行规划 benchmark 预设用户会显式告知目的地。真实 LBS 场景的难点是"如何推断最合适的目的地"而非"如何到达已知目的地"。 评测范式转变： 从"遵循显式指令" → "依赖上下文且受物理约束的隐式意图推理"

三维评测架构¶

任务	名称	核心能力	题型
Task 1	MII（出行意图推断）	多意图排序，感知→分析→决策最终环	排序题
Task 2	CCI（上下文约束推断）	逻辑辨析与纠错	单选+多选题
Task 3	GMT（通用出行任务）	7子任务：POI语义/事实检索/预测/推理/异常识别	开放问答

干扰项设计（三类系统化陷阱）¶

时序错位类：沉寂意图当成近期偏好，考察时序衰减建模
约束违背类：生成与用户核心属性冲突的意图（如给单身用户推亲子娱乐）
因果倒置类：把已发生意图当作未发生，考察深层因果推理

真值审核：双阶段共识机制¶

6个独立 LLM 裁判统一协议评判
5/6 共识 → 5名领域专家盲审
≥80%（4/5）专家共识才采纳

关键发现¶

1. 闭源领先，开源小模型性价比极高¶

模型	典型表现
Gemini-3.1-Pro / Claude-Opus-4.6	绝大多数任务 SOTA
Qwen3.5-35B-A3B	POI语义理解与事实检索逼近/超越顶级闭源模型，轻量化适合车机/移动端

2. 多意图全局排序是共同瓶颈¶

Top-1 Accuracy（单一意图识别）：尚可
Exact Match（全排序正确）：最优闭源模型 <60%
模型能感知"用户可能想去哪"，但难以建立"为何A优先于B"的全局一致性判断

3. 复杂多约束决策边界模糊¶

题型	准确率
单一约束判断（单选）	多数模型 90%+
多约束协同判断（多选）	断崖式下跌
模型倾向于识别"表面合理的局部解释"，而非构建"全局自洽的约束满足"。

4. GPT-5.4 计数能力严重不足¶

GPT-5.4 长序列事实检索（~150条）：6.1%准确率
Qwen3.5 系列同任务：70%左右
在出行推荐领域，从大量无关信号中提取有用信息依赖底层时空事实感知能力

评测数据¶

微观行为序列：用户意图基础数据集 + 出行基础数据集，全量匿名化（用户匿名化、POI匿名化、时间随机扰动、噪声添加）
宏观物理常识：全国34省公共POI知识库（省市区、类型、描述）
开源禁止：禁止尝试重新识别个人身份

深度分析¶

隐式意图推理的技术本质¶

LBS-IntentBench 揭示了一个核心命题：在真实出行场景中，用户的"想去哪儿"并非直接告知，而是从碎片化行为信号中动态推断。这与传统的指令遵循 benchmark（如 GPS 导航任务）有本质区别——后者的输入已包含完整目的地信息，而隐式意图推理需要模型自主完成"信号→意图"的映射。

多意图排序的瓶颈根源¶

Exact Match（全排序正确率）<60% 背后反映的是：模型擅长单点推理（Top-1 尚可），但缺乏跨意图的全局一致性建模能力。当多个潜在意图在语义空间中距离相近时，模型缺乏明确的机制来建立"为何 A 优先于 B"的全局判断逻辑。这意味着即使感知层（知道用户可能想去哪儿）已接近瓶颈，决策层（为什么最终选择 A 而非 B）仍是未解决的难题。

三类干扰项的设计逻辑¶

时序错位：模拟真实用户兴趣的衰减特性——沉寂意图不等于消失意图，模型需要建模时间维度的衰减曲线
约束违背：检验模型是否能识别"表面合理但属性冲突"的陷阱（如给无儿童用户推荐亲子乐园），这要求模型整合用户画像的多个维度
因果倒置：将已发生的意图当作候选，考察模型是否建立了时序因果的推理链

开源小模型性价比的启示¶

Qwen3.5-35B-A3B 在 POI 语义理解和事实检索上逼近顶级闭源模型，且适合车机/移动端部署。这意味着出行领域的隐式意图推理不一定需要千亿参数大模型，轻量级模型通过专项优化可获得较高性价比。这对边缘部署场景（车载导航、移动端）具有直接工程价值。

实践启示¶

对 LBS 产品设计的建议¶

多意图候选排序：在推荐系统层面，应设计"意图候选集 + 全局排序"的二层架构，而非单一意图输出。第一层广泛召回，第二层通过全局约束建模（时间、用户属性、地理可达性）做精细排序。
约束满足优先于意图识别：当多约束冲突时，应优先满足核心约束（如出行时间窗口），而非追求意图识别的完整性。这意味着评测指标设计应从"意图识别准确率"转向"约束满足率 + 意图满意度"的复合指标。
边缘部署策略：对于车机/移动端等资源受限场景，优先部署 Qwen3.5 量级的开源模型，配合轻量化时序衰减模块，可获得较好的投入产出比。

对评测基准设计的建议¶

真值共识机制：双阶段（6 LLM 裁判 + 5 专家盲审）的设计为高争议性任务提供了可复用的质量保障范式，尤其适用于主观性强的意图排序任务。
干扰项系统化：三类系统化陷阱（时序错位/约束违背/因果倒置）为后续 LBS benchmark 设计提供了分类框架，可沿此路径继续扩展更细粒度的干扰类型。

对模型能力提升的建议¶

计数与事实检索专项优化：GPT-5.4 在长序列事实检索（~150条）中准确率仅 6.1%，表明当前主流模型在"从大量无关信号中提取目标信息"这一基础能力上存在显著缺陷。建议在训练数据中增加长序列干扰项的比例，并引入计数验证的辅助任务。
多约束协同决策训练：单选90%+ 与多选断崖式下跌的差距表明，模型缺乏多约束同时满足的联合推理训练范式。可考虑引入多标签分类的对比学习或构建专门的约束满足数据集。

项目信息¶

开源地址：https://github.com/lbs-researcher/LBS-IntentBench
相关体系：Skillclaw（同属高德 AMAP-ML）

关联条目¶

— 同属高德 AMAP-ML，群体智能进化系统
— SkillClaw 原文存档