跳转至

高德伴行Agent:空间智能高可用Agent架构

Ch04.113 高德伴行Agent:空间智能高可用Agent架构

📊 Level ⭐⭐ | 15.0KB | entities/gaode-ai-companion-agent.md

-> 原文存档

核心架构:Supervisor驱动的双内核Agent

伴行Agent的本质是空间智能内核 + 行动引擎:以用户的实时位置和空间任务为中心,持续理解"人在哪里、要去哪、周围有什么、接下来怎么行动"。

双内核设计

内核 类型 职责
自研行中Agent内核 自研(确定性) 导航问答、周边找点、路线推荐、行中规划、动态约束——强依赖地图事实和位置状态
QwenPaw通用Agent内核 云化通用 通识问答、知识检索、数学运算、逻辑推理、文本翻译
核心判断:伴行Agent当前最需要的不是"最大自由度",而是"可控自由度"——核心动线任务必须稳定、快速、可验证;开放时空任务则需要推理、扩展和多工具协作。

架构收益

  • 高频简单任务走轻量链路,复杂任务按需分发至自研Agent、通用Agent或全模态Agent
  • 自研内核聚焦行中场景快速迭代,QwenPaw内核持续演进通用能力,两者解耦、互不阻塞
  • 高频请求优先走确定性快路径,仅在需要开放推理或多工具协作时才进入QwenPaw/ReAct链路
  • 随模型能力提升,可逐步将更多任务迁移至通用Agent内核,强事实高风险链路仍保留在自研内核 基于LangGraph4J搭建层级式多Agent协同框架:一个中心Supervisor负责任务路由、执行边界和结果聚合。

ReAct推理引擎优化

业界方案对比

方案 特点 适用性
单轮Function Calling 一问一答 不适合复杂多步推理
Plan-Execute 全局性强但计划僵化 不适合高度动态的导航场景
ReAct 每轮根据真实工具返回动态决策 适合中间状态不可预知的场景

四大首创优化

  1. 面向实时交互的极简输出范式:替代JSON格式,输出token开销降低40%,单轮推理延迟降低约300ms
  2. 语义化参数传递机制:模型输出POI名称而非经纬度参数,由系统自动映射,参数填写准确率显著提升
  3. PRISM多智能体数据质量框架:GSM8K、AIME-2025、MBPP、BFCL-SP四大基准全面超越SOTA
  4. SFT+RL两阶段训练:分层奖励机制(Env层硬约束 + Pipeline层LLM Judge评分)

训练效果

指标 基模(Qwen3-Next-80B-A3B) 训练后
平均推理轮次 8.13 3.31
重复调用率 22% 2.7%
vs DeepSeek V4 Pro 轮次更少,质量更高
关键洞察:Claude-Opus-4.7在通用基准上顶级,但垂直场景反而最差——强通用能力≠垂直场景好,决策效率不随模型规模自动涌现。

Skill动态注入系统

问题:全量Prompt注入的三重困境

  1. TTFT激增:冗长Prompt拉高推理延迟(行中需4秒内响应)
  2. 注意力衰减:"Lost in the Middle"问题——LLM对中间位置信息召回率显著下降
  3. 规则耦合:新增规则需考虑与已有规则的交互影响

三层筛选机制

  • L1 静态硬路由:隐私保护、安全边界等底线规则配置直接命中,不进入LLM判断
  • L2 轻量语义筛选:压缩后上下文(用户请求+对话摘要+工具结果摘要)判断场景化Skill是否相关
  • L3 确定性规则覆盖:工具调用或导航状态强绑定场景,规则强制激活

核心效果

  • Token压缩50%:减少无关信息比增加重复强调更能提升指令遵循能力
  • Skill从"Prompt的静态片段"升级为"运行时决策的一部分"

时空上下文体系

统一时空状态

引入ContextData作为信息融合枢纽:原始信号统一进入→四维上下文建模→Shared Memory召回→上下文裁剪→Context View生成→注入对应Agent。

五层时空粒度 × 四类记忆表征

五层时空粒度(生命周期):

  • Step → Session → Goal → Navi → ADIU(长期) 四类记忆表征(语义使用):

  • Profile(用户画像)

  • Preference(明确偏好)
  • Episodic(历史事件)
  • Procedural(可复用行动策略)——核心:让记忆从"历史记录"升级为"决策资产"

检索:KV精确 + 向量语义 + 置信度门控

端到端评测结论

层级 结论
L1 通识对齐 基本持平,不掉队
L2 时空智能 显著优势
L3 场景壁垒 事实一致性、空间约束满足、近场行动智能显著优势
本质链路:统一时空状态感知"人在哪" → 工具化事实源锚定"可不可达" → ReAct推理编排"怎么做最优"

深度分析

双内核架构的本质:可控自由度优先,而非最大自由度

伴行Agent的架构选择揭示了一个在垂直场景Agent设计中容易被忽视的原则:强通用能力不等于垂直场景好。Claude-Opus-4.7在通用基准上顶级,但在空间领域的实际推理质量反而最低——因为它拥有过于强势的内置工具调用风格,在遵循垂直场景专属调用规范时表现较差。这告诉我们:在构建垂直Agent时,通用大模型的基准能力只是一个参考,不是决定因素。真正的评测维度是场景专用的任务完成率而非通用 benchmark 分数。
双内核设计的核心价值不是"一个做核心,一个做通用"这种功能分区,而是两条路径的故障隔离:当QwenPaw路径出现问题(模型版本更新、API异常)时,自研行中内核仍然稳定运行;反之亦然。这种分离让系统的容错性大幅提升,而不是"一条路不通全挂"。

ReAct优化的本质:推理轮次压缩就是用户体验

平均推理轮次从8.13降到3.31,重复调用率从22%降到2.7%——这个优化的意义不只是降低成本,更是用户等待时间的大幅缩短
行中场景有一个隐性约束:用户说完话后4秒内必须响应才能不影响体验。当推理轮次是8轮时,加上网络延迟和工具调用的开销,4秒内完成几乎不可能。压缩到3.31轮后,4秒响应变成了可实现的目标。这个细节告诉我们:在实时交互场景里,推理效率比推理质量更重要——一个不够精确但能在时限内完成的回答,比一个精确但超时的回答用户体验更好。
极简输出范式降低40% token开销的效果也在这里:更少的token → 更快的TTFT(Time to First Token)→ 更短的感知延迟。这是面向用户体验的工程优化,不是模型能力的提升。

Skill动态注入的三层筛选:分层决策的工程价值

L1静态硬路由 → L2轻量语义筛选 → L3确定性规则覆盖,这三层的设计精髓在于让不同复杂度的决策流向不同成本的推理路径

  • L1的底线规则(隐私保护、安全边界)通过配置直接命中,不需要LLM判断——这是最低成本、最高确定性的路径
  • L2的语义筛选使用压缩后的上下文(用户请求+对话摘要+工具结果摘要)而非全量上下文,用轻量模型判断——LLM参与但以最小资源消耗
  • L3的确定性规则在工具调用或导航状态强绑定时强制激活——不需要判断,规则本身就是触发器 Token压缩50%的结果不是通过"减少规则数量"实现的,而是通过让正确的规则在正确的时机出现实现的。这个思路和高德在Hermes Agent分析中提到的"Skill动态注入替代模型自主创建Skill"是一致的——把决策权从模型转移到系统,让模型只处理它擅长的语义理解。

PRISM框架的多智能体增益分解:可证的方向

PRISM框架将多智能体性能增益分解为三个正交维度(Exploration/Information/Aggregation),这个理论贡献的价值在于给了从业者一个诊断框架:当你的多Agent系统表现不佳时,可以分析是哪一层出了问题:

  • 如果Agent输出的解空间覆盖率低 → 需要增强Exploration
  • 如果Agent缺乏高质量的执行反馈信号 → 需要增强Information
  • 如果Agent之间无法达成共识 → 需要增强Aggregation 在伴行Agent的ReAct优化里,PRISM主要用于数据质量审核(多Agent对同一条训练数据进行交叉验证),这意味着他们的多智能体主要在增强Aggregation维度——让不同Agent对同一条轨迹的评价达成一致,从而提升训练数据的质量。

时空上下文作为统一状态层的意义

伴行Agent把时空上下文设计为双内核架构中的统一状态层,而不是某个Agent的局部Prompt。这是有深远意义的架构决策:
如果上下文是局部的(每个Agent有自己的上下文副本),两个Agent对同一个事实的理解可能出现不一致——"用户当前位置"在自研Agent眼里是A,在QwenPaw Agent眼里可能是B(因为各自上下文更新的时间差)。统一状态层确保两个Agent始终基于同一份时空事实做决策,从根本上消除了跨Agent状态不一致的问题。
五层时空粒度(Step→Session→Goal→Navi→ADIU)的划分也有讲究:粒度越细,对当前决策的精度越高;粒度越粗,对长期偏好的保留越好。ADIU层(长期情境记忆)让Agent能记住"用户上次来这个城市住在哪个区域",Session层让Agent知道"用户现在正在去机场的路上",两种记忆服务于不同的决策需求。

实践启示

构建垂直Agent的第一步:定义"可控自由度"

伴行Agent的架构方法论第一步是明确回答:在这个场景里,哪些任务必须稳定快速,哪些任务需要开放推理?这条边界的定义直接决定了你需要几个Agent内核、它们之间如何路由。
对任何垂直场景的Agent设计,强烈建议在写一行代码之前,先花时间做这个定义:列出场景中所有可能的用户任务,按"确定性要求"和"推理复杂度"两个维度打分。落在高确定性+低推理复杂度象限的任务,应该走快路径;落在低确定性+高推理复杂度的任务,应该走LLM推理路径。这个分类会直接影响整个系统的延迟、成本和可靠性设计。

ReAct优化的实战检查清单

如果你正在为实时交互场景优化Agent性能,以下指标值得重点追踪:

  • 平均推理轮次:超过5轮需要分析原因(通常意味着工具选择错误或缺少数数据)
  • 重复调用率:超过10%意味着模型对同一工具的调用结果不满意,通常需要优化工具描述或提供示例
  • TTFT(Time to First Token):直接决定用户体验,4秒是行中场景的软性上限 具体优化方向:①压缩工具描述(只保留决策相关信息)②优化输出格式(避免JSON的结构开销)③引入提前终止逻辑(多轮推理中如果当前答案已经满足要求,提前停止)。

Skill注入的最小有效配置

不要一开始就把所有规则都注入到Prompt里。从伴行Agent的三层筛选看,最小有效配置是:
L1层(必须):把安全边界和合规底线配置为静态规则,通过配置直接生效,不需要LLM判断。这些规则简单、明确、不会因为场景变化而变化,是最高效的防护层。
L2层(场景化):只注入当前对话相关的1-2个Skill,不要注入全部。用轻量语义筛选判断相关性,而不是把所有可能相关的Skill都塞进上下文。
L3层(必要时):确定性规则只在确实存在强绑定场景时才引入,过度使用会导致系统行为过于刚性,失去对开放场景的适应能力。

垂直场景模型训练的"合成+真实"双路径

伴行Agent的SFT训练数据构造展示了生产级训练数据构建的可行路径:真实日志回放+场景定向合成。真实日志的价值是分布真实性,合成数据的价值是长尾覆盖。两者缺一不可——只用真实日志会导致长尾场景覆盖不足(因为真实流量中长尾case本身就少),只用合成数据会导致分布偏移(合成数据和真实数据存在系统性差异)。
对于其他垂直场景的模型微调,这个双路径设计值得参考:先建立真实流量的日志回放基础设施,再针对长尾方向(你预期用户会问但真实日志里很少出现的场景)做定向合成和增强。

反馈驱动的Agent改进闭环

伴行Agent的未来方向是"Agent Harness"——结合线上真实query,搭建自动发现问题→分析问题→优化问题→上线AB的闭环系统。这个方向的核心思想是:Agent的改进必须由真实使用数据驱动,而不是由人工评估驱动
建议任何生产级Agent系统都应该设计类似的数据收集机制:

  • 哪些query导致了高的重试率或低的完成率?→ 发现系统弱点
  • 哪些Agent在什么类型的query上持续失败?→ 发现单一Agent的能力边界
  • 用户对AI生成结果的修改率是多少?→ 测量系统输出质量 这些数据应该被系统性地收集、分析,并驱动下一轮的系统改进。没有这个闭环,Agent系统的质量会冻结在第一版部署时的水平。
    原文存档

与Hermes Agent的关系

本文专门分析了Hermes Agent[17]的架构取舍:

  • 借鉴:Skill沉淀思想、记忆管理思想
  • 工程化实现:Skill动态注入替代模型自主创建Skill,时空上下文体系替代模型自由管理Memory
  • 取舍:Hermes式的自由推理链在行中场景受实时性(4秒内响应)和模型约束(小参数量模型的推理链不完整)双重限制

相关页面

相关实体