跳转至

滴滴 IBG 智能客服质检系统:3 管线(意图 86% / 合规 90%+ / VOC)+ 企业 LLM 落地方法论

Ch01.166 滴滴 IBG 智能客服质检系统:3 管线(意图 86% / 合规 90%+ / VOC)+ 企业 LLM 落地方法论

📊 Level ⭐⭐ | 28.5KB | entities/didi-ibg-customer-experience-llm-quality-inspection-3-pipelines.md

滴滴 IBG 智能客服质检系统

概览

滴滴国际化事业群(IBG)客户体验部门构建了一套覆盖西班牙语和葡萄牙语、横跨出行、外卖、金融三大业务线的智能客服质检系统

3 大业务线 × 2 语种 × 在线聊天 + 电话双渠道

3 条并行管线: - 意图管线 — 验证客服标注的进线原因(CR)— 准确率从初期不足 40% 提升至 86% - 合规评估管线 — 合规(QA)评分 + 业务洞察(BI)— 平均准确率 90% 以上 - VOC 管线 — 客户声音趋势聚合分析 — 数小时人工 → 数分钟自动报告

相关实体

原文存档

4 大业务挑战

# 挑战 表现
1 质检结论缺乏可追溯性 传统 AI 质检只提供"黑盒"结果,判定逻辑不透明;人工抽检覆盖率受成本制约;出现争议既无法复现判断依据,也难以标准化复核
2 场景组合复杂度高 多语种 × 多业务线各有独立合规标准和质检规则;组合数量增长,规则维护成本迅速攀升
3 质检标准变更响应滞后 业务侧质检标准频繁调整,每次变更都需重新培训;新旧标准并行期易出现波动
4 缺乏主动的趋势发现能力 运营只能逐条阅读工单手动汇总;在问题规模化前难以早期发现系统性趋势并干预

方案总览 — 3 条专用管线

"针对上述挑战,我们设计了三条专用管线,每条管线聚焦质检的不同维度,每项判定均输出完整的推理过程,彻底告别黑盒。"

管线 职责
意图管线 验证客服代表(CSR)标注的进线原因(Contact Reason)是否准确,错误时推荐替代分类
评估管线 对每条工单进行多项合规(QA)评分 + 业务洞察(BI)分析
VOC 管线 针对特定时间窗口内的批量工单进行聚合分析,产出结构化管理报告

双渠道数据(在线聊天 + 电话)经预处理后流入 3 条管线,输出结构化结果供运营团队查询和可视化

意图管线:从不足 40% 到 86% 的 3 版架构演进

第一版:直接分类(失败)

做法:把 CR 体系全量交给 LLM,让它对照对话内容,直接输出最匹配的 CR 标签

结果:准确率长期徘徊在低位。

反复优化 Prompt 措辞 → 没有显著改善。

真正的问题

"直到深入分析错误案例才意识到,问题的根源不在 Prompt 怎么写,而在调用架构本身——在这类任务里,模型能'看到什么',比被告知'该怎么做'影响更大。这是单纯优化 Prompt 无法触及的层面。"

第二版:调用架构重构

核心做法

"基于上述判断,我们对意图管线的调用架构做了一次重构,核心是精确控制每一次 LLM 调用中模型能够接触到的信息范围,让模型在每个环节只面对与当前判断相关的最小必要信息,而不是一次性吞下全部上下文。"

结果:准确率有显著提升 — 但很快遇到新的天花板

第三版:提升标签定义质量(数据层优化)

继续分析错误案例后,发现问题转移到另一个维度:CR 标签本身的定义质量

新发现: - 部分 CR 标签描述过于简短,边界模糊 - LLM 无法从文字中区分相邻标签的差异 - 再怎么优化 Prompt 都没用,因为模型能理解什么,取决于数据层给它定义了什么

优化方向: - 在数据层系统性地增强标签定义的完整度与区分度 - 让这些增强后的定义在运行时参与到判断过程中 - 实现"数据驱动的标签定义增强"

最终准确率86%(从初期不足 40%)

核心洞察(2 大关键判断)

"LLM 应用的性能瓶颈,往往不在 Prompt 措辞,而在调用架构——精确控制每次调用中模型能看到哪些信息,比反复优化 Prompt 指令更为根本。"

"LLM 分类质量的上限,由标签定义的质量决定。在模型能力固定的前提下,投资于数据层的定义质量,往往比投资于 Prompt 工程回报更高。"

评估管线:一套模板覆盖所有语种 × 业务线

挑战:多种组合,如何不写多套规则

多语种 × 多业务线意味着每种组合都有独立的质检规则和上下文。如果为每个组合单独维护一套 Prompt 或配置,不仅工作量巨大,每次规则变更也会牵一发而动全身。

设计思路:配置外部化 + 动态组装

"核心设计是把所有变化点从 Prompt 里抽离出来,沉淀到外部配置文件中。"

3 大关键做法: 1. 质检标准以结构化文件管理 — 每条标准包含评分项描述、正确做法、错误做法等多个字段 2. BI 问题同样外部化配置 — 包含问题文本和选项定义 3. 动态拼装 — 每次调用时,系统根据当前工单的语种(西班牙语/葡萄牙语)和业务线(出行/外卖/金融),动态拼装出完整 Prompt

结果: - 新增一个评估项 → 只需更新配置文件 - 新增一种语种或业务线 → 只需添加对应的上下文块 - 一套模板,覆盖全部组合

一次调用,多项同时完成

关键设计:多项合规评分(QA)和多项业务洞察(BI)在单次 LLM 调用中同时完成

  • 通过 Tool Use 机制定义严格的 JSON Schema 约束输出格式
  • 确保每项结果都包含判定结论和推理过程
  • 对于规则性强的指标(如拼写错误计数),在 LLM 输出之后追加程序化校验(用确定性逻辑校准语义判断,避免模型在简单规则上的不稳定性)

对话过滤(前置步骤): - 纯转接工单、客户无回复的工单等无效对话被自动标记跳过 - 不进入 LLM 评估,既节省调用成本,也避免对无效数据打分污染结果

合规评分平均准确率90% 以上

VOC 管线:从人工汇总到数分钟出报告

3 阶段 Pipeline

第一阶段:并行提取

  • 对每条对话独立调用 LLM
  • 提取结构化字段:问题类型、用户情绪、解决结果、根因等
  • 各工单之间无依赖,天然支持并行处理
  • 吞吐量可线性扩展

第二阶段:语义聚类

  • 对提取出的"问题类型"标签做语义相似度聚类
  • 合并同义表述(如 "unpaid cancellation fee" 与 "cancellation fee not paid" 会被归并为同一类)
  • 按工单频次排序,定位影响面最大的问题
  • 使用 embedding 相似度与统计排序确定性计算,聚类与排序结果本身可复现
  • 上游提取仍依赖 LLM,但这一步不再引入新的随机性

第三阶段:报告生成

  • 基于高频聚类的结构化信息,LLM 生成管理层可直接阅读的分析报告
  • 涵盖执行摘要、痛点分析、可执行改进建议

真实案例

拉美市场短时间内集中出现大量取消费相关投诉

VOC 管线输出直接定位: - 主要根因 - 高频触发场景 - 针对性改进建议

运营团队无需阅读任何一条多语种原始对话数分钟内完成问题定位

效率提升原本数小时的人工汇总,缩短至数分钟

4 大核心方法论总结

1. 架构先于 Prompt

"信息隔离、分阶段调用、控制每次 LLM 调用的可见范围,是提升准确率的根本杠杆。把精力花在'模型应该看什么'上,往往比花在'Prompt 怎么写'上回报更高。"

2. 数据质量是上限

"标签定义的完整度和区分度,决定了 LLM 分类能力的天花板。这不是 Prompt 工程能解决的问题,需要在数据层投入。"

3. 配置化是可维护性的基础

"把所有变化点(语种、业务线、质检标准、BI 问题)外部化为配置文件,让系统能快速响应业务变化,而不需要每次改代码。"

4. 可追溯性是信任的前提

"每项判定附带推理过程,让质检从'黑盒结论'变成'可复核的判断',才能真正进入运营决策链路。"

终极判断 — 真正的壁垒

"这套系统真正的壁垒并不在于某一处架构技巧,而在于持续沉淀的标签定义资产、质检标准库,以及围绕业务不断自主迭代的工程能力——这些是随时间复利、难以被快速复制的部分。"

下一步: - 扩展至更多业务线和语种 - 探索三条管线之间的数据联动 - 让意图分析的结果能够反哺 VOC 的趋势归因

与已有实体的关系

  • Anthropic 95Pct Data Analysis Skill Stack Architecture — Anthropic 95% 数据分析自动化
  • 共同点:都是企业内部 LLM 落地的真实工程案例
  • 互证关系
  • 滴滴 = 架构先于 Prompt(信息隔离)
  • Anthropic = 可信数据源(语义层)+ Skill 路由器(结构化信息)
  • 两者都强调"可追溯性 + 配置外部化"

  • Miroflow Deep Research Agent Harness Mirothinker / sagent deep research agent architecture alibaba — Deep Research Agent

  • 共同点:都把"main agent + 多个 sub agent / 多个管线"作为核心架构
  • 差异
  • 滴滴 = 同步多管线并行(意图/合规/VOC 同时跑)
  • Deep Research Agent = 异步 sub agent 并行(按子任务分发)

  • Is Grep All You Need — 检索耦合

  • 滴滴 VOC 第二阶段语义聚类 = 同类思路:先精确控制(embedding 相似度 + 统计排序 = 确定性计算),再交付 LLM
  • 与 PwC 论文"inline 交付 grep 胜"互证:确定性 > LLM 判断在简单规则上

  • Hermes Agent 12 Layer Full Configuration Guide — Hermes 12 层

  • L10 可视化与可观测 = "每项判定附带推理过程" 的轻量版

3 管线 vs 已有实体的核心区分

维度 滴滴 3 管线 Anthropic Skill 栈 Deep Research Agent
形态 3 条专用并行管线 4 层分栈(数据/可信源/Skill/验证) main + sub agent
核心挑战 多语种 × 多业务线 + 黑盒→透明 21%→95% 准确率 长程深度检索
关键洞察 架构先于 Prompt Skill 路由器收窄检索范围 XML 协议 + 6 MCP 工具
可追溯性 每项判定附推理过程 来源标注页脚 + Adversarial Review Tool call 显式记录
数据驱动 标签定义质量是上限 语义层是默认路径 时间戳搜索 (tbs)
可维护性 配置外部化 Skill = 唯一真相源 XML 协议自训练

核心金句

  • "传统 AI 质检方案只提供'黑盒'结果,判定逻辑不透明,人工抽检的覆盖率又受成本制约"
  • "多语种 × 多业务线各有独立的合规标准和质检规则。随着组合数量增长,规则维护成本迅速攀升"
  • "这套系统通过三条并行管线——意图验证、合规评估、VOC 趋势分析——将质检从依赖第三方黑盒方案升级为透明、可追溯、可自主迭代的自研 AI 架构"
  • "模型能'看到什么',比被告知'该怎么做'影响更大"
  • "让模型在每个环节只面对与当前判断相关的最小必要信息,而不是一次性吞下全部上下文"
  • "部分 CR 标签描述过于简短,边界模糊,LLM 无法从文字中区分相邻标签的差异"
  • "模型能理解什么,取决于数据层给它定义了什么"
  • "实现'数据驱动的标签定义增强'"
  • "LLM 应用的性能瓶颈,往往不在 Prompt 措辞,而在调用架构"
  • "精确控制每次调用中模型能看到哪些信息,比反复优化 Prompt 指令更为根本"
  • "LLM 分类质量的上限,由标签定义的质量决定"
  • "投资于数据层的定义质量,往往比投资于 Prompt 工程回报更高"
  • "核心设计是把所有变化点从 Prompt 里抽离出来,沉淀到外部配置文件中"
  • "通过 Tool Use 机制定义严格的 JSON Schema 约束输出格式"
  • "用确定性逻辑校准语义判断,避免模型在简单规则上的不稳定性"
  • "对提取出的'问题类型'标签做语义相似度聚类,合并同义表述"
  • "上游提取仍依赖 LLM,但这一步不再引入新的随机性"
  • "信息隔离、分阶段调用、控制每次 LLM 调用的可见范围,是提升准确率的根本杠杆"
  • "把所有变化点外部化为配置文件,让系统能快速响应业务变化,而不需要每次改代码"
  • "让质检从'黑盒结论'变成'可复核的判断',才能真正进入运营决策链路"
  • "这套系统真正的壁垒并不在于某一处架构技巧,而在于持续沉淀的标签定义资产、质检标准库,以及围绕业务不断自主迭代的工程能力——这些是随时间复利、难以被快速复制的部分"
  • "下一步,让意图分析的结果能够反哺 VOC 的趋势归因"

深度分析

1. 从「黑盒 AI」到「透明推理链」:质检可追溯性的架构意义

滴滴 IBG 将可追溯性置于系统设计的核心位置,这一选择背后有深刻的工程逻辑。传统 AI 质检方案被描述为「黑盒」——模型输出一个标签,但没有附带判断依据,也没有推理过程。这在技术层面意味着:当业务侧对某个质检结论产生异议时,无法还原判定过程,只能选择接受或拒绝整个模型。

在企业级运营场景中,这种「不可复核」的特质是致命的。客服质检结果直接影响客服绩效评定、补偿审批、乃至业务规则调整。一旦AI质检结论进入这些关键决策链路,相关方必须有能力复核和质疑每一个判定结果,否则整个体系的公信力会受到根本性的动摇 。

滴滴的解法是「每项判定均输出完整的推理过程」。这一设计的工程意义不仅是「让运营看懂」,而是将 AI 质检从「最终决策者」降级为「决策建议者」——所有 LLM 输出的判定结论都必须附有可复核的推理依据,人类在此基础上做最终判断。这意味着 AI 的角色是企业决策辅助工具,而不是替代人类判断的自动化系统。

2. 三版架构演进揭示的 LLM 应用深层规律

意图管线经历三次重大迭代——直接分类失败、调用架构重构遇到天花板、数据层优化最终将准确率从不足 40% 提升至 86% —这一过程揭示了一个在 LLM 应用领域具有普遍性的深层规律。

第一层认识是「Prompt 工程有边界」。当系统尝试通过优化 Prompt 措辞提升准确率时,发现收益迅速递减。这不是 Prompt 本身写得不够好,而是任务特性决定了这个方向的回报上限。LLM 的「能力」在分类任务中受制于它能「看到什么信息」,而不是它被「告知做什么指令」 。

第二层认识是「架构重构是真正的杠杆」。从第一版到第二版,核心改变是控制每次 LLM 调用中模型能接触到的信息范围——从「让模型看全部上下文」切换为「让模型只看到与当前判断相关的最小必要信息」。这一改变带来了显著准确率提升,说明在分类这类任务上,「信息隔离」比「指令优化」更接近问题的本质 。

第三层认识是「数据质量决定上限」。在第二版架构已经优化后,准确率遇到了新的天花板,进一步分析发现问题转移到标签定义本身的质量上。部分 CR 标签描述过于简短、边界模糊,LLM 无法从文字中区分相邻标签的差异。这说明即使调用架构优化到极致,分类质量的天花板仍然由数据层定义决定 。

这三层认识共同构成了一个「LLM 应用能力模型」:Prompt 措辞决定模型能否正确理解任务,调用架构决定模型能否接触到正确信息,数据层定义决定模型判断的质量上限。三个维度缺一不可,但在不同阶段的主导因素不同。

3. 配置外部化:可维护性架构设计的核心范式

评估管线的「配置外部化 + 动态组装」设计,是整个系统中最具可推广价值的工程实践之一。面对「多语种 × 多业务线 × 多种质检标准」的组合爆炸,传统的解法是为每个组合维护独立的 Prompt 或规则集。但这种做法在规模增长时会遇到两个相互强化的恶性循环:规则维护成本随组合数增长而攀升;每次规则变更都必须在多个独立维护点同步更新 。

滴滴的设计哲学是把「变化点」从代码和 Prompt 中完全抽离出来,沉淀到外部配置文件。每次 LLM 调用时,系统根据当前工单的语种和业务线动态拼装出完整 Prompt,新增一种语言或业务线只需添加对应的上下文块 。

这一设计的工程价值在于:它将「业务规则」与「执行引擎」解耦,使系统能够快速响应业务变化而不需要修改代码。在 LLM 应用落地的企业中,这是一个普遍性痛点——业务侧希望快速调整质检标准,但技术侧担心每次调整都需要重新写 Prompt、做回归测试。配置外部化让业务侧可以独立调整规则,技术侧只需确保拼装引擎的正确性。

4. VOC 管线的两阶段随机性控制

VOC 管线采用了独特的两阶段设计:第一阶段由 LLM 并行提取结构化字段,第二阶段通过 embedding 相似度和统计排序做语义聚类。这一设计的精妙之处在于它对随机性的精确控制。

第一阶段引入 LLM 是必要的,因为从非结构化对话中提取结构化信息本身就是语义理解任务,LLM 在这个环节具有不可替代的优势。各工单之间无依赖关系,天然支持并行处理,吞吐量可线性扩展 。

第二阶段刻意不使用 LLM 做判断,而是依赖 embedding 相似度和统计排序这类确定性计算。原因在于:如果聚类本身也依赖 LLM,那么整个 VOC 管线的输出就会有两处随机性来源——提取的随机性和聚类的随机性——两种随机性叠加会导致结果难以复现。而「可追溯性」和「可复现」是滴滴质检系统的核心承诺 。

这一两阶段设计体现了 LLM 应用中一个重要的架构原则:当一个任务可以用确定性算法(embedding 相似度、统计排序)完成时,应该优先使用确定性算法,只在确实需要语义理解的地方引入 LLM。这样可以最大限度地保留系统的可复现性和可追溯性。

实践启示

1. 在分类任务上,投资「信息隔离架构」优先于「Prompt 优化」

当企业将 LLM 应用于分类任务时,初期往往会投入大量时间反复优化 Prompt 措辞,期待准确率的提升。但滴滴的实践表明,对于意图分类这类任务,调用架构的优化回报远高于 Prompt 优化。具体做法是:精确控制每次 LLM 调用中模型能看到的输入范围,让它在每个判断环节只接触到与当前任务直接相关的最小必要信息 。

实施路径:首先梳理分类任务的完整判断链路,识别模型在每个环节实际需要什么信息;然后设计「分步调用」架构,每步只向模型传递必要信息;最后在每个调用节点验证信息隔离是否带来准确率提升。这比在单次调用中反复改 Prompt 措辞更接近问题的本质。

2. 将标签和规则的定义质量视为数据基础设施,而非临时性数据整理

滴滴将 CR 标签定义的增强称为「数据驱动的标签定义增强」,这一定位很重要——它不是一次性数据清洗项目,而是持续投入的数据基础设施工程 。

企业实施建议:建立标签定义质量的标准流程,包括定期审查标签边界清晰度、补充歧义标签的区分性描述、评估新旧标签体系的一致性。这项工作在初期回报不明显,但在后期会成为 LLM 分类能力能否持续提升的分水岭。团队应将「标签定义资产」视为与模型参数同等重要的核心资产。

3. 用确定性逻辑校准 LLM 在简单规则任务上的输出

评估管线在 LLM 输出后追加程序化校验,用确定性逻辑校准语义判断在简单规则任务上的不稳定性 。这一实践的核心启示是:LLM 在简单规则任务上不一定比确定性算法更可靠,企业应避免「什么都用 LLM」的教条。

具体场景包括:错误拼写计数、特定关键词出现次数等规则明确的任务,以及任何「对/错」边界由明确规则决定而非语义理解的任务。在这些场景中,LLM 的语义理解能力反而可能引入不必要的变异性,而确定性算法的结果完全可复现、且计算成本接近零。建议企业在质检流程中明确区分「语义理解任务」和「规则执行任务」,分别使用 LLM 和确定性算法处理。

4. 构建可配置的质检规则体系,应对多业务线组合复杂度

对于多业务线或多语种的企业,评估管线的配置外部化设计提供了一种可复用的可维护性架构。核心做法是:把所有可能变化的质检维度(语种、业务线、质检标准、BI 问题定义)全部写入外部配置文件,每次调用时由系统根据工单属性动态拼装 。

实施建议:从现有的质检规则中提炼「不变结构」和「变化维度」,将变化维度外部化为配置文件并设计动态拼装机制。初期投入较高,但后期新增业务线或调整质检标准时,成本将接近线性而非平方级增长。

5. 在 VOC 聚合分析中,保留 LLM 提取结果用于后续交叉分析

VOC 管线的设计留下了「意图分析结果反哺 VOC 趋势归因」的下一步规划 。这提示了一个重要的数据复用思路:LLM 在单条工单上提取的结构化数据,不仅服务于当次质检,还可以累积成为趋势分析的高质量输入。

企业可以建立「工单结构化提取数据库」,存储每条工单经 LLM 提取的问题类型、情绪标签、根因等字段。这些数据本身具有独立分析价值——无需每次都跑完整 VOC Pipeline,即可针对特定问题做定向分析。初期数据规模较小时价值不明显,但随时间累积会成为极具价值的客服数据资产。