快手 RCA Agent：复杂业务场景下排障 Agent 的探索实践¶

Ch04.419 快手 RCA Agent：复杂业务场景下排障 Agent 的探索实践¶

📊 Level ⭐⭐ | 5.3KB | entities/rca-agent-kuaishou-guo-yongliang-qcon-2026.md

原文归档：原文归档

快手主站归因排障 Agent 的生产级实践，覆盖四大挑战（业务理解/告警噪声/不确定性/幻觉）和完整的 Multi-Agent 架构设计。郭勇良（QCon 2026 北京）。

业务排障 Agent 四层解法：业务资产消除上下文代差 + 证据金字塔对抗噪声 + 快照式 Benchmark 衡量不确定性 + 传统算法封装对抗幻觉，Workflow 快思考 + Agent 慢思考分层架构。

问题：传统监控三板斧（Trace/Metrics/Log）在业务排障中有两个断点——(1) 请求正常时 Metrics 无法关联 (2) 未走过的逻辑路径没有 Log

解法：建立"业务资产"层（代码抽象） - 错误码业务语义标注 - Metrics 业务化描述 - 指标拓扑关系 - 开关配置影响地图 - 两种模式：离线沉淀 + 排障中按需生成沉淀为 Skill

问题：告警噪声 >75%，AI 全量处理月 Token 消耗近 100 亿，年化成本几百万

解法：证据金字塔（借鉴循证医学） - 原始信号 → 背景上下文 → 单点观测 → 多元融合证据 → 直接因果推断

问题：优化一个 Case 可能引入其他 Bad Case（单点抖动召回后 Agent 错误建立因果关系）

解法：快照式 Benchmark 体系 - Case 全部来自线上真实异常（非混沌工程模拟） - 监控数据转储保存故障现场 - 评估指标：线索命中率 + 量化评分

关键发现：大模型本质是概率预测器，不擅长数值计算和趋势识别

解法：当确定性要求超过一定程度时，工程化封装成 Tool/Skill - 多模态识别监控截图 → 幻觉严重 - JSON List 时序数据 → Token 消耗高+计算出错 - 孤立森林+规则 → 准确率显著提高，不消耗 Token

层级	内容	策略
稳定层	问题域业务资产、Eval 体系、结构化案例集、人机协作模式	持续积累
易变层	Prompt 描述、工具选型、协议规范	减少投入