Verizon Connect Agentic AI: 10万用户规模的工程实践¶

Ch04.097 Verizon Connect Agentic AI: 10万用户规模的工程实践¶

📊 Level ⭐⭐ | 15.9KB | entities/verizon-connect-agentic-ai-100k-users.md

Verizon Connect Agentic AI: 10万用户规模的工程实践¶

背景：本文档基于 AWS Machine Learning Blog 的 Verizon Connect 案例编写，探讨如何在生产环境中大规模部署 Agentic AI 系统。

核心架构：两层 Agentic 设计¶

Verizon Connect 的 Fleet Management Agentic AI 系统采用两层架构，每层使用 LLM 的不同推理能力：

第一层：异常聚合与优先级排序 - Agent 接收原始异常数据（1.2M 车辆 × 500M 数据点/天） - LLM 自主决定如何聚合异常（按根因、时间相关性、类别相似性） - 自主分配相关性分数（严重程度、重复率、影响范围、可执行性） - 输出 Top 4 最相关洞察进入下一阶段

第二层：Agentic Tool-Based 调查 - 为每个摘要洞察启动独立的 Agent 实例 - Agent 自主决定调用哪些工具、调用顺序、调用次数 - 迭代直到收集足够证据生成数据支持的洞察 - 关键优势：可发现未预料的模式和边缘案例

关键技术决策¶

异常检测：专用代码 vs LLM¶

问题：要求 LLM 直接分析大规模原始表格数据是常见陷阱。

解决方案：使用 AWS Step Functions + Lambda 构建无服务器统计模型执行异常检测，识别"是什么"，让 AI Agent 专注"为什么"和"如何处理"。

AI Agent 执行环境¶

框架：Strands Agents（开源 SDK）
运行时：AWS Lambda（无服务器，按需扩展）
状态管理：Agent 无状态，上下文在分析时按需获取

工具集¶

Agent 可用的工具： - 从 S3 获取预计算的异常 - 从 Amazon Aurora 查询原始数据 - 从 DynamoDB 获取历史洞察 - 将最终洞察写回 S3 - 在 DynamoDB 中跟踪任务状态

大语言模型演进¶

阶段	模型	理由
验证	Claude 4.5 Sonnet	高质量验证逻辑和洞察质量
生产	Claude 4.5 Haiku	更具成本效益
成本优化	Amazon Nova 2 Lite	输入 Token 成本降低 70%，质量保持

关键洞察：工作负载以输入 Token 为主（遥测数据、异常、上下文），因此输入成本优化至关重要。

并发管理¶

使用 Amazon SQS 控制 SQS-to-Lambda 触发器的最大并发： - 平滑 API 请求峰值 - 保持在 Amazon Bedrock 配额内（TPM、RPM） - 可靠交付，无需过度配置

时间窗口计算： - 总窗口：5 小时（3 小时时区差异 + 1 小时异常检测 + 4 小时 Agent 推理） - RPM 1500 时，洞察生成约 1.25 小时

架构图¶

┌─────────────────────────────────────────────────────────────────────┐
│                      Daily Trigger                                   │
└─────────────────────────────────────────────────────────────────────┘
                                  │
                                  ▼
┌─────────────────────────────────────────────────────────────────────┐
│              Anomaly Detection (Step Functions + Lambda)             │
│   - 从原始数据存储提取结构化信息                                      │
│   - 执行计算密集型异常检测                                           │
│   - 写入异常表                                                       │
└─────────────────────────────────────────────────────────────────────┘
                                  │
                                  ▼
┌─────────────────────────────────────────────────────────────────────┐
│              AI Agent Activation (Strands Agents + Lambda)           │
│   ┌──────────────────────────────────────────────────────────────┐  │
│   │ Stage 1: Summary Generation                                   │  │
│   │  - 聚合异常为洞察候选                                         │  │
│   │  - 分配相关性分数                                             │  │
│   │  - 选择 Top 4 洞察                                            │  │
│   └──────────────────────────────────────────────────────────────┘  │
│                                  │                                   │
│                                  ▼                                   │
│   ┌──────────────────────────────────────────────────────────────┐  │
│   │ Stage 2: Detailed Generation                                  │  │
│   │  - 自主工具调用                                                │  │
│   │  - 数据驱动调查                                                │  │
│   │  - 生成最终洞察                                                │  │
│   └──────────────────────────────────────────────────────────────┘  │
└─────────────────────────────────────────────────────────────────────┘
                                  │
                                  ▼
┌─────────────────────────────────────────────────────────────────────┐
│              Insight Delivery (Reveal Application)                  │
└─────────────────────────────────────────────────────────────────────┘

生成效果示例¶

系统生成的运营洞察示例：

安全模式检测：「本周您的车队紧急制动增加 100%。有趣的是，这与紧急加速减少同时发生，提示驾驶员疲劳或交通拥堵加剧。」
运营效率：「车辆 #90000 在发动机运转时间内有 50% 处于怠速状态，显著高于车队平均水平。这代表了不必要的燃油成本。」
车队性能：「日行驶里程下降 59%，但超速事件增加 54%。这表明车辆行驶距离更短但速度更高——建议优化路线。」

深度分析¶

1. 分离数值分析与语义推理的设计哲学¶

Verizon Connect 明确拒绝了「让 LLM 直接处理大规模原始表格数据」的常见陷阱，转而采用专用统计模型负责「是什么」的数值异常检测，AI Agent 专注「为什么」和「如何处理」的语义推理。这种分离反映了 Agentic AI 系统的核心设计原则：LLM 不擅长数值计算，但卓越于因果推理和上下文理解。

这一设计选择背后的工程逻辑是：500M 数据点/天的规模下，即使是最强大的 LLM 也会在 token 消耗和推理质量上遭遇瓶颈。将「数值繁重」的工作卸载给专用代码，让 LLM 只处理聚合后的精简异常集，是实现大规模扩展的关键。

2. 两层推理架构的工程必然性¶

两层架构并非过度设计，而是解决实际工程问题的产物。第一层（聚合与排序）将 1.2M 车辆产生的海量异常压缩为可管理的 Top 4 洞察候选；第二层（Tool-Based 调查）则通过自主探索发现预定义规则永远无法覆盖的边缘模式。

这种架构的优势在于它天然支持并行化：每个 Top 4 洞察由独立 Agent 实例处理，彼此无状态依赖，可水平扩展。这与无服务器 Lambda 的执行模型高度契合。

3. 模型路由的成本优化策略¶

Verizon Connect 的模型演进路径（Claude 4.5 Sonnet → Claude 4.5 Haiku → Amazon Nova 2 Lite）揭示了一个重要的工程现实：对于输入密集型工作负载，输入 token 成本比输出 token 成本更具优化空间。

车队管理场景的输入 token 包含大量遥测数据、异常上下文、历史对比——这些信息量大但结构相对固定。Amazon Nova 2 Lite 将输入成本降低 70% 而质量保持，是典型的输入优化模型路由案例。这一策略的前提是建立了完善的自动化测试套件和质量基准数据集，确保模型切换不影响输出质量。

4. SQS 并发控制：保护下游配额的工程艺术¶

使用 SQS 控制 Lambda 触发器的最大并发是一个精巧的限流设计。在 TPM/RPM 配额约束下，SQS 充当了请求平滑器——即使上游产生突发流量，下游 Bedrock API 的请求速率也被限制在安全范围内。

5 小时时间窗口的拆解（3 小时时区差异 + 1 小时异常检测 + 4 小时 Agent 推理）说明了生产系统的窗口管理思维：每个阶段都有明确的预算，任何阶段的超时都会级联影响最终交付。RPM 1500 下 1.25 小时的洞察生成时间是经过精心计算的，留有充足余量。

5. 未来架构演进方向¶

文章透露的演进路径值得关注：从 AWS Lambda Agent 部署迁移到 Amazon Bedrock AgentCore Runtime，以及采用 Model Context Protocol（MCP）进行工具集成。这意味着当前基于 Strands Agents + Lambda 的无状态设计将逐步被 Bedrock 原生 Agent 能力取代，工具集成也将走向标准化。

实践启示¶

避免 LLM 直接处理原始表格数据：使用专用统计模型或规则引擎进行数值异常检测，让 LLM 专注语义分析。这是 Agentic AI 系统大规模扩展的前提条件。
建立自动化质量保障体系：在模型路由（如 Sonnet → Haiku → Nova 2 Lite）前，必须建立自动化测试套件和黄金基准数据集，确保质量不因成本优化而下降。
利用 SQS 实现弹性限流：通过控制 SQS-to-Lambda 的最大并发，既保护下游 API 配额，又能在不过度配置资源的前提下应对请求峰值。
无状态 Agent 设计是水平扩展的基础：Agent 无状态、上下文按需获取的执行模式，使得系统可以简单地通过增加并发实例来应对更大规模的工作负载。
分阶段部署验证：建议从小型试点开始验证用例和成本效率，再逐步扩展到全企业级部署。这与 AWS 官方倡导的三阶段方法论（试点 → 扩展 → 全企业部署）一致。

Verizon Connect Agentic AI: 10万用户规模的工程实践¶

Ch04.097 Verizon Connect Agentic AI: 10万用户规模的工程实践¶

Verizon Connect Agentic AI: 10万用户规模的工程实践¶

核心架构：两层 Agentic 设计¶

关键技术决策¶

异常检测：专用代码 vs LLM¶

AI Agent 执行环境¶

工具集¶

大语言模型演进¶

并发管理¶

架构图¶

生成效果示例¶

深度分析¶

1. 分离数值分析与语义推理的设计哲学¶

2. 两层推理架构的工程必然性¶

3. 模型路由的成本优化策略¶

4. SQS 并发控制：保护下游配额的工程艺术¶

5. 未来架构演进方向¶

实践启示¶

相关实体¶

相关主题¶