Agentic AI Infrastructure Practice Series 9: Context Engineering¶
Ch04.403 Agentic AI Infrastructure Practice Series 9: Context Engineering¶
📊 Level ⭐⭐ | 5.9KB |
entities/agentic-ai-infrastructure-practice-series-nine-context-engineering.md
Agentic AI Infrastructure Practice Series 9: Context Engineering¶
→ 原文存档
摘要¶
这是 AWS 官方博客"Agentic AI 基础设施实践经验系列"的第九篇,系统性地分析了 Agentic AI 时代上下文管理的范式转变。文章从传统聊天应用的简单上下文模型出发,论证了 Agent 系统中上下文复杂度的指数级增长,并结合 AWS Bedrock AgentCore 和 Strands Agents 展示了从上下文检索、处理到管理的完整框架。核心观点:Context Engineering 不是 RAG 的升级版,而是 Agentic AI 时代独立的技术方法论,需要从架构层面系统性解决上下文窗口限制、成本压力、性能衰减和个性化偏好四大挑战。
核心要点¶
1. 从聊天到 Agent:上下文的质变¶
传统聊天应用的上下文模型极其简单:模型本身无状态,应用层维护对话历史,每次请求携带完整上下文。这是一个"消息队列"模式。
Agent 系统的上下文发生了结构性变化,新增了多个关键模块: - 工具定义(Agent 需要知道自己能调用什么) - 工具调用历史(每次请求参数和返回结果) - 多步推理链 - 任务分解执行过程 - 多 Agent 协作状态
2. 上下文增长的量级¶
文章用一个具体例子说明了增长的量级:一个任务被分解成 10 个子任务,每个子任务需要调用 2 次工具。总上下文增长:
多 Agent 场景下,每个 Agent 持有完整上下文还要协作共享,总量呈倍增关系。
3. 四大核心挑战¶
| 挑战 | 描述 | 影响 |
|---|---|---|
| 上下文窗口物理限制 | 即使超长上下文模型也无法一次加载 500 页 PDF | 功能受限 |
| 成本压力 | 定价与 token 数成正比,高频场景成本累积不可忽视 | 经济不可持续 |
| 性能/准确率隐性下降 | 更长上下文中模型更难聚焦关键信息 | 用户体验劣化 |
| 个性化偏好保存 | 多次访问时如何保存用户偏好并降低冗余 | 架构复杂度 |
4. 性能衰减的隐性陷阱¶
这是文章最具洞察力的观点:当上下文 token 数增长时,成本线性增加,但性能(准确率)可能隐性下降。这不是一个可以用"加大模型"或"扩展窗口"解决的问题——它是一个结构性矛盾,需要在架构层面做优化。
深度分析¶
上下文工程 ≠ RAG 的升级¶
很多人会把 Context Engineering 理解为"更好的 RAG",这是一个根本性的误解。RAG 解决的是"从外部文档中检索相关信息"的问题,它管理的是静态知识。Context Engineering 解决的是"在 Agent 执行过程中管理动态上下文"的问题,它管理的是运行时状态。
两者的区别:
| 维度 | RAG | Context Engineering |
|---|---|---|
| 管理对象 | 外部文档 | 运行时状态 |
| 数据特征 | 静态、结构化 | 动态、多类型、持续增长 |
| 核心操作 | 检索 + 注入 | 选择、压缩、缓存、共享、淘汰 |
| 优化目标 | 相关性 | 成本、延迟、准确率的多目标平衡 |
| 架构位置 | 数据层 | 系统层 |
AWS 的解决方案框架¶
文章结合 Bedrock AgentCore 和 Strands Agents 展示了三层框架:
- 上下文检索与生成:从外部知识源获取相关信息,类似 RAG 但更动态
- 上下文处理:对原始上下文进行压缩、摘要、优先级排序
- 上下文管理:生命周期管理,包括缓存策略、淘汰策略、多 Agent 共享机制
这个框架的核心设计理念是:不是让上下文变得更多,而是让上下文变得更"对"。
对 Agent 架构的启示¶
- 上下文设计应该像数据库 schema 设计一样被认真对待——它是 Agent 系统的核心数据结构
- 监控上下文长度与性能的关系——建立成本/效果的最佳区间,而非盲目扩展
- 多 Agent 系统中的上下文边界设计——过度共享导致耦合,过度隔离导致协作失效
- 优先处理高频场景的上下文优化——而非追求通用解决方案
实践启示¶
- Agent 开发中,上下文管理是核心工程挑战,需要像对待数据库 schema 一样对待上下文设计
- 建立上下文监控指标:token 数、成本、延迟、准确率,找到最优区间
- 多 Agent 系统中,明确每个 Agent 的上下文边界——什么该共享、什么该隔离
- 上下文压缩和摘要不是可选优化,而是 Agent 系统的必要基础设施
- 缓存策略对成本影响巨大——高频重复调用场景应优先实现上下文缓存
- 个性化上下文需要独立管理——不要把它混入任务上下文