yidian tianxia context engineering agentic ai qcon¶
Ch04.129 yidian tianxia context engineering agentic ai qcon¶
📊 Level ⭐⭐ | 13.8KB |
entities/yidian-tianxia-context-engineering-agentic-ai-qcon.md
"yidian tianxia context engineering agentic ai qcon"¶
易点天下 Agentic AI 工程化实践:上下文工程 + 五道防线¶
来源: QCon 2026 全球软件开发大会·北京站 演讲者: 何宇航(易点天下 中台研发总监) 主题: 企业级 Agentic AI 的工程化落地:Context Engineering + 安全防御体系
背景命题¶
"如何在一个确定性要求极高的复杂企业架构中,有效驯服 Agent 固有的'幻觉'与'遗忘',让概率性的智能稳定地跑在确定性的生产系统之上?"
一、底层支撑:多云共生的确定性架构¶
易点天下核心业务覆盖全球 230+ 国家和地区,底层 Cycor 平台采用 Multi-cloud 战略:
- 无缝接入 AWS、GCP、阿里云、腾讯云、华为云
- 统一资源调度,实际纳管大量 K8s 集群
- 跨云、跨地域的统一控制面 战略价值: 规避供应商锁定 + 大模型算力调度的成本/效果/可控性动态平衡。
二、V1 → V2 技术演进¶
V1 问题(低代码线性 Workflow)¶
运行三个月后暴露的问题:
- 分类器极不稳定:错误率长期维持在 15%,"修复 A 场景却破坏 B 场景"
- 记忆局限于单次窗口:缺乏跨会话持久化,同一故障在不同会话被反复从零推理
- 固定编排无法协同:各 Agent 各自为战,无法处理跨域链路问题
V2 方案:Agent Loop + Context Engineering¶
"从'怎么措辞(Prompt)'彻底切换到'每一步该给什么信息(Context)'"
- 单轮对话内最多 15 轮工具调用循环
- 核心问题:信息如何进得来 / 无关信息如何挡得住 / Token 预算如何花在刀刃上
三、六层上下文体系(L1–L6)¶
| 层级 | 名称 | 技术实现 | 作用 |
|---|---|---|---|
| L1 | Session Memory | PostgreSQL(session_id 硬隔离) | 当前会话毫秒级读写 |
| L2 | Short-Term | 24小时跨会话窗口 | 识别短期故障复发 |
| L3 | Long-Term | 记忆引擎 + 向量存储 | 高价值对话→客观事实持久化 |
| L4 | Knowledge Graph | LLM 抽取三元组 + 图数据库 | 微服务网络拓扑认知 |
| L5 | Experience | 高频故障模式聚类 + 经验标签 | "遇到 OOM 先查 limits" 类自动注入 |
| L6 | Skill | 人工验证 → 标准化 Markdown | 个人经验 → 团队资产 |
四、主动注入:Hook 化的主动推送¶
传统"按需自取"模式的根本缺陷:模型不知道自己不知道什么。
三类检索钩子¶
| 钩子 | 触发时机 | 作用 |
|---|---|---|
| UserMessage 钩子 | 用户提问进入 Agent Loop 之前 | 意图过滤 + 关键词/语义双路召回,分层注入 System Prompt |
| PreToolUse 钩子 | 写文件/改配置等敏感工具调用之前 | 按精确资源 ID 匹配历史变更记录与已知风险 |
| ErrorSignal 钩子 | 检测到 timeout/OOM/ImagePullBackOff 等错误关键字时 | 自动按 bugs/errors 维度拉取历史解法并分层注入 |
| 效果:把"记忆"从被动资料库升级为主动副驾驶——知识在真正需要之前就已到位。 |
五、Token 预算治理¶
问题¶
一次粗放塞入 3 条知识 × 500 tokens = 约 10% 可用窗口被吞掉,Lost in the Middle 效应放大。
三级内容分层(L0/L1/L2)¶
| 级别 | 分辨率 | Token 数 | 注入条件 |
|---|---|---|---|
| L0 Abstract | 一句话摘要 | ~100 | 相关度 score ≤ 0.8 |
| L1 Overview | 详细要点 | ~300 | 相关度 score > 0.8 |
| L2 Full | 完整 Markdown | 全量 | 用户/Agent 主动 Read 时 |
动态注入策略¶
- 短会话直通:整段会话在预算内 → 零压缩,零信息损失
- 长会话采样:超预算 → 优先截断单条 assistantText(不整段丢弃问答对),保住推理链完整性
- 硬预算 + 软降级:UserMessage 注入 3 秒超时、PreToolUse 注入 100 毫秒 → 超时走降级路径 效果:单次注入 Token 消耗下降约 80%,L2 完整内容始终"一键可达"。
六、渐进式工具加载(Deferred Tool Registry)¶
问题:全部 Tool Schema 一次性塞入 Prompt → Token 浪费 + Lost in the Middle → 工具选择错乱 方案:
- 初始态仅激活 list_pods 等核心工具
- 长尾工具仅在 Prompt 中保留极简描述
-
模型推理需要时,通过内部 tool_search 按需动态唤醒 效果:
-
工具调用准确率:70% → 90%
- 重复性问题处理时间:60 秒 → 5 秒以内
七、压缩续接(PreCompact Hook)¶
当上下文窗口接近阈值时:
- 将既有对话按"问题—行动—观察—结论"结构化摘要格式压缩
- 生成
{ overview, steps, todos }三段式会话摘要 - 下一轮启动时作为 Warm 层(最近 10 次会话摘要,FIFO 淘汰)注入 效果:Agent 跨越数小时的多阶段任务,仍能"记得上次做到哪一步、还有哪些 TODO 没闭环"。
八、五道纵深安全防线¶
"AI 是加速器,而不是刹车。加速器必须跑在有护栏的赛道上。" | 层级 | 名称 | 规则 | LLM 参与 | |------|------|------|---------| | 1 | 白名单准入(NamespaceGuard) | kube-system 等核心命名空间在中间件层面直接屏蔽 | ❌ | | 2 | 试执行 + 人工介入(Dry Run + HITL) | LLM 生成指令先空跑校验;敏感操作强制人工审批 | ⚠️ 唯一 LLM 参与验证判断的层级 | | 3 | 资源锁与爆炸半径限制 | 代码硬编码单次操作资源配额,防止级联雪崩 | ❌ | | 4 | 规则校验(不轻信 LLM) | 执行后重新调用系统接口对比实际状态是否符合预期 | ❌ | | 5 | 强制回滚机制 | 所有修改类工具必须附带降级与回滚逻辑 | ❌ | 效果:复杂集群操作误执行率接近零。
九、未来洞察¶
"在 2026 年的 AI Coding 时代,开发者的工作姿势将被彻底重构——'由 AI 负责执行,人负责 Taste(审美与逻辑判断)'。" 真正技术壁垒建立在三件事上: 1. 企业对上下文工程的理解深度 2. 多云架构的掌控力 3. 把组织经验沉淀为可执行 Skill 的能力 当前规模:近百个不同职能 Agent 活跃运行,覆盖营销业务、技术运维、客户服务等多个维度。
深度分析¶
技术架构层面的核心取舍¶
Context Engineering vs Prompt Engineering 的范式转移:这是本次分享最核心的信息。传统 AI 应用开发将精力花在措辞优化上,而易点天下的实践表明,企业级 Agent 的关键在于信息供给策略——在对的时机给对的信息。这不是微调层面的改进,而是架构设计层面的范式转移。L1–L6 的分层体系本质上是将"记忆"解构为不同衰减周期的信息源,每一层都有明确的技术实现和召回逻辑。 确定性系统与概率性智能的融合路径:V1 低代码 Workflow 失败的根本原因在于试图用确定性逻辑驾驭概率性 AI——分类器的 15% 错误率不是模型问题,而是架构问题。V2 的 Agent Loop 允许 15 轮调用循环,本质上是承认 AI 的概率性并为其设计容错机制,通过多道安全防线将不确定性框定在可控范围内。 Hook 机制的设计哲学:UserMessage/PreToolUse/ErrorSignal 三类 Hook 将"被动检索"升级为"主动推送",解决了"模型不知道自己不知道什么"的根本矛盾。这是工程化落地的关键创新——不是让模型自己决定需要什么,而是在关键决策点强制注入相关上下文。
安全与效率的权衡¶
五道防线的设计体现了深刻的工程哲学:AI 可以加速,但加速必须在护栏内。第二层 Dry Run + HITL(Human-In-The-Loop)是唯一涉及 LLM 验证判断的层级,这意味着团队明确意识到 LLM 本身的不可靠性,并将最终决策权保留给人类。其他四层均为确定性规则,不依赖模型判断。 资源锁与爆炸半径限制(第三层)体现了"防御性编程"思想——即使 AI 推理正确,操作本身也可能因并发或资源竞争导致级联失败。第五层强制回滚机制则要求所有修改类工具必须自带降级路径,这是运维领域的基础原则在 AI Agent 时代的重新确认。
Token 治理的艺术¶
三级内容分层(L0/L1/L2)和动态注入策略解决了企业 Agent 的核心痛点——上下文窗口的有限性与知识库丰富性之间的矛盾。"短会话直通、长会话采样、硬预算软降级"的三级机制确保了在极端情况下系统仍有可预测的行为,而不是随机崩溃。 渐进式工具加载(Deferred Tool Registry)将工具选择从"全量枚举"变为"按需唤醒",70%→90% 的准确率提升证明了这个策略的有效性。这背后的洞察是:上下文窗口中的工具描述越多,模型越容易迷失——不是工具描述不够详细,而是干扰信息过多。
实践启示¶
对工程师的建议¶
- 架构先行,而非调参先行:V1 的失败教训表明,在没有解决架构问题之前,优化 Prompt 或更换模型都是徒劳。L1–L6 的分层体系、Hook 机制、Token 治理都是架构层面的设计,这些问题不解决,模型能力再强也无济于事。
- 将"记忆"视为一等公民:传统的 AI 应用将知识库视为外部依赖,而易点天下的实践表明,记忆系统的设计质量直接决定了 Agent 的可靠性。Session Memory 的毫秒级读写、Long-Term 的向量存储、Knowledge Graph 的拓扑认知——每一层都有不同的技术选型和性能要求,需要独立设计和优化。
- 安全防线必须独立于模型能力:五道防线的设计表明,安全不能依赖"AI 做对了",而要假设"AI 可能做错"。第二层的 Dry Run + HITL 将 LLM 验证限制在最小范围,其他四层均为确定性规则。这意味着在实际项目中,安全架构师和 AI 工程师需要并行工作,而不是让 AI 工程师兼职安全设计。
- Token 预算治理是工程化的标志:三级内容分层和动态注入策略的 80% 消耗下降不是调优结果,而是系统化工程设计的产物。在实际项目中,应该从一开始就建立 Token 预算治理体系,而不是在上下文窗口溢出后再打补丁。
对团队的建议¶
- 个人经验 → 团队资产(Skill 体系):L6 的核心价值是将个人验证过的经验标准化为可复用的 Skill。这不仅是知识管理问题,更直接影响 Agent 的推理质量。高频故障模式聚类(Experience)和人工验证标准化(Skill)的组合,使得组织知识能够持续积累而不依赖个人。
- 多云战略的长期价值:Cycor 平台的多云架构不仅是规避供应商锁定的防御性策略,更是大模型算力调度的成本/效果/可控性动态平衡的基础。在实际项目中,多云治理能力往往是企业级 Agent 的核心竞争力之一。
- 度量指标的设计:分享中提到的关键指标——分类器错误率 15%、工具调用准确率 70%→90%、重复性问题处理时间 60 秒→5 秒、Token 消耗下降 80%——都是可量化、可追踪的工程指标。在实际项目中,应该从第一天就设计好度量体系,而不是事后补充。
对组织的建议¶
- AI Agent 的落地需要组织架构匹配:近百个不同职能 Agent 活跃运行的背后,是组织对 AI 能力边界的清晰认知和对安全风险的充分理解。这不是技术团队单独能推动的事情,需要从组织层面建立 AI 治理框架。
- "AI 负责执行,人负责 Taste"的新分工:2026 年的 AI Coding 时代,开发者的工作姿势将被重构。这个判断的深层含义是:AI 能力的边际成本趋近于零,而人类的判断力(审美、逻辑、价值选择)将成为稀缺资源。这意味着组织的培训体系、人才评价体系都需要重新设计。
来源:QCon 2026 北京站 易点天下 何宇航 | 评审:Value 8 × Confidence 7 = 56 | ★★★★ | 推荐入库
Related¶
上下文管理
Related¶
相关实体¶
- Yidian Tianxia Context Engineering Agentic Ai
- Vibe Coding Agentic Engineering Convergence Simon Willison
- Karpathy Vibe Coding Agentic Engineering V4
- Agent Memory Architecture Ruofei
- Code As Agent Harness Survey
→ 原文存档
Agentic AI