yidian tianxia context engineering agentic ai qcon¶

Ch04.129 yidian tianxia context engineering agentic ai qcon¶

📊 Level ⭐⭐ | 13.8KB | entities/yidian-tianxia-context-engineering-agentic-ai-qcon.md

"yidian tianxia context engineering agentic ai qcon"¶

易点天下 Agentic AI 工程化实践：上下文工程 + 五道防线¶

来源： QCon 2026 全球软件开发大会·北京站 演讲者： 何宇航（易点天下中台研发总监） 主题： 企业级 Agentic AI 的工程化落地：Context Engineering + 安全防御体系

背景命题¶

"如何在一个确定性要求极高的复杂企业架构中，有效驯服 Agent 固有的'幻觉'与'遗忘'，让概率性的智能稳定地跑在确定性的生产系统之上？"

一、底层支撑：多云共生的确定性架构¶

易点天下核心业务覆盖全球 230+ 国家和地区，底层 Cycor 平台采用 Multi-cloud 战略：

无缝接入 AWS、GCP、阿里云、腾讯云、华为云
统一资源调度，实际纳管大量 K8s 集群
跨云、跨地域的统一控制面 战略价值： 规避供应商锁定 + 大模型算力调度的成本/效果/可控性动态平衡。

二、V1 → V2 技术演进¶

V1 问题（低代码线性 Workflow）¶

运行三个月后暴露的问题：

分类器极不稳定：错误率长期维持在 15%，"修复 A 场景却破坏 B 场景"
记忆局限于单次窗口：缺乏跨会话持久化，同一故障在不同会话被反复从零推理
固定编排无法协同：各 Agent 各自为战，无法处理跨域链路问题

V2 方案：Agent Loop + Context Engineering¶

"从'怎么措辞（Prompt）'彻底切换到'每一步该给什么信息（Context）'"

单轮对话内最多 15 轮工具调用循环
核心问题：信息如何进得来 / 无关信息如何挡得住 / Token 预算如何花在刀刃上

三、六层上下文体系（L1–L6）¶

层级	名称	技术实现	作用
L1	Session Memory	PostgreSQL（session_id 硬隔离）	当前会话毫秒级读写
L2	Short-Term	24小时跨会话窗口	识别短期故障复发
L3	Long-Term	记忆引擎 + 向量存储	高价值对话→客观事实持久化
L4	Knowledge Graph	LLM 抽取三元组 + 图数据库	微服务网络拓扑认知
L5	Experience	高频故障模式聚类 + 经验标签	"遇到 OOM 先查 limits" 类自动注入
L6	Skill	人工验证 → 标准化 Markdown	个人经验 → 团队资产

四、主动注入：Hook 化的主动推送¶

传统"按需自取"模式的根本缺陷：模型不知道自己不知道什么。

三类检索钩子¶

钩子	触发时机	作用
UserMessage 钩子	用户提问进入 Agent Loop 之前	意图过滤 + 关键词/语义双路召回，分层注入 System Prompt
PreToolUse 钩子	写文件/改配置等敏感工具调用之前	按精确资源 ID 匹配历史变更记录与已知风险
ErrorSignal 钩子	检测到 timeout/OOM/ImagePullBackOff 等错误关键字时	自动按 bugs/errors 维度拉取历史解法并分层注入
效果：把"记忆"从被动资料库升级为主动副驾驶——知识在真正需要之前就已到位。

五、Token 预算治理¶

问题¶

一次粗放塞入 3 条知识 × 500 tokens = 约 10% 可用窗口被吞掉，Lost in the Middle 效应放大。

三级内容分层（L0/L1/L2）¶

级别	分辨率	Token 数	注入条件
L0 Abstract	一句话摘要	~100	相关度 score ≤ 0.8
L1 Overview	详细要点	~300	相关度 score > 0.8
L2 Full	完整 Markdown	全量	用户/Agent 主动 Read 时

动态注入策略¶

短会话直通：整段会话在预算内 → 零压缩，零信息损失
长会话采样：超预算 → 优先截断单条 assistantText（不整段丢弃问答对），保住推理链完整性
硬预算 + 软降级：UserMessage 注入 3 秒超时、PreToolUse 注入 100 毫秒 → 超时走降级路径效果：单次注入 Token 消耗下降约 80%，L2 完整内容始终"一键可达"。

六、渐进式工具加载（Deferred Tool Registry）¶

问题：全部 Tool Schema 一次性塞入 Prompt → Token 浪费 + Lost in the Middle → 工具选择错乱方案：

初始态仅激活 list_pods 等核心工具
长尾工具仅在 Prompt 中保留极简描述
模型推理需要时，通过内部 tool_search 按需动态唤醒 效果：
工具调用准确率：70% → 90%
重复性问题处理时间：60 秒 → 5 秒以内

七、压缩续接（PreCompact Hook）¶

当上下文窗口接近阈值时：

将既有对话按"问题—行动—观察—结论"结构化摘要格式压缩
生成 { overview, steps, todos } 三段式会话摘要
下一轮启动时作为 Warm 层（最近 10 次会话摘要，FIFO 淘汰）注入效果：Agent 跨越数小时的多阶段任务，仍能"记得上次做到哪一步、还有哪些 TODO 没闭环"。

八、五道纵深安全防线¶

"AI 是加速器，而不是刹车。加速器必须跑在有护栏的赛道上。" | 层级 | 名称 | 规则 | LLM 参与 | |------|------|------|---------| | 1 | 白名单准入（NamespaceGuard） | kube-system 等核心命名空间在中间件层面直接屏蔽 | ❌ | | 2 | 试执行 + 人工介入（Dry Run + HITL） | LLM 生成指令先空跑校验；敏感操作强制人工审批 | ⚠️ 唯一 LLM 参与验证判断的层级 | | 3 | 资源锁与爆炸半径限制 | 代码硬编码单次操作资源配额，防止级联雪崩 | ❌ | | 4 | 规则校验（不轻信 LLM） | 执行后重新调用系统接口对比实际状态是否符合预期 | ❌ | | 5 | 强制回滚机制 | 所有修改类工具必须附带降级与回滚逻辑 | ❌ | 效果：复杂集群操作误执行率接近零。

九、未来洞察¶

"在 2026 年的 AI Coding 时代，开发者的工作姿势将被彻底重构——'由 AI 负责执行，人负责 Taste（审美与逻辑判断）'。" 真正技术壁垒建立在三件事上： 1. 企业对上下文工程的理解深度 2. 多云架构的掌控力 3. 把组织经验沉淀为可执行 Skill 的能力 当前规模：近百个不同职能 Agent 活跃运行，覆盖营销业务、技术运维、客户服务等多个维度。

深度分析¶

技术架构层面的核心取舍¶

Context Engineering vs Prompt Engineering 的范式转移：这是本次分享最核心的信息。传统 AI 应用开发将精力花在措辞优化上，而易点天下的实践表明，企业级 Agent 的关键在于信息供给策略——在对的时机给对的信息。这不是微调层面的改进，而是架构设计层面的范式转移。L1–L6 的分层体系本质上是将"记忆"解构为不同衰减周期的信息源，每一层都有明确的技术实现和召回逻辑。 确定性系统与概率性智能的融合路径：V1 低代码 Workflow 失败的根本原因在于试图用确定性逻辑驾驭概率性 AI——分类器的 15% 错误率不是模型问题，而是架构问题。V2 的 Agent Loop 允许 15 轮调用循环，本质上是承认 AI 的概率性并为其设计容错机制，通过多道安全防线将不确定性框定在可控范围内。 Hook 机制的设计哲学：UserMessage/PreToolUse/ErrorSignal 三类 Hook 将"被动检索"升级为"主动推送"，解决了"模型不知道自己不知道什么"的根本矛盾。这是工程化落地的关键创新——不是让模型自己决定需要什么，而是在关键决策点强制注入相关上下文。

安全与效率的权衡¶

五道防线的设计体现了深刻的工程哲学：AI 可以加速，但加速必须在护栏内。第二层 Dry Run + HITL（Human-In-The-Loop）是唯一涉及 LLM 验证判断的层级，这意味着团队明确意识到 LLM 本身的不可靠性，并将最终决策权保留给人类。其他四层均为确定性规则，不依赖模型判断。资源锁与爆炸半径限制（第三层）体现了"防御性编程"思想——即使 AI 推理正确，操作本身也可能因并发或资源竞争导致级联失败。第五层强制回滚机制则要求所有修改类工具必须自带降级路径，这是运维领域的基础原则在 AI Agent 时代的重新确认。

Token 治理的艺术¶

三级内容分层（L0/L1/L2）和动态注入策略解决了企业 Agent 的核心痛点——上下文窗口的有限性与知识库丰富性之间的矛盾。"短会话直通、长会话采样、硬预算软降级"的三级机制确保了在极端情况下系统仍有可预测的行为，而不是随机崩溃。渐进式工具加载（Deferred Tool Registry）将工具选择从"全量枚举"变为"按需唤醒"，70%→90% 的准确率提升证明了这个策略的有效性。这背后的洞察是：上下文窗口中的工具描述越多，模型越容易迷失——不是工具描述不够详细，而是干扰信息过多。

实践启示¶

对工程师的建议¶

架构先行，而非调参先行：V1 的失败教训表明，在没有解决架构问题之前，优化 Prompt 或更换模型都是徒劳。L1–L6 的分层体系、Hook 机制、Token 治理都是架构层面的设计，这些问题不解决，模型能力再强也无济于事。
将"记忆"视为一等公民：传统的 AI 应用将知识库视为外部依赖，而易点天下的实践表明，记忆系统的设计质量直接决定了 Agent 的可靠性。Session Memory 的毫秒级读写、Long-Term 的向量存储、Knowledge Graph 的拓扑认知——每一层都有不同的技术选型和性能要求，需要独立设计和优化。
安全防线必须独立于模型能力：五道防线的设计表明，安全不能依赖"AI 做对了"，而要假设"AI 可能做错"。第二层的 Dry Run + HITL 将 LLM 验证限制在最小范围，其他四层均为确定性规则。这意味着在实际项目中，安全架构师和 AI 工程师需要并行工作，而不是让 AI 工程师兼职安全设计。
Token 预算治理是工程化的标志：三级内容分层和动态注入策略的 80% 消耗下降不是调优结果，而是系统化工程设计的产物。在实际项目中，应该从一开始就建立 Token 预算治理体系，而不是在上下文窗口溢出后再打补丁。

对团队的建议¶

个人经验 → 团队资产（Skill 体系）：L6 的核心价值是将个人验证过的经验标准化为可复用的 Skill。这不仅是知识管理问题，更直接影响 Agent 的推理质量。高频故障模式聚类（Experience）和人工验证标准化（Skill）的组合，使得组织知识能够持续积累而不依赖个人。
多云战略的长期价值：Cycor 平台的多云架构不仅是规避供应商锁定的防御性策略，更是大模型算力调度的成本/效果/可控性动态平衡的基础。在实际项目中，多云治理能力往往是企业级 Agent 的核心竞争力之一。
度量指标的设计：分享中提到的关键指标——分类器错误率 15%、工具调用准确率 70%→90%、重复性问题处理时间 60 秒→5 秒、Token 消耗下降 80%——都是可量化、可追踪的工程指标。在实际项目中，应该从第一天就设计好度量体系，而不是事后补充。

对组织的建议¶

AI Agent 的落地需要组织架构匹配：近百个不同职能 Agent 活跃运行的背后，是组织对 AI 能力边界的清晰认知和对安全风险的充分理解。这不是技术团队单独能推动的事情，需要从组织层面建立 AI 治理框架。
"AI 负责执行，人负责 Taste"的新分工：2026 年的 AI Coding 时代，开发者的工作姿势将被重构。这个判断的深层含义是：AI 能力的边际成本趋近于零，而人类的判断力（审美、逻辑、价值选择）将成为稀缺资源。这意味着组织的培训体系、人才评价体系都需要重新设计。

来源：QCon 2026 北京站易点天下何宇航 | 评审：Value 8 × Confidence 7 = 56 | ★★★★ | 推荐入库

上下文管理