agent-engineering-principles-architecture-practice¶

Ch04.435 agent-engineering-principles-architecture-practice¶

📊 Level ⭐⭐ | 4.9KB | entities/agent-engineering-principles-architecture-practice.md

agent-engineering-principles-architecture-practice¶

你不知道的 Agent：原理、架构与工程实践文章内容基于作者个人技术实践与独立思考，旨在分享经验，仅代表个人观点。这篇文章主要讲 Agent 架构里几块最影响工程效果的内容，包括控制流、上下文工程、工具设计、记忆、多 Agent 组织、评测、追踪和安全，最后再用 OpenClaw 的实现把这些设计原则串起来看一遍。整理下来，有几处判断和我原来想的不太一样，更贵的模型带来的提升，很多时候没有想象中那么大，反而 Harness 和验证测试质量对成功率的影响更大，调试 Agent 行为时，也应优先检查工具定义，因为多数工具选择错误都出在描述不准确，另外，评测系统本身的问题，很多时候比 Agent 出问题更难发现，如果一直在 Agent 代码上反复调，效果未必明显，读完这篇，这几个问题应该能有些答案。 Agent Loop 的核心实现逻辑抽象后其实不到 20 行代码：

深度分析¶

Harness 比模型更决定系统稳定性：验收基线、执行边界、反馈信号和回退手段比模型本身更关键。任务清晰度和验证自动化程度决定 Agent 适合区域——目标明确且结果可自动验证的右上角区域最适合 Agent 部署
上下文分层是防 Context Rot 的核心：通过常驻层（身份定义/项目约定）、按需加载（Skills/领域知识）、运行时注入（动态信息）、记忆层（跨会话经验）、系统层（确定性逻辑）的五层架构防上下文稀释。Prompt Caching 让常驻层越稳定，前缀命中率越高
ACI 原则重新定义工具设计：工具应面向 Agent 目标而不是底层 API，调试 Agent 时应优先检查工具定义——大多数工具选择错误的原因出在描述不准确，不在模型能力
记忆系统采用分层混合策略：工作记忆、程序性记忆、情景记忆、语义记忆四级分类，通过 token 阈值触发整合，配合可回退设计避免信息丢失
评测系统的问题比 Agent 出问题更难发现：Pass@k 验证能力边界，Pass^k 保证上线质量；评测系统本身的资源不足、评分器 bug、测试用例脱节与模型退化表现一模一样，需先修评测再改 Agent

实践启示¶

构建 Harness 验证基础设施：优先于模型选型，建立自动化验收基线和执行边界，让对错有机器可执行的判断标准
用五层架构管理上下文风险：常驻层保持短硬可执行，Skills 按需加载只保留索引，完整知识触发时再注入
按 ACI 原则设计工具：面向目标而非 API、边界明确、参数防错、定义里直接给示例，避免工具数量失控
建立 MEMORY.md 加可回退的记忆系统：混合检索（70% 向量 + 30% 关键词），token 阈值触发整合，指针移动不删除原始消息
先建评测体系再优化 Agent：区分 Pass@k（探索能力上限）和 Pass^k（上线回归），按确定性选择评分器（代码 > 模型 > 人工）

agent-engineering-principles-architecture-practice¶

Ch04.435 agent-engineering-principles-architecture-practice¶

agent-engineering-principles-architecture-practice¶

深度分析¶

实践启示¶

相关实体¶