业务 Agent 增强层架构:复用通用 Agent 基座,把业务能力做成可验证增强层¶
Ch09.008 业务 Agent 增强层架构:复用通用 Agent 基座,把业务能力做成可验证增强层¶
📊 Level ⭐⭐ | 27.0KB |
entities/business-agent-augmentation-layer-practitioner-methodology-20260606.md
概述¶
AI 小老六(WeChat MP)2026-06 提出的 业务 Agent 落地方法论——核心论点:不要重复造通用 Agent,而是把通用 Agent 基座(Codex / Claude Code)当现成基座,业务团队精力集中在补"业务能力增强层":业务知识 / 内部工具 / 流程规则 / 权限边界 / 评测集 / 线上观测。文章用 3 张判断表 + 1 张能力分工表 + 1 张 6 步执行协议 + 1 份 YAML 配置范例 给出一线团队可立刻照搬的 MVP 落地路径——核心是"跑裸基座 baseline → 补短板 → MVP 闭环 → 增量评测"三步法。
第一性原理:通用 Agent 已经在做的,团队不要重做¶
通用 Agent 擅长的 vs 团队要补的(6 维能力分工表)¶
| 能力域 | 通用 Agent 已经擅长 | 团队必须补上 |
|---|---|---|
| 任务理解 | 把自然语言目标拆成计划,边执行边修正 | 任务模板 / 验收标准 / 停止条件 / 业务术语 |
| 代码与文件 | 读代码 / 改文件 / 跑测试 / 总结 diff | 仓库规则 / 模块边界 / 测试命令 / 发布约束 |
| 工具调用 | 选工具 / 填参数 / 解析结果 / 继续下一步 | 稳定 schema / 错误码 / 权限 / dry-run / 回滚 |
| 上下文处理 | 在任务中组织信息、压缩执行状态 | 知识库 / 历史案例 / 检索策略 / 记忆写入规则 |
| 人机协作 | 不确定时询问用户、输出执行过程 | 哪些动作必须确认 / 交付格式 / 责任边界 |
| 质量保障 | 完成单次任务 | 评测集 / 回归体系 / 线上指标 / 失败归因 |
关键洞见:业务 Agent 失败的根因 90% 不是模型笨,而是边界混乱——通用 Agent 已经会读代码 / 拆任务 / 调工具 / 根据观察调整路线,团队要补的是它不可能天然知道的东西(业务知识 + 内部工具 + 流程约束)。
一句话总结取舍¶
不要让团队去维护一个"比 Codex 更懂代码、比 Claude Code 更会工具调用"的大系统。更有价值的是让通用 Agent 更懂当前团队,能看到内部系统,并且知道什么时候必须停下来。
立项前判断链:跑裸基座 → 看真实能力 → 决定补什么¶
三步立项方法(强烈推荐)¶
- 跑裸基座 baseline(10-30 个真实 case):工单 / 告警 / 代码修改 / 发布检查 / 配置排查
- 判断短板:如果裸基座已经能做 60% → 围绕 40% 短板做增强;如果裸基座在关键任务完全失效 → 先定位是缺业务背景 / 缺工具 / 缺流程约束 / 还是安全边界不允许
- 决定是否自研:只有少数场景值得自研专项 Agent——强私有化 / 极端时延 / 成本约束 / 通用 Agent 无法接入的封闭运行时 / 必须深度嵌入业务系统的强流程任务 / 合规不允许把任务交给现有基座——除此之外先复用
任务筛选判断表(4 个评估项)¶
| 评估项 | 适合推进 | 暂缓推进 |
|---|---|---|
| 任务边界 | 输入 / 输出 / 停止条件清楚 | 目标无法验收,成功标准靠感觉 |
| 工具可得性 | 关键数据和动作有 API / CLI / MCP / 内部平台 | 只能靠人肉经验,无法结构化调用 |
| 结果验证 | 可用测试 / 日志 / 规则 / 人工标注 / 业务指标判断 | 对错没有可沉淀标准 |
| 风险控制 | 高风险动作可 dry-run / 审批 / 回滚 / 人工确认 | 一次误操作不可恢复 |
| 收益空间 | 高频耗时,增强后能节省明显人力 | 低频一次性任务,维护成本高于收益 |
作者推荐优先选场景:Oncall 排障 / 发布前检查 / 代码迁移 / 灰度回归 / 数据修复辅助——有明确入口 + 证据来源,Agent 不需要凭空发挥。
增强层架构:6 层职责明确分工¶
┌──────────────────────────────────────────────┐
│ 业务入口层:飞书机器人 / Web / CLI / 工单 │
├──────────────────────────────────────────────┤
│ 知识与上下文层:SOP / 历史案例 / 仓库规则 │
├──────────────────────────────────────────────┤
│ 工具能力层:MCP Server / CLI / OpenAPI │
├──────────────────────────────────────────────┤
│ 流程编排层:任务模板 / 审批点 / 人工确认 │
├──────────────────────────────────────────────┤
│ 安全治理层:读写分离 / 最小权限 / dry-run │
├──────────────────────────────────────────────┤
│ 评测观测层:baseline 对比 / 回归集 / trace │
├──────────────────────────────────────────────┤
│ 通用 Agent 基座(Codex/Claude Code) │
└──────────────────────────────────────────────┘
各层建设重点¶
| 层次 | 职责 | 建设重点 |
|---|---|---|
| 业务入口层 | 承接用户任务和人机交互 | 飞书机器人 / Web / CLI / 工单入口 / 命令模板 |
| 知识与上下文层 | 给基座补业务语境 | SOP / 历史案例 / 仓库规则 / 服务画像 / 记忆策略 |
| 工具能力层 | 让 Agent 查得到 / 做得动 | MCP Server / 内部 CLI / OpenAPI / 日志 / CI / 发布 / 配置查询 |
| 流程编排层 | 约束任务推进方式 | 任务模板 / 审批点 / 人工确认 / 失败兜底 / 交付格式 |
| 安全治理层 | 守住权限和变更边界 | 读写分离 / 最小权限 / dry-run / 敏感动作确认 / 回滚 |
| 评测观测层 | 判断增强是否真的有用 | baseline 对比 / 回归集 / trace / 指标 / 失败归因 / 成本统计 |
核心判断:第一版不必做完整平台——选一个真实场景,接入最小知识集和最小工具集,跑通闭环,再决定要不要服务化。
MVP 闭环:6 问清单 + 6 步执行协议¶
MVP 至少要回答的 6 件事¶
- 选哪个基座:明确使用 Codex / Claude Code 或同类 Agent,并记录裸跑结果
- 任务怎么进来:写清输入 / 目标 / 约束 / 输出结构 / 停止条件
- 知识怎么给:先接 SOP / 关键文档 / 历史案例 / 仓库规则
- 工具怎么接:只接 3-5 个高价值工具,优先读操作和低风险动作
- 风险怎么控:写操作 / 权限变更 / 外部通知 / 删除必须人工确认
- 效果怎么评:每次真实任务尽量沉淀成 case,进入回归集
6 步执行协议(Read-Plan-Act-Observe-Gate-Finish)¶
- Read:先读任务输入、业务知识和必要上下文
- Plan:给出短计划,说明需要哪些证据和工具
- Act:调内部工具取证,参数来源必须能在上下文里追到
- Observe:读工具返回,保留支持假设和推翻假设的证据
- Gate:写操作 / 权限 / 通知 / 删除必须请求人工确认
- Finish:交付结论 / 证据 / 置信度 / 仍缺的信息 / 下一步建议
关键:执行循环不要急着自研——团队更该定义的是通用 Agent 执行任务时必须遵守的协议。
配置范例:business_agent_profile YAML¶
business_agent_profile:
profile_name: lark_oncall_helper
base_runtime: codex_or_claude_style_agent
mission: |
结合工单、群聊和服务资料,给出候选根因、证据和后续排查动作
run_rules:
- 优先读取工单上下文、服务 SOP 和近期变更
- 结论必须附带日志、发布、代码、配置或历史案例证据
- 证据不足时明确说明缺口,不把猜测写成结论
context_sources:
- runbook_by_service
- incident_case_library
- repository_owner_map
- release_and_rollback_notes
tool_surface:
mcp_servers:
- log_query
- release_change
- code_search
- config_query
cli_tools:
- test_runner
- deploy_status
control_policy:
max_steps: 12
stop_and_confirm:
- write_operation
- permission_change
- external_notification
final_report: conclusion_with_evidence_and_next_action
evaluation:
compare_to: plain_base_agent
case_suite: oncall_regression_set_v1
release_bar: pass_rate_at_least_90_percent
配置文件的关键:"它要让 Agent 知道边界、证据来源和交付格式,而不是把业务流程写成一堆死板分支"——配置文件不需要复杂,关键是结构化、可机器读、可评测。
知识库:不是资料仓库,是给 Agent 用的判断材料¶
知识库最容易做偏的陷阱¶
把所有文档搬进去,最后检索命中一堆长文,Agent 看似"有上下文",实际仍然找不到能支撑判断的证据。更好的切入点是问题清单——先看 Agent 经常错在哪里,再反推要沉淀什么知识。
5 类 Agent 典型缺口 → 需要沉淀的知识¶
| Agent 的典型缺口 | 需要沉淀的知识 | 示例 |
|---|---|---|
| 不懂业务背景 | 业务术语 / 服务职责 / 上下游依赖 / 核心链路 | 某服务负责什么,依赖哪些 RPC、MQ、DB |
| 不会排查 | SOP / Runbook / 排障步骤 / 常用查询入口 | 错误率升高先看哪些指标 / 日志 / 发布变更 |
| 不懂代码边界 | 模块分层 / owner / 测试命令 / 发布约束 | 某目录归谁维护,改动后跑哪些测试 |
| 不会判断风险 | 权限规则 / 敏感操作清单 / 人工确认点 | 哪些操作只能 dry-run,哪些必须审批 |
| 缺少历史经验 | 历史事故 / 典型 case / 失败复盘 / 常见误判 | 相似告警过去的根因 / 修复方式 / 误判点 |
知识块元数据:不要省¶
| 字段 | 作用 | 示例 |
|---|---|---|
| title | 直接说明这个块能解决什么问题 | "IM 消息发送失败的日志排查步骤" |
| scenario | 限定适用场景 | oncall_diagnosis / code_review / release_check |
| service_or_module | 绑定服务、模块或仓库 | message-service / openapi / client-ios |
| content | 写步骤 / 判断标准 / 注意事项和链接 | 先查错误码,再查 logid,再比对发布变更 |
| evidence_source | 标注来源 | Runbook / 事故复盘 / 代码路径 / 接口文档 |
| owner | 维护责任人 | 服务 owner / 平台 owner / oncall owner |
| freshness | 更新时间和过期策略 | 90 天未确认需复审 |
| confidence | 可信等级 | official / verified_case / draft / deprecated |
关键洞见:没有 owner / 更新时间 / 适用范围和证据来源的知识,迟早会变成噪音。知识库接入也不只有 RAG——稳定且必须遵守的规则适合写进 Workspace Rules;实时数据应该走工具查询;历史工单和事故复盘更适合做案例库;用户偏好和服务习惯可以进入长期记忆,但写入门槛必须高。
工具设计:让 Agent 少猜参数,少猜结果¶
知识 vs 工具的分工¶
知识回答"怎么理解",工具回答"怎么取证"和"怎么执行"——这两类能力要一起做。只有知识没有工具,Agent 会停在建议层;只有工具没有知识,Agent 会拿到一堆数据却不知道怎么判断。
工具设计 3 个验收项¶
| 建设项 | 建议做法 | 验收标准 |
|---|---|---|
| 工具 schema | 参数结构化,返回 success / data / evidence / error_code / next_hint | Agent 能稳定选工具、填参数、判断成败 |
| 权限控制 | 读写分离,高风险动作单独工具并要求确认 | 敏感动作 100% 进入确认或审批 |
| 可观测日志 | 记录 tool_name / args / result / latency / trace_id | 每次任务都能复盘模型调用 / 工具调用和关键证据 |
关键洞见:工具失败也要被当作一等信息记录——权限不足 / 超时 / 参数错误 / 数据源不可用,都不能被 Agent 粗暴吞掉。它们不一定是业务根因,却会影响这次任务的可信度。
评测:增量评测 + baseline 保留¶
核心原则¶
复用通用 Agent 的路线,评测必须看增量——增强版跑得不错,不代表知识库 / 工具 / 流程都有效;也可能裸基座本来就能做到。保留 baseline,才知道投入有没有回报。
评测集字段:不要只放输入和最终答案¶
| 字段 | 说明 |
|---|---|
| case_id | 稳定唯一标识,便于长期追踪 |
| input | 用户真实输入或脱敏后的任务上下文 |
| expected_behavior | 期望 Agent 做什么,而不只是最终答案 |
| required_evidence | 必须引用的日志 / 文档 / 代码 / 指标 / 工具结果 |
| forbidden_behavior | 不能无证据下结论 / 绕过审批 / 误删数据 |
| label | 人工标注结果 / 失败类型 / 优先级和备注 |
作者洞见:Agent 是过程型系统,很多失败发生在中间——所以 expected_behavior 字段比"最终答案"重要得多。
上线门禁 6 项¶
| 门禁项 | 建议标准 |
|---|---|
| 核心评测集通过率 | 关键路径不低于 90%,P0/P1 case 必须全部通过 |
| 相对 baseline 提升 | 完成率 / 证据质量 / 人效有明确提升 |
| 高风险动作确认 | 写操作 / 删除 / 外部通知 / 权限变更确认覆盖率 100% |
| 证据质量 | 结论必须可追溯,无证据结论率控制在 5% 以下 |
| 回归稳定性 | 知识 / 工具 / 流程变更后必须跑回归,失败要归因 |
| 观测完整性 | 每次任务能追到模型调用 / 工具调用 / 耗时 / 错误和最终输出 |
推广节奏:按月推进,不按平台想象推进¶
| 阶段 | 目标 | 交付物 |
|---|---|---|
| 第 1 周 | 选定场景,跑通裸基座 baseline | 基座选型 / 任务协议 / 20-50 条初始 case / baseline 结果 |
| 第 2 周 | 补最小知识库和关键工具 | SOP / 历史案例 / 3-5 个工具 / 结构化输出模板 |
| 第 3 周 | 补流程和可控性 | 人工确认 / 风险动作列表 / trace / 错误处理 / 交付规范 |
| 第 4 周 | 建立 baseline 对比评测 | 评测集 / 对比报告 / 失败归因 / 迭代计划 |
| 第 2 个月 | 小流量试用 | 灰度策略 / 反馈入口 / 成本统计 / 回归流水线 |
| 第 3 个月 | 扩展到更多场景 | 知识库运营机制 / 工具目录 / 权限治理 / 复用模板 |
关键洞见:如果一个场景连 20 条高质量 case 都凑不出来,先别急着做 Agent——没有 case,就没有 baseline;没有 baseline,后面所有优化都会靠体感。
容易踩的坑(7 个反模式)¶
| 坑 | 表现 | 后果 |
|---|---|---|
| 重复造通用 Agent | 团队把时间花在重做推理 / 对话 / 代码操作 / 工具调用框架上 | 迭代速度反而慢 |
| 没有 baseline | 只看增强后的效果,不知道比裸基座好在哪里 | 投入回报不可量化 |
| 把知识写进长 prompt | 短期能跑,长期难更新 / 难评测 / 难定位回归 | 系统变成黑盒 |
| 工具设计太粗 | Agent 要自己猜参数 / 猜结果 / 猜下一步 | 稳定性会很快下降 |
| 忽视流程约束 | 通用 Agent 会做任务,但不天然知道组织里的审批 / 交付 / 责任边界 | 越权 / 越界 |
| 没有评测集 | 优化靠体感,改一次坏一次 | 回归灾难 |
| 过早多 Agent 化 | 多 Agent 会引入协作 / 成本 / 排障复杂度 | 把单闭环没做好的系统复杂化 |
收尾检查清单(9 项)¶
- 已选择通用 Agent 基座,并记录裸 baseline
- 已明确哪些能力由基座负责,哪些能力由团队增强层负责
- 任务边界 / 成功标准 / 停止条件 / 人工确认点已经写清楚
- 业务知识库 / 仓库规则 / 历史案例有维护机制
- 关键工具有清晰 schema / 错误码 / 权限边界 / trace
- 高风险动作已经接入 dry-run / 人工确认 / 回滚机制
- 评测集能比较裸基座 / 知识增强 / 工具增强 / 流程增强的效果
- 上线前能跑回归评测,并能看出每次改动的收益和损失
- 线上有任务级 trace / 工具调用日志 / 成本指标 / 失败归因
如果这些都还没有,先别急着谈平台化——把第一个真实场景跑通,把失败样本沉淀下来,把评测闭环做实。业务 Agent 的工程价值,往往就是从这些看起来不酷、但能长期工作的东西里长出来的。
与现有 Wiki 的关系¶
与 Agent Harness 工程的呼应¶
Agent Harness 架构设计 + Agent Harness Engineering Survey ETCLOVG 提供了 Harness 的 学术框架(Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance)——本文提供了 业务团队的 MVP 落地路径,两者互补。Harness 框架是"通用 Agent 的 execution layer";业务增强层是"团队给通用 Agent 补的 domain layer"。
与其他企业级 Agent 实践的呼应¶
- AgentScope Builder 企业自进化 = 阿里云 Harness 平台化(重平台路径)
- 阿里云 EventHouse 上下文构建 = 知识与上下文层的 DIKW 框架
- 本文 = 业务团队"复用基座 + 补增强层"的轻量路径(平台 vs 增强层 是两种不同的工程取舍)
与评估 / 知识管理¶
- AgentEval YAML 评测框架 = 技术评测框架(多 Agent 适配器 / pass@k + pass^k)
- 本文的评测集 = 业务评测集(带 required_evidence / forbidden_behavior / label 字段)——比纯技术评测更面向业务闭环
与失败模式¶
- Agent Reliability: Context Drift & Tool Calling Hallucination 提供了技术层的失败分析
- 本文的 7 个反模式 = 业务层的失败模式(无 baseline / 长 prompt 知识 / 过早多 Agent 化等)
与"Agent = Model + Harness"公式¶
Agent Harness 12 组件 7 决策 提出 Agent = Model + Harness——本文是这公式在企业落地时的工程展开:通用 Agent(Model + 基础 Harness)+ 业务增强层(业务能力)。
深度分析¶
1. "增强层"范式的本质:是工程分工而非模型创新¶
本文最核心的洞察并非具体技术方案,而是一种工程分工哲学——将"通用智能"与"业务约束"解耦,让通用 Agent 承担推理与执行,业务层承担边界与证据。这种分工的深层逻辑是:通用模型(Codex/Claude Code)的进化速度远快于任何垂直团队自研 Agent 的速度,业务团队选择复用基座而非自研,本质上是搭上了通用模型进化的顺风车。
2. 评测增量思想的方法论价值:对抗组织惯性¶
文章坚持"保留 baseline 才知投入回报",这在企业落地中常常被忽视。多数团队在引入 AI Agent 后,会将主观体验当作客观依据——"感觉好用了"就认为成功。但没有 baseline 对比,任何增强投入都是黑盒。本文将"增量评测"从技术要求上升为方法论,对于防止团队在自我感动中持续投入资源具有重要的刹车作用。
3. 6 层架构的深层逻辑:信息流动的单向性¶
业务增强层架构的核心约束是信息单向流动——增强层向通用 Agent 提供上下文和工具,但不接管执行。这意味着通用 Agent 始终是决策中心,增强层是辅助支撑。这一约束的价值在于:即使增强层出错,执行层面的问题根源也容易被追溯;若让增强层接管执行循环,则工具失效和流程失控的风险会相互叠加。
4. 知识库建设的问题驱动原则:对抗"文档囤积症"¶
文章提出"先看 Agent 经常错在哪里,再反推要沉淀什么知识",这是对传统知识库建设范式的根本性颠覆。多数企业在推进 AI 时,第一反应是"先把知识库建好"——将所有文档上传,期待 AI 自己学会。但文档的堆积不等于知识的可用。本文的核心贡献在于:将知识库建设从"仓库思维"转变为"诊断思维",用 Agent 的失败案例反向驱动知识沉淀,这既避免了无效的知识囤积,也让知识库具备了可量化的 ROI。
5. 工具失败作为一等信息:对可观测性设计的深层启示¶
文章强调"工具失败也要被当作一等信息记录",这对于传统可观测性设计提出了挑战。传统监控系统倾向于将错误当作需要消除的异常,但工具调用失败(如权限不足、超时、数据源不可用)对于判断 Agent 任务可信度至关重要。将失败记录从"噪音"重新定义为"信号",是业务 Agent 可观测性设计的核心转变。
6. 时间节奏的工程哲学:MVP 而非平台¶
文章坚持"按月推进,不按平台想象推进",这直接回应了企业 AI 项目中最大的浪费模式——在尚未验证单一场景价值时就投入平台化建设。这种节奏控制的深层逻辑是:业务 Agent 的价值来自场景闭环的积累,而非架构的统一性。平台化是价值验证后的自然延伸,而非前提假设。
实践启示¶
对业务团队¶
- 不要重造基座:把 Codex / Claude Code 当现成基座,精力集中在补 6 层增强
- 裸跑 baseline 优先:没有 baseline 就没有 ROI 量化
- 20 条 case 起步:凑不出 20 条高质量 case = 场景不成熟 = 暂缓
- 3-5 个工具起步:不要一次性接入所有内部系统
- 写操作永远要确认:写 / 删 / 通知 / 权限变更 100% 走 Gate
- 评测集比答案重要:记录 expected_behavior + required_evidence + forbidden_behavior,比记录最终答案有效 10 倍
对 AI Agent 平台建设¶
- 平台 vs 增强层是两种路径:AgentScope / EventHouse 走平台化,业务增强层走轻量复用——根据团队规模 / 资源 / 时间窗口选择
- 6 维能力分工是普适框架:任何业务 Agent 落地都可以套这 6 维检查
对 Agent 厂商¶
- 通用 Agent 的护城河在工具可接入性 + 评测工具链 + 安全治理——业务团队愿意复用基座是因为基座这三层做得好
- 业务增强层 = Agent 厂商的 toB 机会:帮业务团队把 6 层增强做实,而不是卖一个"通用 Agent + 平台"