跳转至

业务 Agent 增强层架构:复用通用 Agent 基座,把业务能力做成可验证增强层

Ch09.008 业务 Agent 增强层架构:复用通用 Agent 基座,把业务能力做成可验证增强层

📊 Level ⭐⭐ | 27.0KB | entities/business-agent-augmentation-layer-practitioner-methodology-20260606.md

概述

AI 小老六(WeChat MP)2026-06 提出的 业务 Agent 落地方法论——核心论点:不要重复造通用 Agent,而是把通用 Agent 基座(Codex / Claude Code)当现成基座,业务团队精力集中在补"业务能力增强层":业务知识 / 内部工具 / 流程规则 / 权限边界 / 评测集 / 线上观测。文章用 3 张判断表 + 1 张能力分工表 + 1 张 6 步执行协议 + 1 份 YAML 配置范例 给出一线团队可立刻照搬的 MVP 落地路径——核心是"跑裸基座 baseline → 补短板 → MVP 闭环 → 增量评测"三步法。

第一性原理:通用 Agent 已经在做的,团队不要重做

通用 Agent 擅长的 vs 团队要补的(6 维能力分工表)

能力域 通用 Agent 已经擅长 团队必须补上
任务理解 把自然语言目标拆成计划,边执行边修正 任务模板 / 验收标准 / 停止条件 / 业务术语
代码与文件 读代码 / 改文件 / 跑测试 / 总结 diff 仓库规则 / 模块边界 / 测试命令 / 发布约束
工具调用 选工具 / 填参数 / 解析结果 / 继续下一步 稳定 schema / 错误码 / 权限 / dry-run / 回滚
上下文处理 在任务中组织信息、压缩执行状态 知识库 / 历史案例 / 检索策略 / 记忆写入规则
人机协作 不确定时询问用户、输出执行过程 哪些动作必须确认 / 交付格式 / 责任边界
质量保障 完成单次任务 评测集 / 回归体系 / 线上指标 / 失败归因

关键洞见:业务 Agent 失败的根因 90% 不是模型笨,而是边界混乱——通用 Agent 已经会读代码 / 拆任务 / 调工具 / 根据观察调整路线,团队要补的是它不可能天然知道的东西(业务知识 + 内部工具 + 流程约束)。

一句话总结取舍

不要让团队去维护一个"比 Codex 更懂代码、比 Claude Code 更会工具调用"的大系统。更有价值的是让通用 Agent 更懂当前团队,能看到内部系统,并且知道什么时候必须停下来。

立项前判断链:跑裸基座 → 看真实能力 → 决定补什么

三步立项方法(强烈推荐)

  1. 跑裸基座 baseline(10-30 个真实 case):工单 / 告警 / 代码修改 / 发布检查 / 配置排查
  2. 判断短板:如果裸基座已经能做 60% → 围绕 40% 短板做增强;如果裸基座在关键任务完全失效 → 先定位是缺业务背景 / 缺工具 / 缺流程约束 / 还是安全边界不允许
  3. 决定是否自研:只有少数场景值得自研专项 Agent——强私有化 / 极端时延 / 成本约束 / 通用 Agent 无法接入的封闭运行时 / 必须深度嵌入业务系统的强流程任务 / 合规不允许把任务交给现有基座——除此之外先复用

任务筛选判断表(4 个评估项)

评估项 适合推进 暂缓推进
任务边界 输入 / 输出 / 停止条件清楚 目标无法验收,成功标准靠感觉
工具可得性 关键数据和动作有 API / CLI / MCP / 内部平台 只能靠人肉经验,无法结构化调用
结果验证 可用测试 / 日志 / 规则 / 人工标注 / 业务指标判断 对错没有可沉淀标准
风险控制 高风险动作可 dry-run / 审批 / 回滚 / 人工确认 一次误操作不可恢复
收益空间 高频耗时,增强后能节省明显人力 低频一次性任务,维护成本高于收益

作者推荐优先选场景:Oncall 排障 / 发布前检查 / 代码迁移 / 灰度回归 / 数据修复辅助——有明确入口 + 证据来源,Agent 不需要凭空发挥。

增强层架构:6 层职责明确分工

┌──────────────────────────────────────────────┐
│ 业务入口层:飞书机器人 / Web / CLI / 工单     │
├──────────────────────────────────────────────┤
│ 知识与上下文层:SOP / 历史案例 / 仓库规则     │
├──────────────────────────────────────────────┤
│ 工具能力层:MCP Server / CLI / OpenAPI        │
├──────────────────────────────────────────────┤
│ 流程编排层:任务模板 / 审批点 / 人工确认      │
├──────────────────────────────────────────────┤
│ 安全治理层:读写分离 / 最小权限 / dry-run     │
├──────────────────────────────────────────────┤
│ 评测观测层:baseline 对比 / 回归集 / trace     │
├──────────────────────────────────────────────┤
│       通用 Agent 基座(Codex/Claude Code)   │
└──────────────────────────────────────────────┘

各层建设重点

层次 职责 建设重点
业务入口层 承接用户任务和人机交互 飞书机器人 / Web / CLI / 工单入口 / 命令模板
知识与上下文层 给基座补业务语境 SOP / 历史案例 / 仓库规则 / 服务画像 / 记忆策略
工具能力层 让 Agent 查得到 / 做得动 MCP Server / 内部 CLI / OpenAPI / 日志 / CI / 发布 / 配置查询
流程编排层 约束任务推进方式 任务模板 / 审批点 / 人工确认 / 失败兜底 / 交付格式
安全治理层 守住权限和变更边界 读写分离 / 最小权限 / dry-run / 敏感动作确认 / 回滚
评测观测层 判断增强是否真的有用 baseline 对比 / 回归集 / trace / 指标 / 失败归因 / 成本统计

核心判断:第一版不必做完整平台——选一个真实场景,接入最小知识集和最小工具集,跑通闭环,再决定要不要服务化。

MVP 闭环:6 问清单 + 6 步执行协议

MVP 至少要回答的 6 件事

  1. 选哪个基座:明确使用 Codex / Claude Code 或同类 Agent,并记录裸跑结果
  2. 任务怎么进来:写清输入 / 目标 / 约束 / 输出结构 / 停止条件
  3. 知识怎么给:先接 SOP / 关键文档 / 历史案例 / 仓库规则
  4. 工具怎么接:只接 3-5 个高价值工具,优先读操作和低风险动作
  5. 风险怎么控:写操作 / 权限变更 / 外部通知 / 删除必须人工确认
  6. 效果怎么评:每次真实任务尽量沉淀成 case,进入回归集

6 步执行协议(Read-Plan-Act-Observe-Gate-Finish)

  1. Read:先读任务输入、业务知识和必要上下文
  2. Plan:给出短计划,说明需要哪些证据和工具
  3. Act:调内部工具取证,参数来源必须能在上下文里追到
  4. Observe:读工具返回,保留支持假设和推翻假设的证据
  5. Gate写操作 / 权限 / 通知 / 删除必须请求人工确认
  6. Finish:交付结论 / 证据 / 置信度 / 仍缺的信息 / 下一步建议

关键:执行循环不要急着自研——团队更该定义的是通用 Agent 执行任务时必须遵守的协议

配置范例:business_agent_profile YAML

business_agent_profile:
  profile_name: lark_oncall_helper
  base_runtime: codex_or_claude_style_agent
  mission: |
    结合工单、群聊和服务资料,给出候选根因、证据和后续排查动作
  run_rules:
    - 优先读取工单上下文、服务 SOP 和近期变更
    - 结论必须附带日志、发布、代码、配置或历史案例证据
    - 证据不足时明确说明缺口,不把猜测写成结论
  context_sources:
    - runbook_by_service
    - incident_case_library
    - repository_owner_map
    - release_and_rollback_notes
  tool_surface:
    mcp_servers:
      - log_query
      - release_change
      - code_search
      - config_query
    cli_tools:
      - test_runner
      - deploy_status
  control_policy:
    max_steps: 12
    stop_and_confirm:
      - write_operation
      - permission_change
      - external_notification
    final_report: conclusion_with_evidence_and_next_action
  evaluation:
    compare_to: plain_base_agent
    case_suite: oncall_regression_set_v1
    release_bar: pass_rate_at_least_90_percent

配置文件的关键:"它要让 Agent 知道边界、证据来源和交付格式,而不是把业务流程写成一堆死板分支"——配置文件不需要复杂,关键是结构化、可机器读、可评测。

知识库:不是资料仓库,是给 Agent 用的判断材料

知识库最容易做偏的陷阱

把所有文档搬进去,最后检索命中一堆长文,Agent 看似"有上下文",实际仍然找不到能支撑判断的证据更好的切入点是问题清单——先看 Agent 经常错在哪里,再反推要沉淀什么知识。

5 类 Agent 典型缺口 → 需要沉淀的知识

Agent 的典型缺口 需要沉淀的知识 示例
不懂业务背景 业务术语 / 服务职责 / 上下游依赖 / 核心链路 某服务负责什么,依赖哪些 RPC、MQ、DB
不会排查 SOP / Runbook / 排障步骤 / 常用查询入口 错误率升高先看哪些指标 / 日志 / 发布变更
不懂代码边界 模块分层 / owner / 测试命令 / 发布约束 某目录归谁维护,改动后跑哪些测试
不会判断风险 权限规则 / 敏感操作清单 / 人工确认点 哪些操作只能 dry-run,哪些必须审批
缺少历史经验 历史事故 / 典型 case / 失败复盘 / 常见误判 相似告警过去的根因 / 修复方式 / 误判点

知识块元数据:不要省

字段 作用 示例
title 直接说明这个块能解决什么问题 "IM 消息发送失败的日志排查步骤"
scenario 限定适用场景 oncall_diagnosis / code_review / release_check
service_or_module 绑定服务、模块或仓库 message-service / openapi / client-ios
content 写步骤 / 判断标准 / 注意事项和链接 先查错误码,再查 logid,再比对发布变更
evidence_source 标注来源 Runbook / 事故复盘 / 代码路径 / 接口文档
owner 维护责任人 服务 owner / 平台 owner / oncall owner
freshness 更新时间和过期策略 90 天未确认需复审
confidence 可信等级 official / verified_case / draft / deprecated

关键洞见没有 owner / 更新时间 / 适用范围和证据来源的知识,迟早会变成噪音。知识库接入也不只有 RAG——稳定且必须遵守的规则适合写进 Workspace Rules;实时数据应该走工具查询;历史工单和事故复盘更适合做案例库;用户偏好和服务习惯可以进入长期记忆,但写入门槛必须高

工具设计:让 Agent 少猜参数,少猜结果

知识 vs 工具的分工

知识回答"怎么理解",工具回答"怎么取证"和"怎么执行"——这两类能力要一起做。只有知识没有工具,Agent 会停在建议层;只有工具没有知识,Agent 会拿到一堆数据却不知道怎么判断

工具设计 3 个验收项

建设项 建议做法 验收标准
工具 schema 参数结构化,返回 success / data / evidence / error_code / next_hint Agent 能稳定选工具、填参数、判断成败
权限控制 读写分离,高风险动作单独工具并要求确认 敏感动作 100% 进入确认或审批
可观测日志 记录 tool_name / args / result / latency / trace_id 每次任务都能复盘模型调用 / 工具调用和关键证据

关键洞见工具失败也要被当作一等信息记录——权限不足 / 超时 / 参数错误 / 数据源不可用,都不能被 Agent 粗暴吞掉。它们不一定是业务根因,却会影响这次任务的可信度。

评测:增量评测 + baseline 保留

核心原则

复用通用 Agent 的路线,评测必须看增量——增强版跑得不错,不代表知识库 / 工具 / 流程都有效;也可能裸基座本来就能做到保留 baseline,才知道投入有没有回报

评测集字段:不要只放输入和最终答案

字段 说明
case_id 稳定唯一标识,便于长期追踪
input 用户真实输入或脱敏后的任务上下文
expected_behavior 期望 Agent 做什么,而不只是最终答案
required_evidence 必须引用的日志 / 文档 / 代码 / 指标 / 工具结果
forbidden_behavior 不能无证据下结论 / 绕过审批 / 误删数据
label 人工标注结果 / 失败类型 / 优先级和备注

作者洞见Agent 是过程型系统,很多失败发生在中间——所以 expected_behavior 字段比"最终答案"重要得多。

上线门禁 6 项

门禁项 建议标准
核心评测集通过率 关键路径不低于 90%,P0/P1 case 必须全部通过
相对 baseline 提升 完成率 / 证据质量 / 人效有明确提升
高风险动作确认 写操作 / 删除 / 外部通知 / 权限变更确认覆盖率 100%
证据质量 结论必须可追溯,无证据结论率控制在 5% 以下
回归稳定性 知识 / 工具 / 流程变更后必须跑回归,失败要归因
观测完整性 每次任务能追到模型调用 / 工具调用 / 耗时 / 错误和最终输出

推广节奏:按月推进,不按平台想象推进

阶段 目标 交付物
第 1 周 选定场景,跑通裸基座 baseline 基座选型 / 任务协议 / 20-50 条初始 case / baseline 结果
第 2 周 补最小知识库和关键工具 SOP / 历史案例 / 3-5 个工具 / 结构化输出模板
第 3 周 补流程和可控性 人工确认 / 风险动作列表 / trace / 错误处理 / 交付规范
第 4 周 建立 baseline 对比评测 评测集 / 对比报告 / 失败归因 / 迭代计划
第 2 个月 小流量试用 灰度策略 / 反馈入口 / 成本统计 / 回归流水线
第 3 个月 扩展到更多场景 知识库运营机制 / 工具目录 / 权限治理 / 复用模板

关键洞见如果一个场景连 20 条高质量 case 都凑不出来,先别急着做 Agent——没有 case,就没有 baseline;没有 baseline,后面所有优化都会靠体感。

容易踩的坑(7 个反模式)

表现 后果
重复造通用 Agent 团队把时间花在重做推理 / 对话 / 代码操作 / 工具调用框架上 迭代速度反而慢
没有 baseline 只看增强后的效果,不知道比裸基座好在哪里 投入回报不可量化
把知识写进长 prompt 短期能跑,长期难更新 / 难评测 / 难定位回归 系统变成黑盒
工具设计太粗 Agent 要自己猜参数 / 猜结果 / 猜下一步 稳定性会很快下降
忽视流程约束 通用 Agent 会做任务,但不天然知道组织里的审批 / 交付 / 责任边界 越权 / 越界
没有评测集 优化靠体感,改一次坏一次 回归灾难
过早多 Agent 化 多 Agent 会引入协作 / 成本 / 排障复杂度 把单闭环没做好的系统复杂化

收尾检查清单(9 项)

  • 已选择通用 Agent 基座,并记录裸 baseline
  • 已明确哪些能力由基座负责,哪些能力由团队增强层负责
  • 任务边界 / 成功标准 / 停止条件 / 人工确认点已经写清楚
  • 业务知识库 / 仓库规则 / 历史案例有维护机制
  • 关键工具有清晰 schema / 错误码 / 权限边界 / trace
  • 高风险动作已经接入 dry-run / 人工确认 / 回滚机制
  • 评测集能比较裸基座 / 知识增强 / 工具增强 / 流程增强的效果
  • 上线前能跑回归评测,并能看出每次改动的收益和损失
  • 线上有任务级 trace / 工具调用日志 / 成本指标 / 失败归因

如果这些都还没有,先别急着谈平台化——把第一个真实场景跑通,把失败样本沉淀下来,把评测闭环做实。业务 Agent 的工程价值,往往就是从这些看起来不酷、但能长期工作的东西里长出来的。

与现有 Wiki 的关系

与 Agent Harness 工程的呼应

Agent Harness 架构设计 + Agent Harness Engineering Survey ETCLOVG 提供了 Harness 的 学术框架(Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance)——本文提供了 业务团队的 MVP 落地路径,两者互补。Harness 框架是"通用 Agent 的 execution layer";业务增强层是"团队给通用 Agent 补的 domain layer"。

与其他企业级 Agent 实践的呼应

与评估 / 知识管理

  • AgentEval YAML 评测框架 = 技术评测框架(多 Agent 适配器 / pass@k + pass^k)
  • 本文的评测集 = 业务评测集(带 required_evidence / forbidden_behavior / label 字段)——比纯技术评测更面向业务闭环

与失败模式

与"Agent = Model + Harness"公式

Agent Harness 12 组件 7 决策 提出 Agent = Model + Harness——本文是这公式在企业落地时的工程展开:通用 Agent(Model + 基础 Harness)+ 业务增强层(业务能力)

深度分析

1. "增强层"范式的本质:是工程分工而非模型创新

本文最核心的洞察并非具体技术方案,而是一种工程分工哲学——将"通用智能"与"业务约束"解耦,让通用 Agent 承担推理与执行,业务层承担边界与证据。这种分工的深层逻辑是:通用模型(Codex/Claude Code)的进化速度远快于任何垂直团队自研 Agent 的速度,业务团队选择复用基座而非自研,本质上是搭上了通用模型进化的顺风车

2. 评测增量思想的方法论价值:对抗组织惯性

文章坚持"保留 baseline 才知投入回报",这在企业落地中常常被忽视。多数团队在引入 AI Agent 后,会将主观体验当作客观依据——"感觉好用了"就认为成功。但没有 baseline 对比,任何增强投入都是黑盒。本文将"增量评测"从技术要求上升为方法论,对于防止团队在自我感动中持续投入资源具有重要的刹车作用。

3. 6 层架构的深层逻辑:信息流动的单向性

业务增强层架构的核心约束是信息单向流动——增强层向通用 Agent 提供上下文和工具,但不接管执行。这意味着通用 Agent 始终是决策中心,增强层是辅助支撑。这一约束的价值在于:即使增强层出错,执行层面的问题根源也容易被追溯;若让增强层接管执行循环,则工具失效和流程失控的风险会相互叠加。

4. 知识库建设的问题驱动原则:对抗"文档囤积症"

文章提出"先看 Agent 经常错在哪里,再反推要沉淀什么知识",这是对传统知识库建设范式的根本性颠覆。多数企业在推进 AI 时,第一反应是"先把知识库建好"——将所有文档上传,期待 AI 自己学会。但文档的堆积不等于知识的可用。本文的核心贡献在于:将知识库建设从"仓库思维"转变为"诊断思维",用 Agent 的失败案例反向驱动知识沉淀,这既避免了无效的知识囤积,也让知识库具备了可量化的 ROI。

5. 工具失败作为一等信息:对可观测性设计的深层启示

文章强调"工具失败也要被当作一等信息记录",这对于传统可观测性设计提出了挑战。传统监控系统倾向于将错误当作需要消除的异常,但工具调用失败(如权限不足、超时、数据源不可用)对于判断 Agent 任务可信度至关重要。将失败记录从"噪音"重新定义为"信号",是业务 Agent 可观测性设计的核心转变。

6. 时间节奏的工程哲学:MVP 而非平台

文章坚持"按月推进,不按平台想象推进",这直接回应了企业 AI 项目中最大的浪费模式——在尚未验证单一场景价值时就投入平台化建设。这种节奏控制的深层逻辑是:业务 Agent 的价值来自场景闭环的积累,而非架构的统一性。平台化是价值验证后的自然延伸,而非前提假设。

实践启示

对业务团队

  • 不要重造基座:把 Codex / Claude Code 当现成基座,精力集中在补 6 层增强
  • 裸跑 baseline 优先:没有 baseline 就没有 ROI 量化
  • 20 条 case 起步:凑不出 20 条高质量 case = 场景不成熟 = 暂缓
  • 3-5 个工具起步:不要一次性接入所有内部系统
  • 写操作永远要确认:写 / 删 / 通知 / 权限变更 100% 走 Gate
  • 评测集比答案重要:记录 expected_behavior + required_evidence + forbidden_behavior,比记录最终答案有效 10 倍

对 AI Agent 平台建设

  • 平台 vs 增强层是两种路径:AgentScope / EventHouse 走平台化,业务增强层走轻量复用——根据团队规模 / 资源 / 时间窗口选择
  • 6 维能力分工是普适框架:任何业务 Agent 落地都可以套这 6 维检查

对 Agent 厂商

  • 通用 Agent 的护城河在工具可接入性 + 评测工具链 + 安全治理——业务团队愿意复用基座是因为基座这三层做得好
  • 业务增强层 = Agent 厂商的 toB 机会:帮业务团队把 6 层增强做实,而不是卖一个"通用 Agent + 平台"

相关实体