高德 AI-Native 生产线(第 3 期):7x24 Self-Healing Pipeline + Agent 自进化¶
Ch04.028 高德 AI-Native 生产线(第 3 期):7x24 Self-Healing Pipeline + Agent 自进化¶
📊 Level ⭐⭐ | 31.7KB |
entities/gaode-ai-native-7x24-pipeline-self-healing.md
高德 AI-Native 生产线(第 3 期):7x24 Self-Healing Pipeline + Agent 自进化¶
"当人不再需要全程在场,AI 就可以 7×24 不间断运转,工程师的精力从'操作执行'解放到'决策审查',单人可管控的并行任务数量从 1 跃升至 10 个以上。"
"这不仅是简单地用 AI 替代人工操作,而是从根本上重构生产线的设计哲学——人定义规则和边界,AI 在规则内自主决策和执行。"
高德地图 "超级应用的 AI 原生研发模式" 系列第 3 期——从"AI 辅助写代码"到"AI 自主工业级交付" 的 7×24 永动生产线。6 大核心架构:① AI 全托管(监督 Agent 监控 Coding Agent) ② AI 驱动的 CI/CD(从"规则引擎"→"Agent-aware 体系") ③ 构建验收自闭环(Self-Healing 3 层) ④ 质量效率双飞轮 ⑤ Agent 自进化(Harness 反馈闭环) ⑥ Benchmark 评测体系(结果+结构+过程+控制四维)。
相关实体¶
-
self-harness:上海ai lab 提出的 agent 自我改进 harness 范式 → 原文存档 → 系列:超级应用的 AI 原生研发模式探索(第 3 期)
一句话定位¶
"Human on the Loop" 范式转移 —— 减少 Human in the Loop = 释放 AI 产能。指数级(10x+)效率跃迁 = 时间解放(24h)× 注意力解放(决策审查)的乘法。
系列背景:三道鸿沟 + 三大挑战¶
三道鸿沟(超级应用层面)¶
- 工业级质量成本高 / 无约束生成导致系统熵增失控 / 多方协作中人的沟通仍是最大瓶颈
- "AI 越写越快,系统却越来越乱,整体研发效率并未发生质变"
三大挑战(系列 3 期)¶
- 第 1 期 | AI-Native 端云一体基建:8 大关键能力 + Skill/MCP 协议 + 三维评测闭环
- 第 2 期 | Spec as AIOS 抗熵架构:Spec-Driven Development + 仓库唯一真源 + 三层递进 + 三级分层 + 自动化门禁
- 第 3 期(本篇)| 7×24 pipeline 范式跃迁:AI 全托管 + Self-Healing + Harness 自进化
"底座提供'积木',规范定义'拼法',生产线释放全部产能。"
1. 范式转移:从"人在环"到"人在环上"¶
"限制 AI 生产效率的核心瓶颈不再是模型能力,而是人沟通协作成本和生产线基础设施的 AI 友好度,减少 'Human in the Loop',以实现 'Human on the Loop' 的范式转移。"
传统 CI/CD 流水线为人类工程师设计: - 每一步依赖人工触发 / 审查 / 修复 - Coding Agent 写好代码后只能等待人工 Review - 构建失败后只能等待人工诊断 - 测试不通过只能等待人工修复 - 人的工作时间和响应速度,成了 AI 产能释放的天花板
AI-Native 生产线的目标: - 7×24 小时全托管 - 研发平台的每一个环节——从代码提交到构建、测试、部署、发布——全面 Agent 化 - 让 AI 能够自主驱动、自主决策、自主修复,实现无人值守的端到端交付闭环
2. AI 全托管:从"人盯 AI"到"AI 盯 AI"¶
核心转变¶
"全托管的核心转变,是监控主体的切换——不再由人来监视和推动 AI,而是由另一层 AI 来扮演这个角色。"
运作方式¶
- 工程师在下班前发出需求描述
- 托管系统接单后自动启动完整任务链:理解需求 → 拆解任务 → 编码实现 → 测试验证 → 提交 CR
- 第二天早上,工程师打开电脑,对着完整的 PR + 测试报告做最终审查 → 确认后合并
- 人的角色,从"盯着 AI 干活",变成了"等 AI 交卷"
"这不是效率的线性提升,而是生产模式的范式切换。"
全托管的技术实现:自监控循环(Self-Monitoring Loop)¶
Coding Agent(负责编写代码)+ 监督 Agent(负责全程盯着、处理异常)各司其职,形成一个不需要人类介入的自治单元。监督 Agent 扮演的角色,正是原来那个"全程在线的工程师"——只不过它不需要休息,也不会走神。
三个设计原则(划定最小可行边界)¶
- 不造新 Agent —— 直接复用现有成熟的 Coding Agent 能力,避免重复建设
- 不搭独立云平台 —— 优先使用本地工具链,将建设成本降至最低
- 不铺大而全 —— 聚焦在"能输出可合并 PR"这一个核心交付闭环
"这三个'不'划定了最小可行边界,让系统能以周为单位迭代验证,而不是等待一个大而全的方案成熟。"
时机的成熟:三个卡点同时打开(2026)¶
① 模型能力:长任务首次稳定可用 - 过去的大模型在处理复杂任务时容易"跑着跑着没了"——上下文丢失 / 推理中断 / 陷入循环 - 如今的模型已能稳定完成涵盖完整功能开发的长序列任务
② 工具链:AI 第一次能真正自给自足 - Playwright MCP 等工具的出现,让 AI 第一次能够自己写代码、自己运行、自己观察执行结果并作出判断,不再需要人在旁边担任"手和眼"的角色 - 工具链的成熟,补全了自主执行的最后一块拼图
③ 平台基础:在已跑通的系统上加调度层 - 不是从零搭建,而是在一个已有的、经过真实工程师验证的 Coding Agent 平台上,增加一层托管调度能力 - 让系统具备了从 Day 1 就能处理真实需求的能力,而不需要漫长的冷启动期
"三个条件缺任何一个,全托管模式都无法成立。三个同时到位,是时机成熟的根本原因。"
效率的数量级跃迁¶
| 维度 | 传统 AI Coding | AI 全托管 |
|---|---|---|
| 人效提升 | 2-3x | 指数级(至少 10x+) |
| AI 开工条件 | 人在才动 | 随时自动运行 |
| 交付物形态 | 代码片段 | 可合并的完整 PR(附测试报告 + 变更说明) |
| 并行任务数 | 1 个 | 10+ 个同时进行 |
"指数级(至少10x+)的人效提升,背后有两个独立的贡献:① 时间的解放——AI 在工程师休息的时间里继续运转,每天的有效生产时间从 8 小时扩展到 24 小时;② 注意力的解放——工程师从'执行操作'转向'审查决策',单位注意力能覆盖的任务量大幅提升。"
3. AI 驱动的 CI/CD 流水线:从"规则引擎"到"Agent-aware 体系"¶
传统规则引擎的三个根本性缺陷¶
- 刚性不足以应对复杂性(条件组合的指数级爆炸远超人工编写规则所能覆盖)
- 响应速度受限于人的在线时间(Agent 以 7×24 节奏提交代码,人工响应延迟成为瓶颈)
- 经验无法系统性沉淀(运维经验以口口相传存在,人员流动即流失)
Agent-aware 体系三大设计原则¶
- 声明式意图 + 自主决策 —— 人类定义"要达成什么"(质量标准 / 安全底线 / 性能基线),Agent 自主决定"如何达成"(测试策略 / 构建路径 / 资源分配)
- 上下文感知 + 动态适应 —— 同样的 diff,在不同上下文下可能触发完全不同的流水线行为,而非执行一成不变的固定脚本
- 闭环反馈 + 持续进化 —— 每一次执行结果都回流为经验数据,流水线是一个越用越聪明的活系统
研发平台全面 Agent 化(4 大能力)¶
① 构建触发全自动 - AI 对每一次代码提交进行语义解析 - 结合依赖图谱精确计算影响范围 - 自主决定"构建什么、验证什么、防控什么" - 业界数据显示:可缩短 50% 的构建到部署时间,降低 40% 的流水线故障率
② 语义化触发替代手工配置 - AI 直接读懂 commit 意图并差异化响应: - 功能新增 → 完整测试 + 自动生成用例 - Bug 修复 → 优先验证失败用例 - 性能优化 → 基准对比 - 安全补丁 → 全量扫描 - 纯重构 → 行为等价性校验 - 原本需要工程师在 GUI 中手动配置的触发规则,由 AI 语义理解自动完成
③ 跨平台统一交付 - AI 自动协调 Android / iOS / HarmonyOS 多平台并行构建 - 处理条件编译与签名差异 - 实现"一次提交、多端交付"
流水线无人化:全链路 AI 自主闭环¶
① 构建失败自修复 —— 编译报错 / 依赖缺失 / 类型不匹配——AI 自动分析日志、定位根因、生成修复补丁、重新触发构建,形成"失败 → 诊断 → 修复 → 验证"的自愈循环
② 测试失败智能处理 —— AI 回溯变更历史、分析调用链路、参考期望行为,推理出修复方案;flaky test 自动被识别并与真实 Bug 区分
③ 发布决策自动裁决 —— 基于质量门禁的多维评分(架构合规 / 安全扫描 / 性能回归),AI 自主决定变更是否可以进入下一环节
④ 运维异常主动预警与处置 —— 识别构建时间异常增长 / 失败率突变 / 资源消耗尖峰等模式,在问题恶化前主动预警,并自动触发扩缩容或环境修复动作
全局状态感知(Pipeline Context 四层)¶
- 代码层(变更语义、影响范围图谱)/ 执行层(各步骤状态、产出物)/ 历史层(成功率、常见失败模式、性能基线)/ 环境层(集群资源利用率、队列深度)
- 上下文通过标准化协议在各环节间增量流转并自动压缩摘要,确保 AI 在每个决策节点都具备完整的信息视野。
4. 构建验收自闭环:自检、自修复的质量保障¶
端到端测试的 Agent 化¶
① 智能测试生成 - Agent 根据代码变更的 diff 自动分析影响范围,生成针对性的测试用例 - 覆盖功能正确性 / 边界条件 / 异常路径 / 并发安全 - 与已有测试集进行去重和互补分析
② 自适应测试策略 - 基于历史构建数据和代码变更的风险评分,动态调整测试深度和广度 - 高风险变更 → 全量回归 + 性能基准 + 安全扫描 - 低风险变更 → 相关模块的快速验证
自修复机制(Self-Healing):3 层¶
第一层:静态诊断 —— 分析构建日志和错误信息,定位失败原因。对编译错误 / 类型不匹配 / 依赖缺失等确定性问题,直接生成修复补丁
第二层:动态推理 —— 对运行时异常 / 测试断言失败等需要上下文理解的问题,回溯代码变更历史、分析调用链路、参考相关测试用例的期望行为,推理出可能的修复方案
第三层:验证闭环 —— 修复补丁提交后自动触发新一轮构建-测试,验证修复的正确性。最多进行 N 轮(可配置)自动修复尝试。超过限制后,自动上报人工团队并附带完整的诊断报告和已尝试的修复方案
"学术界的研究支持了这一方向的可行性。基于自愈 CI/CD 的研究表明,AI Agent 能够自主解决约 60-70% 的常见构建失败,显著减少了人工介入的频率。而在我们的实践中,通过对 Agent 修复能力的持续训练和 Harness 优化,这个比例还在不断提升。"
5. 质量效率双飞轮¶
AI 质量门禁(3 层)¶
① 架构合规性检查 —— Agent 自动验证代码变更是否符合预定义的架构规范——模块边界是否被突破 / 依赖方向是否正确 / 接口契约是否兼容。直接对抗了 AI 生成代码可能带来的"熵增"问题:无约束的 AI 生成会倾向于选择最短路径解决当前问题,而忽视整体架构的一致性
② 安全漏洞扫描 —— 集成 SAST/DAST 工具链,实时安全扫描。Agent 不仅识别已知漏洞模式,还能基于上下文分析潜在的安全风险
③ 性能回归检测 —— 对关键路径的代码变更自动运行性能基准测试,对比变更前后的指标变化
聚类分析与诊断识别¶
- 频繁失败的测试用例聚类:自动识别 flaky tests,区分真实的代码问题和测试本身的不可靠性
- 构建失败根因聚类:将看似不同的构建失败归类到共同的根因
- 代码质量趋势分析:追踪代码复杂度 / 测试覆盖率 / 技术债务等指标的变化趋势
自主修复与持续改进¶
"基于聚类分析的结果,Agent 能够从'修复个例'进化到'消除类别'。当一类问题被识别后,Agent 不仅修复当前出现的实例,还会主动扫描代码库中的同类隐患并批量修复。同时,将修复模式沉淀为新的质量规则,纳入门禁检查,实现'一次修复、永久预防'的正向循环。"
"这就是'质量效率双飞轮'的核心机理:质量的提升减少了返工和故障处理的时间消耗(提升效率),效率的提升释放了更多资源用于质量建设(提升质量),两者相互正反馈、持续螺旋上升。"
6. Agent 自进化:知识沉淀与反馈闭环¶
经验的自动沉淀¶
"一条卓越的生产线不仅在运行,更在'学习'。Agent 每一次的执行轨迹——成功的构建策略、有效的修复方案、高效的测试选择——都被自动沉淀为结构化知识。这些知识不是简单的日志堆积,而是经过提炼的可执行经验。"
反馈驱动的 Harness 进化(3 大维度)¶
① 工具链优化 —— 哪些工具被频繁使用 / 哪些工具的调用经常失败 / 哪些工具的使用模式可以被简化 - 相关实验表明:工具定义、中间件和长期记忆三个模块贡献了最大的性能增益
② 提示词优化 —— 对比不同提示词版本在历史任务上的表现差异,自动筛选出最优的提示词策略 - 关键发现:仅优化系统提示词而不优化其他组件,反而会造成 2.3 个百分点的性能回退——这说明 Harness 的各组件之间存在协同效应,必须整体优化
③ 记忆管理优化 —— 长期记忆(跨任务经验积累)+ 短期记忆(当前任务上下文管理)需要持续调优
7. 评测 Benchmark 体系¶
演进方向¶
"AI benchmark 已从函数级代码生成,演进到面向真实仓库、真实环境和长时程任务的系统评测。SWE-bench、Terminal-Bench、ProgramBench 等都表明,仅看任务完成率或测试通过率,已不足以评估 AI 在真实工程中的表现;评测还需要关注执行过程中的漂移、重复试错、工作流脆弱性以及治理成本。CIRCLE 和 FRAME 进一步强调,评测应面向真实部署情境,关注系统如何影响协作、返工和长期运维。"
3 大方向¶
① 典型场景全覆盖 —— CRUD / 复杂业务逻辑 / 跨模块协作 / 性能优化与重构 - 任务来源应尽量贴近真实工程活动:逐步纳入真实 issue 修复 / 真实重构需求 / 真实 CI 失败修复 / 真实规范升级任务
② 关键指标可量化 —— 从结果正确性扩展到过程质量与架构一致性 - 核心指标:架构一致性得分 / 代码规范符合率 / 测试通过率 / 首次生成成功率 - 补充两类指标:过程质量指标(上下文冗余 / 重复调用 / 无效步骤 / 过长执行链)+ 控制保持指标(可解释性 / 可中断性 / 可纠正性 / 可回滚性) - "Benchmark 应形成'结果指标 + 结构指标 + 过程指标 + 控制指标'的综合评价体系"
③ 持续扩展评测集 —— 以动态 Benchmark 追踪规范迭代的真实效果 - 静态 benchmark 容易被记忆,逐渐失去区分能力 - 评测集应具备持续扩展能力:任务增量扩展 / 场景维度扩展 / 指标体系扩展 / 版本对比机制(对不同规范版本、Skill 配置和 Agent 编排方式进行纵向比较) - "其目标不是建立排行榜,而是形成持续积累证据的机制"
"Benchmark 与记忆机制、CI 门禁、任务模板和 Skill 体系共同构成反馈闭环:通过评测发现问题,沉淀知识,更新规范,再进入下一轮验证,使规范体系从静态文档演进为可学习的工程治理系统。"
8. 技术先进性总结¶
| 维度 | 演进 | 核心 |
|---|---|---|
| 从"有人在环"到"无人全托管" | 范式突破 | Agent 监管(Harness)为核心保障,7×24 不间断自主运行 |
| 从"规则驱动"到"Agent 驱动" | 智能升级 | CI/CD 流水线不再是静态的 if-else 管道,具备语义理解能力 |
| 从"报告问题"到"解决问题" | 能力跃迁 | 自检自修复的闭环机制让生产线具备自愈能力 |
| 从"单次执行"到"持续进化" | 自我提升 | Agent 自进化机制让生产线越用越聪明 |
| 从"封闭系统"到"开放生态" | 架构设计 | 标准协议 + 上下文自动注入,对多元 AI 工具保持开放兼容 |
9. 展望¶
"随着 Agent 能力的持续提升和 Harness Engineering 的不断成熟,AI-Native 的生产线将从当前的'半自治'逐步迈向'高度自治'。可以预见的演进方向包括:生产线对需求的自然语言描述直接进行端到端交付、跨项目的经验自动迁移与复用、基于业务指标的自适应发布策略等。"
"更深层的变革在于,当生产线真正实现 7×24 全托管时,软件研发的组织形态和生产关系都将被重新定义。人类工程师的角色将从'写代码、调Bug'转向'定义规则、设计架构、把控方向',而 AI 则成为 7×24 不间断运转的执行引擎。这是一场从根本上释放 AI 产能、实现指数级效率跃迁的基础设施革命。"
核心金句¶
- "当人不再需要全程在场,AI 就可以 7×24 不间断运转——单人可管控的并行任务数从 1 跃升至 10+"
- "这不是效率的线性提升,而是生产模式的范式切换"
- "'Human on the Loop' 的范式转移 —— 减少 Human in the Loop = 释放 AI 产能"
- "AI Agent 能够自主解决约 60-70% 的常见构建失败"
- "传统的 AI 生成会倾向于选择最短路径解决当前问题,而忽视整体架构的一致性 → 质量门禁确保每一行进入仓库的代码都经过架构合规性验证"
- "从'修复个例'进化到'消除类别' —— 一次修复、永久预防"
- "仅优化系统提示词而不优化其他组件,反而会造成 2.3 个百分点的性能回退 —— Harness 各组件之间存在协同效应,必须整体优化"
- "持续扩展能力 + 版本对比机制 —— Benchmark 的目标不是建立排行榜,而是形成持续积累证据的机制"
- "这场基础设施革命从根本上释放 AI 产能、实现指数级效率跃迁"
与已有 wiki 实体的关系¶
vs 晓斌 Agent-Oriented Infra¶
- 晓斌 = 哲学框架(People-Oriented → Agent-Oriented)+ 4 层设计
- 高德 = 具体落地实现(AI 全托管 / 监督 Agent / Self-Healing / 质量门禁 / Benchmark)
- 共同点:都强调"infra 决定 agent 自主空间"+"给 infra 补能力"
vs wow-harness v3¶
- v3 = 跨 session 事件时间线 + 概念图(协议层治理)
- 高德 = 7×24 生产线层(Self-Healing + Harness 反馈闭环 + Benchmark 体系)
- 共同点:都强调"治理 + 自进化"是 AI Agent 长期可用的关键
vs Kimi Work¶
- Kimi Work = Harness 搬到本地桌面(单用户本地)
- 高德 = 7×24 永动生产线(企业级 R&D 链路)
- 共同点:都是"人定规则 + AI 永动"哲学的具体落地
vs Rein¶
- Rein = 4 模块 + 5 类型边界(单 agent 内部架构)
- 高德 = 多 agent 协作(Coding Agent + 监督 Agent + 质量门禁 Agent)
- 共同点:都强调"边界"是工程化关键
vs Agent Harness 架构¶
- 7 层 harness 模型 = 抽象框架
- 高德 = "工具定义、中间件和长期记忆三个模块贡献了最大的性能增益" —— Harness Engineering 实证
vs Microsoft Build 2026¶
- Microsoft = 全栈 AI(模型 + Harness + 平台 + 智能体 + 365 应用)
- 高德 = "在已跑通的系统上加调度层"(不是从零搭建)—— 工程实操视角
启示¶
- "Human on the Loop" 是 2026 年范式转移关键词 —— 减少 Human in the Loop = 释放 AI 产能
- 三个时机卡点同时打开(2026):模型长任务稳定 + 工具链自给自足(Playwright MCP 等)+ 已有 Coding Agent 平台
- 指数级(10x+)效率跃迁 = 时间解放 × 注意力解放的乘法
- 监督 Agent 模式 = AI 盯 AI(Self-Monitoring Loop)—— 不需要新造 agent,复用成熟 Coding Agent
- 三个"不"划定最小可行边界:不造新 Agent / 不搭独立云平台 / 不铺大而全
- CI/CD 从"规则引擎"升级为"Agent-aware 体系" —— 同样的 diff 在不同上下文触发不同流水线
- "从修复个例到消除类别" —— 一次修复永久预防
- Harness 各组件协同优化(仅优化 prompt = 性能回退 2.3%)
- Benchmark 四维评价体系:结果 + 结构 + 过程 + 控制
- 行业数据:构建到部署时间缩短 50%、流水线故障率降低 40%、AI 自愈 60-70% 构建失败
局限 / 待验证¶
- 业界数据"50% 缩短 / 40% 降低"未指明来源,可能来自厂商自报
- "60-70% 自愈率"引用"学术研究"未给出具体论文
- "指数级 10x+ 提升"是定性判断,缺严格量化模型
- 系列第 1 / 2 期(端云一体基建 / Spec as AIOS)未在本文展开,但提到了 Skill/MCP 协议、Spec-Driven Development 概念——需要后续补充
- 高德视角主要是超级应用 / 大规模工程,小型团队的可行性未充分讨论
深度分析¶
-
范式转移的本质是监控主体的切换,而非简单的效率提升。传统 CI/CD 的瓶颈在于"人的响应速度成为 AI 产能的天花板"——Coding Agent 完成代码后必须等待人工 Review、诊断和修复。AI 全托管模式将监控权转移给"监督 Agent",形成 Self-Monitoring Loop,使 AI 能够自主驱动端到端任务链。原文将这一转变定性为"生产模式的范式切换"而非"效率的线性提升",区别在于其背后是人与 AI 角色关系的根本重构
-
Self-Healing 三层架构体现了"渐进式自主"的设计哲学。第一层静态诊断处理编译错误等确定性故障;第二层动态推理处理需要上下文理解的运行时异常;第三层验证闭环在自动修复超出能力范围时主动上报。业界数据显示 AI Agent 能自主解决约 60-70% 的常见构建失败,而高德实践表明通过 Harness 持续训练,这一比例仍在提升。这种分层设计既避免了过度设计,又确保系统在边界明确时能完全自主运转
-
质量效率双飞轮揭示了 AI-Native 生产线的自增强机制。质量门禁(架构合规/安全/性能)减少返工时间,释放资源用于质量建设;效率提升进一步积累更多数据反哺质量优化。关键洞察是 Agent 从"修复个例"进化到"消除类别"——当一类问题被识别后,Agent 不仅修复当前实例,还会主动扫描代码库中的同类隐患并批量修复,将修复模式沉淀为新的质量规则纳入门禁。这实现了一次修复、永久预防的正向循环
-
Harness 各组件协同效应是关键工程发现。实验表明仅优化系统提示词而不优化其他组件(如工具定义、中间件、长期记忆),反而会造成 2.3 个百分点的性能回退。这说明 Harness Engineering 必须整体优化,单一维度的投入可能适得其反。工具定义、中间件和长期记忆三个模块贡献了最大的性能增益
-
Benchmark 体系从"任务完成率"扩展到"四维评价"标志着 AI 评测范式的成熟。SWE-bench、Terminal-Bench 等已证明仅看结果正确性不足以评估 AI 在真实工程中的表现,需要同时关注过程质量(上下文冗余、重复调用、无效步骤)和控制保持指标(可解释性、可中断性、可纠正性、可回滚性)。动态扩展评测集 + 版本对比机制,使 Benchmark 成为持续积累证据的机制而非排行榜
实践启示¶
-
采用"监督 Agent"模式实现 AI 盯 AI,而非让工程师充当监控主体。复用成熟的 Coding Agent 能力,无需重新构建。监督 Agent 扮演"24小时在线工程师"角色,处理卡顿恢复、上下文拉取、最终输出 PR + 测试报告。工程师角色从"盯着 AI 干活"转变为"等 AI 交卷",单位注意力可覆盖的并行任务数从 1 跃升至 10+
-
CI/CD 流水线从规则引擎升级为 Agent-aware 体系时,优先实现语义化触发。AI 直接解析 commit 意图并差异化响应:功能新增触发完整测试 + 自动生成用例;Bug 修复优先验证失败用例;性能优化触发基准对比;安全补丁启动全量扫描;纯重构执行行为等价性校验。原本需要工程师在 GUI 中手动配置的触发规则,由 AI 语义理解自动完成,可缩短 50% 构建到部署时间、降低 40% 流水线故障率
-
三个设计原则划定最小可行边界,降低 AI-Native 生产线落地门槛:不造新 Agent(复用现有能力)、不搭独立云平台(优先本地工具链)、不铺大而全(聚焦可合并 PR 这一核心交付闭环)。三个条件缺一不可:模型长任务稳定 + 工具链自给自足(Playwright MCP 等)+ 已有 Coding Agent 平台验证
-
构建 Self-Healing 机制时,采用三层渐进式设计并在第三层设置硬性上报边界。第一层静态诊断处理确定性问题,第二层动态推理处理需要上下文理解的异常,第三层验证闭环最多进行 N 轮自动修复尝试(可配置),超限后自动上报人工并附带完整诊断报告和已尝试方案。这既保证了系统的自主运转能力,又避免了异常情况失控
-
Harness Engineering 必须整体优化,警惕单一维度投入的性能回退。工具定义、中间件、长期记忆三模块贡献最大性能增益,提示词优化必须与工具链、记忆管理协同调整。建立反馈驱动闭环:每一次执行轨迹(构建策略、修复方案、测试选择)都沉淀为结构化知识,持续回流到 Harness 优化循环中
-
Benchmark 评测体系设计应包含持续扩展机制和版本对比能力。静态 benchmark 容易被记忆逐渐失去区分能力。评测集应支持任务增量扩展、场景维度扩展、指标体系扩展,并建立版本对比机制(对不同规范版本、Skill 配置和 Agent 编排方式进行纵向比较)。目标不是建立排行榜,而是形成持续积累证据的机制,回答哪些规范真正降低了返工与漂移
相关对照¶
- 晓斌 Agent-Oriented Infra —— 哲学框架
- wow-harness v3 —— 跨 session 治理
- Kimi Work —— 本地 Agent
- Rein —— 单 agent 架构
- Agent Harness 架构 —— 7 层模型
- Microsoft Build 2026 —— 全栈 AI
- Agent Harness 上下文管理 —— 工作集视角
→ 原文存档