Harness Engineering实践做了一个平台让AI一晚上自动评测和优化你的系统¶
Ch01.364 Harness Engineering实践做了一个平台让AI一晚上自动评测和优化你的系统¶
📊 Level ⭐⭐ | 9.8KB |
entities/harness-engineering实践做了一个平台让ai一晚上自动评测和优化你的系统.md
核心要点¶
- AI First 评测理念:只允许 AI 操作,人无法操作,从入口层面杜绝人工苦力
- 平台核心能力:AI 自主创建评测任务、生成评测集、执行评测、提交评测报告
- 评测集分两种模式:标准评测(有明确成功/失败状态)和 Rubrics 评测(内容质量等级评定)
- 自动化优化循环:评测 → 生成改进建议 → 优化 → 下一轮评测,三轮往复分数从 90.7 → 97.4 → 99.1
- 案例覆盖:无 UI 纯终端评测、带 UI 的浏览器自动化评测、以及系统级自动优化
- 关键前提:系统本身 AI Coding 含量要高,老系统到处断头路难以自动化
- 一晚上全自动优化:人花 3-4 分钟描述任务,其余全由 AI 完成
深度分析¶
从"人做评测"到"AI 全自动评测"的核心跃迁¶
传统评测流程的痛点不是流程本身,而是人在其中的不可扩展性:评测集收集耗时、评测执行烧时间、评测人员意愿低 。作者提出的 AI First 理念将这一矛盾彻底反转——不是让 AI 辅助人做评测,而是从入口层面就让人无法干预,所有评测动作由 AI 自主完成。 这个转变的关键在于"评测任务描述"的范式转变:人只需描述评测目标("全方位测试钉钉文档 MCP"),AI 负责拆解成具体的评测用例、生成验收标准、执行测试、分析结果。全程人不需要知道"用什么工具测"、"覆盖哪些场景",AI 自己判断 。
Rubrics 评测:解决 AI 质量评估难题的关键创新¶
传统的自动化测试只能判断"功能是否工作"——API 返回 200 就是成功,超时就是失败。但 AI 系统的输出往往是内容质量、表达流畅度、策略合理性等无法用二元判断衡量维度。作者引入了 Rubrics 概念:针对内容质量评测场景,生成一系列不同等级的评测用例(如 OKR 查询场景中"查没查出来是欠点意思的,但可以生成出一系列不同等级") 。 这一设计解决了 AI 评测的核心难题:用规则化、结构化的评测集替代主观判断。每个 Rubrics 维度有明确定义的评分标准,AI 评测时只需判断"当前输出对应哪个等级"——这比直接输出"内容好不好"更可靠、更可解释。
三轮优化循环的工程价值¶
从 90.7 → 97.4 → 99.1 的三轮优化曲线揭示了一个重要规律:AI 自动化优化的边际收益递减,但绝对值持续提升 。这意味着: 第一轮优化解决最明显的问题(边界条件未处理、错误处理缺失等),收益最大;第二轮处理场景覆盖不足和策略合理性;第三轮进入细节打磨。这种分层优化模式与人类专家的调试思路一致,但 AI 的优势在于可以 24 小时不间断运行、每次迭代都有完整的评测记录和对比。
系统自动优化的前提条件¶
作者坦承,这一实践有效的前提相当苛刻 : 系统本身的 UI 规范和基础设施要达标——UI 测试中如果 UI 不规范,AI 会在 UI 里迷路,连测试路径都无法完成。这意味着 AI 自动化测试的前提是系统本身已经具备基本的可测试性(清晰的 UI 结构、规范的命名、完整的错误提示)。这个警示很重要:AI 评测能力再强,也无法弥补系统本身的可测试性缺陷。 系统本身 AI Coding 含量要高——一个人工做的老系统,约定大于配置的内容太多,AI 很难进行功能跑通和优化,经常在一个地方断掉。AI Coding 含量高的系统(通常是 AI 辅助开发的、遵循规范架构的现代系统)才具备持续自动化测试的前提。
QoderWork + 评测平台的双 Agent 协作模式¶
案例中出现了两个 Agent 的协作模式:QoderWork(AI Coding Agent)负责连接评测平台、生成评测集、执行测试、读取评测报告;而评测平台本身也是 Agent 驱动的,负责管理评测任务和评测集的生命周期 。这种模式本质上是元编程思想在 AI 评测领域的应用:AI 写测试、AI 跑测试、AI 分析结果、AI 改进代码。
实践启示¶
1. 从"评测即规范"开始建立可测试性 如果你的系统最终要接入自动化 AI 评测,那么系统设计阶段就需要考虑可测试性:清晰的 API 契约、完整的错误码、规范的 UI 元素命名。评测即规范——当你知道 AI 要对你的系统打分,就会自然地把系统做成 AI 友好 。 2. 先用无 UI 纯终端评测验证流程,再用 UI 自动化扩展 建议落地路径:从 API/CLI 层面的评测开始(复杂度低、稳定性高),验证"AI 生成评测集 → 执行 → 出报告"的全流程;再逐步扩展到 UI 自动化测试;最后才考虑内容质量 Rubrics 评测。这样可以逐步建立对 AI 评测能力的信任,同时识别流程中的断点 。 3. Rubrics 设计是 AI 质量评测的核心工作 内容质量的 Rubrics 设计需要领域专家参与:定义每个评分维度的等级描述(1-5 分的区分标准)、提供每个等级的正反例。Rubrics 质量直接决定 AI 评测的可靠性。建议从小范围开始(3-5 个核心维度),逐步扩展,避免一开始就设计过于复杂的评分体系 。 4. 对老系统的 AI 评测:先做可行性评估 AI Coding 含量低的老系统不一定适合全自动 AI 优化。建议先用小样本(10-20 个评测用例)验证 AI 跑通率,如果断点率超过 30%,优先投入系统可测试性改造,而非盲目上自动化优化循环 。 5. 评测报告是团队的认知资产 评测报告不只是分数,而是系统行为的完整记录——包括每个用例的评测过程、失败原因、优化建议。这些报告可以成为新员工的培训材料、故障排查的参考文档、以及架构演进的决策依据。建议将评测报告纳入知识管理体系,而不仅仅是质量门禁的通过条件 。
相关资源¶
相关实体¶
- LLM-as-a-Verifier: A General-Purpose Verification Framework
- 你不知道的 Agent:原理、架构与工程实践
- 告别“氛围编程”:基于 Harness 治理和 SDD 的团队级 AI 研发范式演进与实践
- 看 AgentRun 如何玩转记忆存储,最佳实践来了!
- Karpathy 最新访谈:从 Vibe Coding 到 Agentic Engineering
- RAG深度解析:分块、向量化、召回、重排,才是"蒸馏同事skill"的关键
- 别再把上下文当聊天记录
- 一文带你弄懂 AI 圈爆火的新概念:Harness Engineering
- LLM agent脚手架如何具备自进化能力?——以hermes agent为例
- LoongSuite GenAI 可观测语义规范
- 低代码 Agent、框架 Agent、自研 Agent 决策框架
- 三器合一:gstack + Superpowers + OpenSpec 工程化 AI 编程实战