Harness Engineering实践做了一个平台让AI一晚上自动评测和优化你的系统¶

Ch01.364 Harness Engineering实践做了一个平台让AI一晚上自动评测和优化你的系统¶

📊 Level ⭐⭐ | 9.8KB | entities/harness-engineering实践做了一个平台让ai一晚上自动评测和优化你的系统.md

核心要点¶

AI First 评测理念：只允许 AI 操作，人无法操作，从入口层面杜绝人工苦力
平台核心能力：AI 自主创建评测任务、生成评测集、执行评测、提交评测报告
评测集分两种模式：标准评测（有明确成功/失败状态）和 Rubrics 评测（内容质量等级评定）
自动化优化循环：评测 → 生成改进建议 → 优化 → 下一轮评测，三轮往复分数从 90.7 → 97.4 → 99.1
案例覆盖：无 UI 纯终端评测、带 UI 的浏览器自动化评测、以及系统级自动优化
关键前提：系统本身 AI Coding 含量要高，老系统到处断头路难以自动化
一晚上全自动优化：人花 3-4 分钟描述任务，其余全由 AI 完成

深度分析¶

从"人做评测"到"AI 全自动评测"的核心跃迁¶

传统评测流程的痛点不是流程本身，而是人在其中的不可扩展性：评测集收集耗时、评测执行烧时间、评测人员意愿低。作者提出的 AI First 理念将这一矛盾彻底反转——不是让 AI 辅助人做评测，而是从入口层面就让人无法干预，所有评测动作由 AI 自主完成。这个转变的关键在于"评测任务描述"的范式转变：人只需描述评测目标（"全方位测试钉钉文档 MCP"），AI 负责拆解成具体的评测用例、生成验收标准、执行测试、分析结果。全程人不需要知道"用什么工具测"、"覆盖哪些场景"，AI 自己判断。

Rubrics 评测：解决 AI 质量评估难题的关键创新¶

传统的自动化测试只能判断"功能是否工作"——API 返回 200 就是成功，超时就是失败。但 AI 系统的输出往往是内容质量、表达流畅度、策略合理性等无法用二元判断衡量维度。作者引入了 Rubrics 概念：针对内容质量评测场景，生成一系列不同等级的评测用例（如 OKR 查询场景中"查没查出来是欠点意思的，但可以生成出一系列不同等级"）。这一设计解决了 AI 评测的核心难题：用规则化、结构化的评测集替代主观判断。每个 Rubrics 维度有明确定义的评分标准，AI 评测时只需判断"当前输出对应哪个等级"——这比直接输出"内容好不好"更可靠、更可解释。

三轮优化循环的工程价值¶

从 90.7 → 97.4 → 99.1 的三轮优化曲线揭示了一个重要规律：AI 自动化优化的边际收益递减，但绝对值持续提升。这意味着：第一轮优化解决最明显的问题（边界条件未处理、错误处理缺失等），收益最大；第二轮处理场景覆盖不足和策略合理性；第三轮进入细节打磨。这种分层优化模式与人类专家的调试思路一致，但 AI 的优势在于可以 24 小时不间断运行、每次迭代都有完整的评测记录和对比。

系统自动优化的前提条件¶

作者坦承，这一实践有效的前提相当苛刻： 系统本身的 UI 规范和基础设施要达标——UI 测试中如果 UI 不规范，AI 会在 UI 里迷路，连测试路径都无法完成。这意味着 AI 自动化测试的前提是系统本身已经具备基本的可测试性（清晰的 UI 结构、规范的命名、完整的错误提示）。这个警示很重要：AI 评测能力再强，也无法弥补系统本身的可测试性缺陷。 系统本身 AI Coding 含量要高——一个人工做的老系统，约定大于配置的内容太多，AI 很难进行功能跑通和优化，经常在一个地方断掉。AI Coding 含量高的系统（通常是 AI 辅助开发的、遵循规范架构的现代系统）才具备持续自动化测试的前提。

QoderWork + 评测平台的双 Agent 协作模式¶

案例中出现了两个 Agent 的协作模式：QoderWork（AI Coding Agent）负责连接评测平台、生成评测集、执行测试、读取评测报告；而评测平台本身也是 Agent 驱动的，负责管理评测任务和评测集的生命周期。这种模式本质上是元编程思想在 AI 评测领域的应用：AI 写测试、AI 跑测试、AI 分析结果、AI 改进代码。

实践启示¶

1. 从"评测即规范"开始建立可测试性 如果你的系统最终要接入自动化 AI 评测，那么系统设计阶段就需要考虑可测试性：清晰的 API 契约、完整的错误码、规范的 UI 元素命名。评测即规范——当你知道 AI 要对你的系统打分，就会自然地把系统做成 AI 友好。 2. 先用无 UI 纯终端评测验证流程，再用 UI 自动化扩展 建议落地路径：从 API/CLI 层面的评测开始（复杂度低、稳定性高），验证"AI 生成评测集 → 执行 → 出报告"的全流程；再逐步扩展到 UI 自动化测试；最后才考虑内容质量 Rubrics 评测。这样可以逐步建立对 AI 评测能力的信任，同时识别流程中的断点。 3. Rubrics 设计是 AI 质量评测的核心工作 内容质量的 Rubrics 设计需要领域专家参与：定义每个评分维度的等级描述（1-5 分的区分标准）、提供每个等级的正反例。Rubrics 质量直接决定 AI 评测的可靠性。建议从小范围开始（3-5 个核心维度），逐步扩展，避免一开始就设计过于复杂的评分体系。 4. 对老系统的 AI 评测：先做可行性评估 AI Coding 含量低的老系统不一定适合全自动 AI 优化。建议先用小样本（10-20 个评测用例）验证 AI 跑通率，如果断点率超过 30%，优先投入系统可测试性改造，而非盲目上自动化优化循环。 5. 评测报告是团队的认知资产 评测报告不只是分数，而是系统行为的完整记录——包括每个用例的评测过程、失败原因、优化建议。这些报告可以成为新员工的培训材料、故障排查的参考文档、以及架构演进的决策依据。建议将评测报告纳入知识管理体系，而不仅仅是质量门禁的通过条件。