跳转至

微软 1000 行代码,把 Claude Opus 干翻了 15 分

Ch01.672 微软 1000 行代码,把 Claude Opus 干翻了 15 分

📊 Level ⭐⭐ | 4.6KB | entities/webwright-microsoft-1000-lines.md

微软 1000 行代码,把 Claude Opus 干翻了 15 分

来源:前端Q / winty(2026-05-26)| 原文存档:原文存档

深度分析

Webwright 是微软研究院 AI Frontiers 实验室于 2026 年 5 月开源的 Web Agent 项目,核心框架仅 ~1000 行 Python 代码(Runner ~450 行 + Playwright Environment ~570 行 + CLI ~150 行)。在 Odysseys benchmark 上,Webwright + GPT-5.4 达到 60.1%,超越 Claude Opus 4.6(44.5%)15.6 个百分点,相对基线 GPT-5.4 提升 79.4%。

核心设计哲学:Terminal as Harness

传统 Web Agent(BrowserUse、Operator、Computer Use)的范式是:模型预测离散动作(点击坐标、输入字段、滚动位置),通过 DOM 或无障碍树感知浏览器状态。这相当于让 LLM 模拟一个"点击工人"。

Webwright 反其道而行之:模型写 Playwright 代码 + bash 命令,通过本地终端执行后观察输出(日志、截图、错误栈),然后继续写下一段代码。任务完成后留下一个可重跑的 Python 脚本。

核心主张:"A terminal is all you need for web agents."

三大工程优势

1. 模型做最擅长的事 LLM 训练目标是生成代码而非预测像素级点击。让模型写 Playwright 脚本是它见过数亿次的场景,而让它预测"在 (124, 480) 点击"是用最不擅长的能力做事。GPT-5.4 裸调 Odysseys 33.5%,加 Webwright 跳到 60.1%——26.6 个百分点的差距来自范式切换。

2. 任务即工具 传统 Agent 产出点击记录、DOM 快照、截图;Webwright 产出 Python 脚本,可直接重跑、手动修改、嵌入 Claude Code/Codex/OpenClaw 作为工具。这是真正的 task → tool 转化。

3. 可调试的误差 传统 Web Agent 出错时 DOM 已变化,无法还原"点击哪里"。Webwright 出错返回标准代码报错(Playwright timeout、selector 找不到、4xx/5xx),程序员可直接定位修复。

Minimalist Harness 的实证意义

Webwright 将代码量级与主流框架对比:

项目 代码量级
LangGraph 数十万行
CrewAI 数万行
OpenAI Agents SDK 数万行
Claude Code(泄露版) 51 万行
Webwright ~1000 行

微软研究院在论文中明确表述:"No multi-agent system, no graph engine, no plugin layer, no hidden orchestration — just a terminal, a browser, and a model." 这是对过去一年"复杂编排"路线的隐含批评。

适用场景扩展

作者指出 Webwright 思路可拓展至所有 Agent 场景: - 桌面 Agent:让模型写 AppleScript/PowerShell,而非预测点击 - 数据 Agent:让模型写 SQL/Python,而非逐行扫描 - API Agent:让模型写完整 fetch 脚本,而非逐端点调用

实践启示

  1. 优先代码生成范式:构建 Agent 时先问"能否让模型直接写代码",而非让模型预测动作。代码生成是 LLM 最强能力,应作为首选。
  2. Harness 简洁性:在 80% 的工程场景中,单 Agent + 强工具足够。复杂多 Agent 编排适用于复杂协同场景,非默认选择。
  3. 任务可复用性:每次 Agent 任务应产出可重跑脚本而非一次性记录。这是 task → tool 的核心。
  4. 小模型 + 强 Harness:Webwright + Qwen3.5-9B 在 hard split 达 66.2%,证明 harness 设计可使小模型工程效用对齐大模型。
  5. 关注微软后续:MSR 在 minimalist Agent 路线的持续发布值得跟,OpenAI/Anthropic 官方 Agents SDK 可能内嵌类似"写脚本"模式。

相关实体

原文存档