跳转至

Anthropic N-days: Frontier Agent Vulnerability Research

Ch04.235 Anthropic N-days: Frontier Agent Vulnerability Research

📊 Level ⭐⭐ | 10.0KB | entities/anthropic-n-days-frontier-agent-vulnerability-research.md

Anthropic N-days: Frontier Agent Vulnerability Research

Source: 原文存档 Authors: Winnie Xiao, Tim Abbott, Nicholas Carlini, Newton Cheng, David Forsythe, Keane Lucas, Milad Nasr, Shikhar Sakhuja (Anthropic Red Team, 2026-06-08)

概述

Anthropic 红队 2026-06-08 发布的研究报告,评估前沿 LLM(重点是 Claude Mythos Preview、Opus 4.5–4.8、Sonnet 4.6)能否自主加速 N-day 漏洞利用开发流程。N-day 是指已公开披露但尚未在所有目标系统完成补丁的漏洞。报告核心结论是:前沿模型已大幅瓦解"N-day 利用需要稀缺逆向工程专业知识"这一历史瓶颈

实验设计: - Firefox 测试集:18 个 SpiderMonkey 安全补丁(Firefox 148/149,2026-02/03 发布),每个补丁 50 轮独立试验 - Windows 内核测试集:21 个内核补丁,闭源二进制(无源码可用),评估完整的低权限到 SYSTEM 提权利用链 - 评估环境:Linux 容器 + shell + 文本编辑器,无互联网访问;使用 ASan 检测的 jsshell 构建 + 公开 diff(剥离 maintainer 回归测试) - 评估指标:PoC 崩溃成功率 → 工作利用成功率 → 提权链完整性

核心发现

1. 模型代际跳跃显著

模型 18 Firefox CVE 成功 PoC 工作利用(Firefox) Windows 内核 21 个提权链
Opus 4.5 2
Opus 4.8 11 2
Mythos Preview 14 8 8

注:50 轮稳定性测试中,Mythos Preview 完整解出 7/18 CVE,Opus 4.8 / 4.6 各仅 1 个。

2. 速度即"patch gap 防御优势失效"

  • Mythos Preview 首个 Firefox 利用:patch 发布后 1 小时内完成;Mozilla Firefox 148.0 正式版在 patch 发布后 18 天才发布 — 利用链比正式版还早 17 天
  • 首个 PoC:~12 分钟;13 个 PoC 在 40 分钟内(Opus 4.8 同样 11 个用时 80 分钟)
  • 完整 14 个 PoC 全部完成:~3 小时
  • 完整 8 个工作利用:~12 小时

3. 闭源场景同样可解

Windows 内核测试无源码,依赖反编译重建(剥离变量名、类型、结构)。Mythos Preview 仍生成 8/21 完整低权限到 SYSTEM 提权链,验证"没有源码"已不再是决定性障碍。

4. 公开模型关闭 safeguards 后亦可构建利用

Anthropic 明确指出:"我们的公开模型(关闭 safeguards 后)也能构建利用(即使不如 Mythos Preview 多)"。这意味着任何处在 patch gap 的系统面临的威胁都显著扩大,且随模型能力增长风险继续升级。

与现有实体的差异化

维度 本研究 entities/autonomous-vulnerability-hunting-with-mcp entities/anthropic-mythos-bug-hunting-marketing 等 Mythos 系
主轴 模型本身作为 N-day 利用开发者 MCP 工具链基础设施(人工研究员的自动化脚手架) Mythos 商业/PR 角度
测试对象 Claude Mythos Preview 任意 LLM 接入的 MCP 工具 Mythos 营销/品牌叙事
数据来源 Anthropic 红队 832 账户禁用 + 受控实验 安全研究员 Andy 实践 行业评论
价值 量化"模型代际跃迁对攻击面的影响" 工程实现参考 商业判断

关键区分:本文是 Anthropic 评估自身模型威胁能力的一手研究,autonomous-vulnerability-hunting-with-mcp人类研究员用 MCP 工具链放大自己的工程实践 — 不同问题域,不同 actor

深度分析

1. 质变而非量变:N-day 利用从人类专业技能变为模型自主能力

历史上,patch diffing 需要稀缺的高级逆向工程人才——WannaCry 在 MS17-010 公布 59 天后才爆发,Citrix Bleed 的公开利用也用了数周。这份报告证明:Mythos Preview 已将"N-day 利用开发"从人类专家技能转变为模型自主可完成的任务。8 个完整工作利用在约 12 小时内生成,意味着这个瓶颈在事实上已经消失。

2. Patch gap 防御窗口在事实上已趋近于零

Firefox 148.0 正式版在 patch 发布后 18 天才发布,而 Mythos Preview 的首个利用在 patch 发布后 1 小时内就完成了——利用链比官方正式版还早 17 天。这意味着"补丁窗口期"这个 defender 优势在 N-day 场景下已完全失效——不是缩短,而是逆转。

3. "闭源"已不再是 N-day 利用的有效防线

在 21 个 Windows 内核补丁测试中,Mythos Preview 仍生成了 8/21 完整提权链。无源码环境下依赖反编译(Ghidra + Ghidriff),但这已不构成决定性障碍。"没有源码 = 更安全"的假设在 capable agent 面前不再成立。

4. 公开模型 + safeguards off 的威胁规模远超以往认知

Anthropic 明确指出:"公开模型(关闭 safeguards 后)也能构建利用(即使不如 Mythos Preview 多)"。这意味着任何组织只要能获取前沿模型,就具备 N-day 利用能力——模型分发渠道本身成为攻防博弃的新变量。

5. 从 ATT&CK 角度看:AI agent 利用行为需要新的检测叙事

报告发现的"高风险行为模式"已用于扩展 Claude 内置 misuse 分类器。这意味着 AI 安全研究正在建立 AI-specific 的威胁行为图谱,将 agent 驱动的网络攻击映射到 ATT&CK 框架,为 defender 提供可操作的检测规则库。

实践启示

  1. N-day patch gap 防御窗口显著缩短 — 旧"几周修复期"不再成立,patch 部署速度必须从月级降到天级
  2. 闭源软件的 patch diff 已非决定性优势 — 公开代码 vs 反编译差异在 Mythos Preview 能力下被抹平
  3. 公开模型(关闭 safeguards)能力已足够构建利用 — 模型分发 + safeguard 设计的攻防演化压力骤增
  4. 检测与响应必须前置 — 利用链完成时间(小时级)已短于 SOC 正常响应时间(天级)
  5. Anthropic 分类器扩展 — 本研究发现的"高风险行为模式"已用于扩展 Claude 内置 misuse 分类器(companion 文章 ATT&CK Navigator 详述)

相关实体

元数据

  • 研究主体:Anthropic Red Team
  • 发表日期:2026-06-08
  • 研究方法:受控实验 + 多模型对比 + 多 trial 稳定性测试
  • 可重复性:高(数据集 = 18 公开 Firefox CVE + 21 公开 Windows 内核补丁,评估脚本可重建)
  • 威胁情报价值:直接量化"模型代际跃迁对 N-day 利用可行性的影响",为 defender 提供 patch 部署速度要求基线