Claude 4/5 Sonnet & Opus Release Notes¶
Ch01.227 Claude 4/5 Sonnet & Opus Release Notes¶
📊 Level ⭐⭐ | 15.6KB |
entities/claude-4-5-sonnet-opus-release-notes.md
发布时间线¶
| 模型 | 发布日期 | 定位 |
|---|---|---|
| Claude Opus 4.7 | 2026-05-06 | 旗舰模型,编程/视觉/知识工作 SOTA |
| Claude Sonnet 4.6 | 2026-04 (推测) | 中端主力,高性价比推理 |
| Claude Opus 4.6 | 2026-03 (推测) | 前代旗舰 |
| Claude Sonnet 4.5 | 2026-02 (推测) | 前代中端 |
Opus 4.7 核心升级¶
新 Tokenizer¶
- 同一输入可多消耗 1.0-1.35x token
- 但整体推理效率提升使总 token 用量减少最多 50%
- 对结构化文档理解有特殊优化
视觉增强¶
- 支持 2,576px 长边图片(~3.75 MP),3x 于前代
- 可用于密集截图读取的 Computer-Use Agent
- XBOW 安全视觉测试从 54.5% → 98.5%,接近满分
新 Reasoning Effort:xhigh¶
- 介于
high和max之间 - Claude Code 默认使用此级别
- 采用自适应思考而非固定思考预算
自适应思考(Adaptive Thinking)¶
Opus 4.7 不支持带固定 thinking budget 的 Extended Thinking,取而代之的是自适应思考:
- 每一步是否思考是可选的,模型根据上下文自己决定
- 快速回应简单查询,不需要思考时直接跳过
- 把 thinking tokens 投入到最可能有帮助的地方
- 不再容易过度思考
精确控制思考频率的 Prompt 技巧¶
- 想让它多想:
Think carefully and step-by-step before responding; this problem is harder than it looks. - 想让它少想:
Prioritize responding quickly rather than thinking deeply. When in doubt, respond directly.(可节省 token 但可能在困难步骤上损失准确性)
其他功能¶
- 任务预算 beta、
/ultrareview、Max 用户 Auto mode 扩展 - 指令遵循更加字面化:针对 4.6 优化的提示词可能失效
- 文件系统记忆:跨多会话长程工作记忆处理能力更强
- 现实世界知识工作:Finance Agent 和 GDPval-AA(金融/法律领域)达到 SOTA
Benchmark 跃进¶
| 基准 | Opus 4.6 | Opus 4.7 | 提升 |
|---|---|---|---|
| SWE-bench Pro | ~53% | 64.3% | +11pp |
| SWE-bench Verified | ~80% | 87.6% | +7pp |
| TerminalBench 2.0 | ~65% | 69.4% | +4pp |
| Document reasoning (OfficeQA Pro) | 57.1% | 80.6% | +23.5pp |
| Vals Index | 67.7% | 71.4% | #1 SOTA |
| XBOW 安全视觉 | 54.5% | 98.5% | +44pp |
第三方验证¶
- Cursor:内部 benchmark 58% → 70%(+12pp)
- Notion:内部 eval +14%,工具错误减少 1/3
- LlamaIndex ParseBench:图表 13.5% → 55.8%(大幅改善),排版轻微倒退 16.5% → 14.0%
- 定价:~7¢/页(OCR 场景),vs agentic mode ~1.25¢/页
Sonnet 4.6 定位¶
根据 Anthropic Managed Agents 平台文档,Claude Sonnet 4.6 作为中端模型:
- 支持 多 Session 并发(单次最多 100 个 Session)
- 与 Opus 4.7 共用同一基础设施
- 适合高并发、高吞吐量的 Agent 任务场景
- 迅速占据 Sonnet 系列主导地位,根据 AI Gateway Production Index,"Claude Sonnet 4.6 在发布后第一个完整月内吸收了 Sonnet 系列的大部分份额"
Sonnet 4.6 性能基准¶
| 输入类型 | 文件大小 | Input Tokens | 推理时间 |
|---|---|---|---|
| 单张图片 | 114 KB | ~1,600 | 1-5s |
| 20 页带图 PDF | 4.5 MB | ~33,000 | 20-26s |
| 100 张图片 | 11.1 MB | ~23,000 | 50-70s |
Haiku 4.5 定位¶
Claude Haiku 4.5 作为轻量级模型,主打高性价比和快速响应:
- 最低延迟:单张图片处理仅需 1-5 秒
- 多模态支持:尽管体积小,仍支持图像理解
- 成本优化:适合需要快速迭代的 Agent 任务
- 与 Sonnet 4.6、Opus 4.6 共用同一基础设施架构
Haiku 4.5 vs 其他层级延迟对比¶
| 模型 | 单张图片 | 20页PDF | 100张图片 |
|---|---|---|---|
| Haiku 4.5 | 1-5s | 20-26s | 50-70s |
| Sonnet 4.6 | 1-5s | 20-26s | 50-70s |
| Opus 4.6 | 1-5s | 20-26s | 50-70s |
注:推理时间在不同层级模型间相近,但成本差异显著
模型层级与适用场景对照¶
| 层级 | 模型 | 核心优势 | 最佳场景 |
|---|---|---|---|
| 轻量级 | Haiku 4.5 | 最低成本、快速响应 | 简单查询、高频调用、初步筛选 |
| 中端 | Sonnet 4.6 | 高并发、高吞吐量 | Agent 任务、高流量应用 |
| 旗舰 | Opus 4.6 | 最高智能、长上下文 | 复杂推理、深度研究、代码重构 |
| 最新旗舰 | Opus 4.7 | 视觉 SOTA、编程增强 | Computer Use、深度调研 |
关键行为变化(4.6 → 4.7)¶
[!warning] 破坏性变更警告 Anthropic 明确警告:针对 4.6 优化的提示词可能失效。这是破坏性变更而非平滑迁移。
已确认的行为变化¶
- 响应长度自适应:简单查询更短,开放式分析更长。提供正向示例比否定式"不要这样写"更有效
- 工具调用频率降低但推理增加:需明确告诉它何时该用工具
- 生成更少 subagent:谨慎委派,需要并行时需显式说明。如果单次响应能直接完成就不生成 subagent
- 思考成本变化:高 effort 下会思考更久,输出更多 token
- medium/low 级别仍优于 4.6:Opus 4.7 即使在低 effort 级别也优于 Opus 4.6 同级别表现
需重新调优的领域¶
- 测试框架(如 harness eval)对指令的敏感度改变
- Prompt 工程需要系统性回归测试
- 安全概况与 4.6 持平,提升诚实度和抗提示词注入,但伤害减少建议略弱
Claude Code 最佳实践(Opus 4.7)¶
推荐 Effort 设置¶
| Effort | 适用场景 |
|---|---|
| medium/low | 成本/延迟敏感或范围明确的小任务。Opus 4.7 在此级别仍优于 Opus 4.6 同级别,有时甚至用更少 token |
| high | 智能水平与成本平衡,适合并发多会话 |
| xhigh(默认/推荐) | 最强自主性与智能水平,适合大多数编码和 Agent 场景。Claude Code 所有方案默认值设为 xhigh |
| max | 极困难问题,收益递减,容易过度思考。仅对当前会话生效,其他级别具有"粘性" |
[!note]
medium/low级别在 Opus 4.7 下依然优于 Opus 4.6 同级别表现,有时消耗更少 token
交互式编码会话组织¶
- 第一轮讲清楚:意图、约束、验收标准、相关文件位置都要在首轮提供
- 减少用户交互次数:每多一轮增加推理开销
- 使用 auto mode:适合完整上下文 + 长时间运行的任务
- 设置任务完成通知:让 Claude 播放提示音或创建 hook 通知
- 使用
/go组合技能:让 Claude 自动执行 E2E 自测 →/simplify重构 → 直接提交 PR
验证工作至关重要¶
确保 Claude 能验证自己的工作成果,效率可提升 2-3 倍:
- 后端:启动服务进行 E2E 测试
- 前端:Chromium 浏览器扩展
- 桌面应用:Computer Use
Claude Code 新功能(Opus 4.7 配套)¶
Recaps(内容回顾)¶
- 对 Agent 已完成工作和后续计划的简短总结
- 适合长时间离开后回来查看进度
Focus Mode(专注模式)¶
- 隐藏所有中间执行过程,专注最终结果
- 使用
/focus命令切换 - 适合信任模型可以准确执行任务的场景
/fewer-permission-prompts 技能¶
- 扫描会话历史,识别本质安全但反复触发权限的命令
- 生成白名单建议,避免不必要的干扰
- 精细化调整权限设置,不开启 auto mode 时尤其实用
/ultrareview¶
- 专属代码审查模式,标记 Bug 和设计缺陷
- Pro 和 Max 用户拥有 3 次免费额度
Auto mode(自动模式)¶
- Opus 4.7 擅长复杂长时任务(深度调研/代码重构/构建复杂功能/持续迭代至达标)
- Auto mode 将权限请求路由至基于模型的分类器,判定安全则自动批准
- 分类器独立判断,风险低于"完全跳过权限确认"
- 意味着可并行运行多个 Claude 实例
- 面向 Max/Teams/Enterprise 用户,Shift+Tab 或在桌面版下拉菜单开启
- CLI:Shift+Tab | 桌面/VSCode:下拉菜单选择
定价信息¶
| 层级 | 输入 | 输出 |
|---|---|---|
| Opus | $5/1M tokens | $25/1M tokens |
| Sonnet | ~$1.5/1M tokens (推测) | ~$7.5/1M tokens (推测) |
定价持平但能力跃升,性价比窗口打开
注意事项(Caveats)¶
- 新 tokenizer:同一输入 token 消耗增加 1.0-1.35x
- 思考成本:高 effort 下会思考更久,输出更多 token
- 安全概况:与 4.6 持平,提升诚实度和抗提示词注入,但伤害减少建议略弱
- 定位:弱于 Claude Mythos Preview,Opus 4.7 是 Mythos 安全技术的试验场
战略定位¶
从工具到代理的范式跃迁¶
Opus 4.7 的核心叙事不是「更强」,而是从辅助工具向自主代理的角色转变。Auto mode 并行化、「Claude 做某某任务 /go」组合技能、以及 2-3 倍效率提升的验证机制,都在重新定义 human-AI 协作的边界——人类从「监督者」变成「发起者」。
Mythos 的试验场定位¶
Opus 4.7 是 Anthropic 在安全护栏和网络保护技术上的试验场,这些技术最终会支撑 Mythos 的大规模推广。这意味着:
- 4.7 刻意在能力上弱于 Mythos Preview(受控发布)
- 但安全层面的迭代会首先在 4.7 上验证
- 后续 Mythos 可能会复用 4.7 验证过的护栏技术
深度分析¶
1. 旗舰模型定位出现战略分化:长上下文 vs 任务执行¶
Opus 4.7 最值得关注的不是它的全面提升,而是一次有意识的战略放弃。MRCR v2 256k 上下文检索从 91.9% 暴跌至 59.2%,1M 上下文从 78.3% 跌至 32.2%——这意味着 Anthropic 主动牺牲了长文档精确检索能力,将资源集中投向编程、视觉理解和任务执行。这一分化在 Claude Opus 4.7 与 4.6 之间形成了明确的使用场景分野:深度研究(RAG、长文档理解)继续用 4.6,自动化任务执行(coding、computer use)升级到 4.7 。
2. 范式跃迁:从"辅助工具"到"自主代理"的质变拐点¶
Opus 4.7 真正重要的叙事不是 SOTA 数字,而是 Auto mode 的推出——它将权限请求路由至基于模型的分类器,判定安全则自动批准执行。这意味着 Claude 可以代表用户做决策而非仅仅是执行指令。Boris Cherny 明确表示这次更新的核心在于增强 Agent 能力,让模型能更自主地处理长期任务。Auto mode 使得并行运行多个 Claude 实例成为可能,人类从「监督者」变成「发起者」 。
3. 新 tokenizer 的隐性成本:效率提升掩盖了潜在的隐形涨价¶
Anthropic 宣称整体推理效率提升使总 token 用量减少最多 50%,但前提是任务落在 4.7 提升明显的场景(编程、办公自动化、视觉理解)。对于日常知识管理、写方案、数据分析等提升不大的场景,token 消耗反而增加 1.0-1.35x。这是一个典型的「性价比陷阱」:定价不变但实际成本因使用场景而异 。
4. 自适应思考机制:模型从"被动工具"到"主动判断者"的认知升级¶
Opus 4.7 不再使用固定 thinking budget 的 Extended Thinking,而是采用 adaptive thinking——每一步是否思考由模型自己决定。这是模型判断能力的一次质变:模型被赋予了在「快速响应」和「深度思考」之间自主切换的权利,而不仅仅是执行用户指定的思考预算。配合 Prompt 技巧("Think carefully..."或"Prioritize responding quickly..."),用户可以引导但无法强制模型的思考深度 。
5. 破坏性变更的深层逻辑:Anthropic 的主动技术换代策略¶
Anthropic 明确警告「针对 4.6 优化的提示词可能失效」,并将此定性为破坏性变更而非平滑迁移。这种直白的警告本身就是一个战略信号:Anthropic 不再追求向后兼容的渐进式升级,而是愿意牺牲短期的用户体验一致性来换取更大的技术换代力度。这与之前「4.6 是 4.5 的全面升级」的模式完全不同,暗示 Anthropic 正在进入一个更激进的技术迭代周期 。
实践启示¶
选型决策:建立场景-模型对照矩阵¶
不应盲目追求「最新最强」,而应根据任务类型建立严格的模型选择标准。编程、视觉理解、Computer Use 类任务优先选 4.7;长文档精确检索(超过 100k token 的 RAG 场景)、deep research 类任务继续用 4.6;日常闲聊和成本敏感型任务用 Sonnet 4.6 或 Haiku 4.5 。
Prompt 迁移:对 4.6 提示词进行系统性回归测试¶
针对 4.6 精细调优的 Prompt 需要逐条回归测试,尤其是涉及「脑补」逻辑的提示词——4.7 会更字面化地执行,可能产生非预期结果。建议在切换前准备对照实验,验证输出质量是否下降 。
Agent 开发:充分利用 Auto mode 的并行化能力¶
Auto mode 的自动批准机制使得并行运行多个 Claude 实例成为可能。对于可以拆分的独立子任务(如多个文件的代码审查、多个报告的数据分析),可以将任务并行化并通过 Auto mode 自动执行,显著提升吞吐量 。
成本监控:区分「表面定价」和「实际成本」¶
API 定价维持 $5/$25 不变,但新 tokenizer 导致实际 token 消耗变化 0.85x-1.35x。需要建立针对不同任务类型的 token 消耗监控,在账单分析中识别哪些场景实际在「隐形涨价」 。
效率优化:让 Claude 验证自己的输出¶
Anthropic 数据显示验证工作可将效率提升 2-3 倍。对于代码任务,确保 Claude 知道如何运行 E2E 测试;对于前端任务,使用 Claude Chromium 扩展让它控制浏览器验证;对于桌面应用,使用 Computer Use 功能。验证闭环是 Opus 4.7 Agent 工作流的核心组成部分 。
相关实体¶
- Claude Opus 4.7 — 最新旗舰模型发布
- Claude Opus 4.7 深度分析 — 详细发布分析
- Anthropic — 模型开发商
- MOC