跳转至

刚刚Opus 4.7发布,相比4.6核心变化,与Claude Code搭配最佳实践

Ch01.273 刚刚Opus 4.7发布,相比4.6核心变化,与Claude Code搭配最佳实践

📊 Level ⭐⭐ | 13.4KB | entities/刚刚opus-47发布相比46核心变化与claude-code搭配最佳实践.md

刚刚Opus 47发布相比46核心变化与Claude Code搭配最佳实践

Claude Opus 4.7 正式发布:

Anthropic 今天发布了 Opus 4.7。定价与 4.6 持平(每百万 Token 为 $5 / $ 25),现已在 API、Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 同步上线。

相比 Opus 4.6 的核心变化:

  • ** 编程能力(显而易见的提升): ** 在最复杂、长周期的软件工程任务中进步最大。早期测试者反馈,现在可以将以前需要人工监督的工作直接交给它。Opus 4.7 现在会在提交结果前 ** 自行验证 ** 输出。
  • ** 视觉能力: ** 支持长边最高 2,576px(约 375 万像素)的图像,比以往任何版本的 Claude 提升了 3 倍以上。这对于需要读取密集截图和提取图表的"电脑操作智能体(Computer-use agents)"来说是真正的杀手锏。
  • ** 指令遵循: ** 现在会非常"字面化"地解读指令。Anthropic 明确警告:针对 4.6 优化的提示词(Prompts)可能会失效或产生非预期输出。现有的测试框架需要重新调优。
  • ** 记忆力: ** 在跨多会话的长程工作中,基于文件系统的记忆处理能力更强。
  • ** 现实世界知识工作: ** 在 Finance Agent(金融智能体)评测和 GDPval-AA(针对金融、法律等高经济价值知识工作的第三方评测)中达到了行业领先水平(SOTA)。

今日上线的新功能:

  • ** 新增 xhigh 努力等级: ** 介于 high 和 max 之间。允许用户在"推理深度"与"响应延迟"之间进行更精细的控制。Claude Code 现已将所有方案的默认值设为 xhigh
  • ** 任务预算(Task budgets): ** API 端开启公开测试。
  • ** Claude Code 中的 /ultrareview : ** 专属的审查模式,用于标记 Bug 和设计缺陷。Pro 和 Max 用户拥有 3 次免费额度。
  • ** 自动模式(Auto mode)扩展: ** 现已面向 Claude Code Max 用户开放。Claude 可以代表你做出决策,减少干扰,且风险低于"完全跳过权限确认"。

坦诚的注意事项(Caveats):

  1. ** 新分词器(Tokenizer): ** 同样的输入内容,Token 消耗会增加 1.0 到 1.35 倍,具体取决于内容类型。
  2. ** 思考成本: ** 在高努力等级下,Opus 4.7 会思考得更久,尤其是在智能体多轮对话的后期,输出的 Token 数量会更多。
  3. ** 安全概况: ** 与 4.6 大致持平。提升了诚实度和抗提示词注入(Prompt Injection)的能力,但在受控物质的伤害减少建议方面,规避机制略微变弱。
  4. ** 定位: ** 能力依然弱于 ** Claude Mythos Preview ** (符合预期),后者仍处于 Anthropic 的限量发布阶段。Opus 4.7 是网络安全保护措施的"试验场",这些技术最终将支持 Mythos 的大规模推广。

** 总结: ** 相对于 4.6,这是一次极具意义的升级,精准击中了 Anthropic 核心客户群最在意的三个痛点: ** Agent 编程的可靠性 ** 、 ** 电脑操作 Agent 的视觉能力 ** ,以及 ** GDPval-AA 等知识工作基准表现 ** 。 虽然明显逊色于 Mythos,但依然是一个非常扎实的迭代更新! Opus 4.7 Claude Code 负责人 Boris Cherny 也总结了关于 ** Opus 4.7 ** 的重磅更新!这次更新的核心在于增强了模型的 ** Agent(代理)能力 ** ,让它能更自主地处理长期任务。

1/ 自动模式 = 告别权限弹窗

** Opus 4.7 非常擅长处理复杂且耗时长的任务 ** ,例如深度调研、代码重构、构建复杂功能,以及持续迭代直到达到性能基准。 在过去,当模型执行此类长任务时,你只有两种选择:要么像"当保姆"一样守在旁边盯着它运行,要么就得冒风险使用 --dangerously-skip-permissions (危险:跳过权限确认)参数。 ** 我们最近推出了"自动模式"(Auto mode)作为一种更安全的替代方案。 ** 在这种模式下,所有的权限请求都会被路由到一个基于模型的分类器,由它来判定该命令是否可以安全运行。如果判定安全,系统就会自动批准执行。 ** 这意味着当模型运行时,你再也不需要守在旁边。 ** 不仅如此,这还意味着你可以 ** 并行运行多个 Claude 实例 ** 。一旦其中一个 Claude 开始进入状态(cooking),你就可以把注意力转向下一个。 ** 自动模式现已面向 Max、Teams 和 Enterprise 用户开放,支持 Opus 4.7。 **

  • ** CLI: ** 按 Shift-tab 即可进入自动模式。
  • ** 桌面版或 VSCode: ** 在下拉菜单中选择即可。

2/ 新技能: /fewer-permission-prompts

** 我们还发布了一项名为 /fewer-permission-prompts 的新技能。 ** 它会扫描你的会话历史,识别出那些本质安全、但在执行时会反复触发权限弹窗的常用 bash 和 MCP 命令。 随后,它会为你推荐一个清单,建议你将这些命令添加到权限的 ** 白名单 (allowlist) ** 中。 你可以利用这个功能来精细化调整权限设置,避免不必要的干扰——特别是如果你不打算开启"自动模式 (auto mode)"的话,这个功能尤为实用。

3/ 内容回顾(Recaps)

** 为了给 Opus 4.7 的发布铺路,我们本周早些时候上线了 Recaps(回顾)功能。 ** Recaps 是对 Agent 已完成工作和后续计划的简短总结。 当你离开一个长时间运行的会话,几分钟或几小时后再回来查看进度时,这个功能极其好用。

4/ 专注模式(Focus mode)

** 我最近非常喜欢 CLI(命令行界面)中新增的"专注模式"。 ** 它会隐藏所有的中间执行过程,让你完全专注于最终结果。 目前的模型已经进化到了这样一个阶段:我基本上可以放心地信任它能运行正确的命令并进行准确的修改。我只需要关注最终的产出。 使用 **/focus ** 命令即可切换开启或关闭。

5/ 配置你的"努力程度"(Effort level)

** Opus 4.7 采

深度分析

核心能力跃升的本质

Opus 4.7 相比 4.6 的核心变化,本质上是 Anthropic 在 Agent 自主性 方向上的重大推进。编程能力的提升不只体现在代码生成质量上,更体现在"自行验证输出"这一关键能力上——这意味着模型从单纯生成结果的工具,演进为能够主动闭环验证的自主 Agent。

Token 消耗增加的深层含义

新分词器导致 Token 消耗增加 1.0–1.35 倍,这是一个需要认真对待的成本变化。但结合"自适应思考"机制来看,这一成本增加并非纯负面影响:模型现在能够更智能地判断何时需要深度思考、何时快速响应,在复杂任务上投入更多思考 token,同时在简单任务上节省开支。对于企业级部署而言,这意味着需要重新评估每个场景的 ROI 模型的智能提升与成本增加的平衡点,需要根据具体任务类型重新校准。

视觉能力对 Agent 架构的影响

长边 2,576px(约 375 万像素)的图像支持,使得 Computer-use Agent 能够处理更复杂的视觉信息。这意味着 Agent 的感知边界显著扩展——不仅能读取密集截图,还能提取图表、识别 UI 状态、进行复杂的多图对比分析。这对于需要操作 GUI 的自动化场景是重大利好。

指令遵循的"字面化"陷阱

Anthropic 明确警告 4.6 优化的 Prompts 可能失效,这一点至关重要。"字面化"解读意味着模型会更严格地按指令执行,而非根据隐含意图做推断。这对 Prompt 工程提出了更高要求:需要更精确地表达意图,避免歧义。这既是挑战也是机会——更可预测的行为有助于构建更稳定的 Agent 工作流。

实践启示

1. 重新审视现有 Prompts 和 Harness

对于已在生产环境中使用 Opus 4.6 的团队,首要任务是审查和调优 Prompts。建议优先检查以下类型:依赖模型隐式推断的 Prompts、包含模糊指令的 Prompts、基于 4.6 行为做过精细调校的测试框架。任何依赖"言外之意"的表达方式都需要重新评估,必要时改写为更明确的指令。

2. Effort 等级的选择策略

Claude Code 默认已将 Effort 设为 xhigh,这反映了 Anthropic 的推荐策略。根据实际场景的建议:

  • 复杂软件工程任务xhighmax(需验证工作成果)
  • 大规模代码审查xhigh(平衡质量与成本)
  • 简单快速的查询mediumlow(节省成本)
  • 长时间运行的 Agent 任务:避免使用 max,以防 token 用量失控 切换 Effort 时机的技巧:在第一轮输入时使用 xhigh 评估任务复杂度,再根据需要调整。

3. 充分利用 Auto mode 提升并行效率

Auto mode 是 Opus 4.7 赋能 Agent 工作流的核心功能。建议的使用模式:

  • 长周期任务(深度调研、代码重构):优先启用 Auto mode
  • 并行多 Agent 场景:Auto mode 使多实例并行成为可能,显著提升吞吐量
  • 权限白名单配置:结合 /fewer-permission-prompts 技能,识别并白名单化高频安全命令,减少不必要的交互 注意:Auto mode 目前面向 Max、Teams 和 Enterprise 用户开放。

4. 建立验证闭环是提升效率的关键

Boris Cherny 强调的"验证工作成果"是 Opus 4.7 时代产出效率提升 2-3 倍的秘诀。不同场景的验证方式: | 场景 | 验证方式 | |------|----------| | 后端开发 | 确保 Claude 知道如何启动服务器,进行 E2E 测试 | | 前端开发 | 使用 Claude Chromium 浏览器扩展,直接控制浏览器验证 | | 桌面应用 | 使用 Computer Use 功能进行 GUI 自动化验证 | | 长时间任务 | 使用 Recaps 功能回顾进度,确保代码真正跑通 | 建议的标准化工作流:Claude,做某某任务 /go 组合技能会自动执行:端到端自测 → 代码简化/重构 → PR 提交。

5. 调整 Agent 架构以适应新行为模式

Opus 4.7 的默认行为变化需要相应的架构调整:

  • 工具调用频率降低,推理增加:在需要积极使用工具的 Agent 场景中,需要在 Prompt 中明确指定工具使用策略
  • Subagent 生成更保守:并行多文件处理或多任务场景需要明确声明需求
  • 响应长度校准:如果依赖特定长度的输出,需要在 Prompt 中明确风格和语气要求,提供正向示例而非否定式指令 这些调整的目标是让 Agent 架构与 Opus 4.7 的新行为模式对齐,从而获得最佳性能。

相关实体

原文存档