跳转至

Claude Opus 4.7 并不是一次全面升级,甚至部分能力大幅衰退。\n\n大家应该在合适的场景下选择使用。\n\n昨晚 Opus 4.7 上线,全网又炸了。\n\n我仔细看了下官方博客 https://www.anthropic.com/news/claude-opus-4-7 \n\n发现这次的升级和之前有点不太一样。\n\n先说优点吧。\n\n编程:SWE-bench Pro 从 53.4% 涨到 64.3%,这是 Claude 的主战场,新模型不可能退步的。\n\n办公任务:OfficeQA Pro 从 57.1% 干到 80.6%,简单理解就是让它处理 Excel 和 Doc 这些文件更靠谱了。\n\n视觉:图像分辨率从 1568px 拉到 2576px。XBOW 安全视觉测试从 54.5% 到 98.5%,接近满分,这也是这次升级最能打的地方了。\n\n另外还有个非常容易忽略的点,4.7 的指令遵循能力大幅增强了。\n\n官方重点提醒了 — 如果你直接用旧 prompt 切 4.7 可能产生意外结果,可能以前模型会 \"脑补\" 你的意思,现在它直接照做。\n\n接下来我们再看看退步的部分。\n\n首先是长上下文检索能力大幅退步。\n\nMRCR v2 测试,256k 下从 91.9% 掉到 59.2%。1M 下更惨,78.3% 直接回到 32.2%。\n\n你要是喜欢把整本书、整个代码仓库塞进去问问题 — 别用 4.7,继续用 4.6。\n\n网页搜索:BrowseComp 从 83.7% 掉到 79.3%。\n\nAnthropic 也说了,做深度网页搜索,4.6 的 scaling curve 更好。\n\n翻译成人话 — deep research 场景,官方推荐你用 4.6。\n\n然后还有个最容易被忽略的:可能有隐形涨价。\n\nAPI 定价没变,还是 $5/$25。但 Anthropic 换了新 tokenizer。\n\n同一段代码、同一份文档、同一个 prompt,丢给 4.7 要多吃最多 35% 的 token。\n\n官方的解释是:模型更准了,一次过的概率更高,省了来回修改的轮次,所以总成本可能反而低。\n\n逻辑上没毛病。但这个逻辑成立的前提是 — 你的任务恰好落在 4.7 提升明显的场景。\n\n如果你日常做的是知识管理、写方案、数据分析这类提升不大的场景,那就是纯纯多烧 token。\n\n所以怎么选?\n\n写代码、办公自动化、视觉理解,屏幕操作类 Agent → 4.7,直接上。\n\n长文档精确检索、deep research → 4.6,别换。\n\n日常随便用用,考虑成本问题还是 4.6。\n\n一句话总结:Opus 4.7 在编程和视觉上有肉眼可见的飞跃。\n\n但全面升级?谈不上。

Ch01.363 Claude Opus 4.7 并不是一次全面升级,甚至部分能力大幅衰退。\n\n大家应该在合适的场景下选择使用。\n\n昨晚 Opus 4.7 上线,全网又炸了。\n\n我仔细看了下官方博客 https://www.anthropic.com/news/claude-opus-4-7 \n\n发现这次的升级和之前有点不太一样。\n\n先说优点吧。\n\n编程:SWE-bench Pro 从 53.4% 涨到 64.3%,这是 Claude 的主战场,新模型不可能退步的。\n\n办公任务:OfficeQA Pro 从 57.1% 干到 80.6%,简单理解就是让它处理 Excel 和 Doc 这些文件更靠谱了。\n\n视觉:图像分辨率从 1568px 拉到 2576px。XBOW 安全视觉测试从 54.5% 到 98.5%,接近满分,这也是这次升级最能打的地方了。\n\n另外还有个非常容易忽略的点,4.7 的指令遵循能力大幅增强了。\n\n官方重点提醒了 — 如果你直接用旧 prompt 切 4.7 可能产生意外结果,可能以前模型会 \"脑补\" 你的意思,现在它直接照做。\n\n接下来我们再看看退步的部分。\n\n首先是长上下文检索能力大幅退步。\n\nMRCR v2 测试,256k 下从 91.9% 掉到 59.2%。1M 下更惨,78.3% 直接回到 32.2%。\n\n你要是喜欢把整本书、整个代码仓库塞进去问问题 — 别用 4.7,继续用 4.6。\n\n网页搜索:BrowseComp 从 83.7% 掉到 79.3%。\n\nAnthropic 也说了,做深度网页搜索,4.6 的 scaling curve 更好。\n\n翻译成人话 — deep research 场景,官方推荐你用 4.6。\n\n然后还有个最容易被忽略的:可能有隐形涨价。\n\nAPI 定价没变,还是 $5/$25。但 Anthropic 换了新 tokenizer。\n\n同一段代码、同一份文档、同一个 prompt,丢给 4.7 要多吃最多 35% 的 token。\n\n官方的解释是:模型更准了,一次过的概率更高,省了来回修改的轮次,所以总成本可能反而低。\n\n逻辑上没毛病。但这个逻辑成立的前提是 — 你的任务恰好落在 4.7 提升明显的场景。\n\n如果你日常做的是知识管理、写方案、数据分析这类提升不大的场景,那就是纯纯多烧 token。\n\n所以怎么选?\n\n写代码、办公自动化、视觉理解,屏幕操作类 Agent → 4.7,直接上。\n\n长文档精确检索、deep research → 4.6,别换。\n\n日常随便用用,考虑成本问题还是 4.6。\n\n一句话总结:Opus 4.7 在编程和视觉上有肉眼可见的飞跃。\n\n但全面升级?谈不上。

📊 Level ⭐⭐ | 9.8KB | entities/claude-opus-47.md

Claude Opus 4.7 并不是一次全面升级,甚至部分能力大幅衰退。\n\n大家应该在合适的场景下选择使用。\n\n昨晚 Opus 4.7 上线,全网又炸了。\n\n我仔细看了下官方博客 https://www.anthropic.com/news/claude-opus-4-7 \n\n发现这次的升级和之前有点不太一样。\n\n先说优点吧。\n\n编程:SWE-bench Pro 从 53.4% 涨到 64.3%,这是 Claude 的主战场,新模型不可能退步的。\n\n办公任务:OfficeQA Pro 从 57.1% 干到 80.6%,简单理解就是让它处理 Excel 和 Doc 这些文件更靠谱了。\n\n视觉:图像分辨率从 1568px 拉到 2576px。XBOW 安全视觉测试从 54.5% 到 98.5%,接近满分,这也是这次升级最能打的地方了。\n\n另外还有个非常容易忽略的点,4.7 的指令遵循能力大幅增强了。\n\n官方重点提醒了 — 如果你直接用旧 prompt 切 4.7 可能产生意外结果,可能以前模型会 \"脑补\" 你的意思,现在它直接照做。\n\n接下来我们再看看退步的部分。\n\n首先是长上下文检索能力大幅退步。\n\nMRCR v2 测试,256k 下从 91.9% 掉到 59.2%。1M 下更惨,78.3% 直接回到 32.2%。\n\n你要是喜欢把整本书、整个代码仓库塞进去问问题 — 别用 4.7,继续用 4.6。\n\n网页搜索:BrowseComp 从 83.7% 掉到 79.3%。\n\nAnthropic 也说了,做深度网页搜索,4.6 的 scaling curve 更好。\n\n翻译成人话 — deep research 场景,官方推荐你用 4.6。\n\n然后还有个最容易被忽略的:可能有隐形涨价。\n\nAPI 定价没变,还是 $5/$25。但 Anthropic 换了新 tokenizer。\n\n同一段代码、同一份文档、同一个 prompt,丢给 4.7 要多吃最多 35% 的 token。\n\n官方的解释是:模型更准了,一次过的概率更高,省了来回修改的轮次,所以总成本可能反而低。\n\n逻辑上没毛病。但这个逻辑成立的前提是 — 你的任务恰好落在 4.7 提升明显的场景。\n\n如果你日常做的是知识管理、写方案、数据分析这类提升不大的场景,那就是纯纯多烧 token。\n\n所以怎么选?\n\n写代码、办公自动化、视觉理解,屏幕操作类 Agent → 4.7,直接上。\n\n长文档精确检索、deep research → 4.6,别换。\n\n日常随便用用,考虑成本问题还是 4.6。\n\n一句话总结:Opus 4.7 在编程和视觉上有肉眼可见的飞跃。\n\n但全面升级?谈不上。

Claude Opus 4.7 并不是一次全面升级,甚至部分能力大幅衰退。 昨晚 Opus 4.7 上线,全网又炸了。 我仔细看了下官方博客 https://www.anthropic.com/news/claude-opus-4-7 编程:SWE-bench Pro 从 53.4% 涨到 64.3%,这是 Claude 的主战场,新模型不可能退步的。 办公任务:OfficeQA Pro 从 57.1% 干到 80.6%,简单理解就是让它处理 Excel 和 Doc 这些文件更靠谱了。

相关实体

原文存档

深度分析

Anthropic 此次升级揭示了一个重要的模型优化规律:模型能力的提升往往不是全面的,而是通过 trade-off 实现的。Claude 4.7 在编程(SWE-bench Pro +10.9%)和视觉(XBOW +44%)上的显著提升,是以长上下文检索能力大幅退步为代价的(MRCR v2 256k 下 -32.7%,1M 下 -46.1%)。这种「此消彼长」的现象在 AI 模型迭代中并不罕见——当团队将更多参数和训练资源投向特定能力时,其他能力可能成为牺牲品。对于 AI 应用开发者而言,这意味着不能盲目追新,而需要根据自家产品的核心场景选择合适的模型版本。

指令遵循能力的增强是 4.7 最容易被忽视的亮点。官方提醒旧 prompt 直接切换可能产生意外结果——以前模型会「脑补」你的意思,现在模型直接照做。这个变化对 Agent 系统影响深远:更强的指令遵循意味着更可预测的 Agent 行为,但同时也意味着 prompt 工程需要重新校准。过度模糊或带有隐含期望的 prompt 在 4.7 上可能失效,开发者需要习惯更精确、更显式的指令表达方式。

Token 消耗增加 35% 是一个需要高度重视的隐性成本。表面上 API 定价没变,但新 tokenizer 导致的实际费用增长对成本敏感型应用冲击很大。Anthropic 的辩解逻辑上成立——模型更准、一次过的概率更高,省了来回修改的轮次。但这个逻辑成立的前提是任务恰好落在 4.7 提升明显的场景。如果你的用例是知识管理、写方案、数据分析这类提升不大的场景,那么用 4.7 就是纯烧钱。在做模型切换决策前,务必在真实数据集上测量实际 token 消耗和任务完成率,再做经济性评估。

Opus 4.7 与 4.6 的分化选择标志着 LLM 应用进入「场景化选型」时代。以前一个模型打天下,现在不同版本适合不同场景。写代码、办公自动化、视觉理解 Agent → 4.7;长文档精确检索、deep research → 4.6。这种分化将推动 AI 应用架构向「模型路由」方向发展——根据任务类型自动选择最优模型,而非盲目使用最新最强版本。对于构建复杂 AI 系统的团队,建立系统的模型评测体系和路由机制将是核心竞争力。

实践启示

  • 模型评测不能只看单项基准:选择 Claude 版本前,在真实业务数据上做端到端评测,测量任务完成率、token 消耗和延迟,而非仅看官方 benchmark 数字。不同版本在不同任务上表现差异巨大。
  • 长上下文场景坚守 4.6:如果你的产品重度依赖整本书、整个代码仓库的检索和理解,不要被 4.7 的光环迷惑,4.6 是更稳妥的选择。MRCR v2 的数字说明问题。
  • Prompt 全面审查再切换:从旧版模型切换到 4.7 前,务必 review 所有 prompt,移除模糊隐含的期望,用更显式精确的指令表达。切换后做一轮完整的回归测试。
  • 成本测算要包含实际 token 增长:预算规划时按 35% 的 token 增长预估,如果你的场景不在 4.7 优势区间,实际成本增加可能吃掉所有收益。
  • 考虑模型路由架构:在复杂 AI 产品中,根据任务类型动态路由到不同模型版本,而非一刀切用最新版,这是控制成本和保证效果的有效策略。