Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.¶

Ch01.394 Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.¶

📊 Level ⭐⭐ | 9.0KB | entities/latest-open-artifacts-21-open-model-bonanza-gemma-4-deepseek.md

Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.¶

原文存档：原文存档

Core insight: CAISI V4 评估使用 IRT（Item Response Theory）方法论对开放模型进行 Elo 评分，但其结果受限于三个 benchmark 的异常值（CTF-Archive-Diamond、PortBench、ARC-AGI-2），且评估 harness（bash+for-loop）与模型实际训练环境（Claude Code/OpenCode）严重不匹配，导致能力对比系统性失真。Interconnects 两位作者对此持不同观点——Florian 认为开放前沿模型与闭源替代品的真实性能差距更小，Nathan 认为差距更大但基准测试同样不完美。

CAISI V4 IRT 评估的方法论缺陷¶

CAISI（Center for AI Standards and Innovation）使用 Item Response Theory 在 9 个不同 benchmark 上计算 Elo 分数，以评估 DeepSeek V4 等开放模型与美国前沿模型的差距。表面上这种 IRT 方法允许跨不同 benchmark 集进行比较，但实际结果显示 DeepSeek V4 在 CTF-Archive-Diamond、PortBench（CAISI 私有 benchmark）和 ARC-AGI-2 上得分异常低——其中 CTF-Archive-Diamond 仅运行了部分 benchmark 并通过 IRT 外推，PortBench 是闭源评估，ARC-AGI-2 的评分方法与公开 leaderboard 不同。这些 benchmark 特定的异常值对总体 Elo 产生了巨大影响，放大了能力差距的感知幅度。

当使用 Epoch AI 的 ECI（Epoch Capability Index）时——同样基于 IRT 和多 benchmark 集合——开放模型与闭源模型的差距缩小至 R1 以来的 3-7 个月，而非 CAISI 报告所显示的更大幅度。两种指标体系给出不同结论的事实本身，就揭示了单一基准数字掩盖了开放-闭源动态中的关键细微差别。

Harness 选择扭曲能力评估¶

真正的问题在于标准化评估 setup 与模型实际训练/使用环境之间的系统性错配。编码任务使用 bash 和固定 token 预算的 for-loop 进行评估，而非使用 Claude Code 或 OpenCode 这类模型实际训练时使用的 harness。CAISI 和 ECI 都使用标准化（且过于简单）的 setup 来比较模型能力——ProgBench 基于此方法论声称将应用移植到另一种语言"目前不可能"，而实际上 Bun 已从 Zig 移植到 Rust，涉及 100 万行代码修改。

这意味着前沿模型对比需要使用偏好的 harness 以及模型特定的 prompting，而不仅仅是标准化测试环境。评估框架的选择本身就是一种选择偏见，会系统性地低估在真实使用环境中训练的模型的真实能力。

开放模型生态的关键进展¶

本月 DeepSeek、 Xiaomi、Moonshot、Poolside 等所有开放前沿实验室均发布了新模型。Gemma 4 系列（包括 4B、9B、31B dense 模型和 26B-A4B MoE）最重要的是转向 Apache 2.0 许可证，消除了自定义许可证的法律不确定性。MiMo-2.5-Pro（Apache 2.0）在基准测试和真实使用中都与其他旗舰模型并驾齐驱。Kimi K2.6 专注于长时程任务性能，展现了开放模型能够在数小时内完成复杂任务的能力。DeepSeek-V4-Flash（284B-13B）实际表现优于 Pro（1.6T-A49B MoE），Flash 才是真正值得关注的模型。

关键数据/实践启示¶

IRT 方法论局限：CAISI V4 的 Elo 差异主要由三个 benchmark 异常值驱动，跨 benchmark IRT 外推的有效性存疑
Harness 失配：bash+for-loop 评估 ≠ Claude Code/OpenCode 训练环境，能力评估存在系统性低估
ECI vs CAISI：Epoch AI 的 ECI 显示开放-闭源差距为 3-7 个月，显著小于 CAISI 报告
Apache 2.0 转向：Gemma 4 放弃自定义许可证是开放模型生态的重要里程碑
DeepSeek-V4-Flash 优于 Pro：1.6T MoE 模型反而不如 284B Flash，反映出规模与能力的非线性关系

深度分析¶

1. #21 期的模型密集度反映了开源加速趋势¶

本期标题"Open model bonanza"直接反映了 2026 年 Q2 的开源模型发布密度——Gemma 4、DeepSeek V4 系列等多个旗舰模型同期发布。这种密度在 2025 年是不可想象的，说明开源模型的开发生态正在从"少数玩家"转向"多玩家并行"。

2. Gemma 4 的 Google 战略定位¶

Google 通过 Gemma 系列在开源生态中建立了与 Qwen、DeepSeek 不同的定位——不是最大参数模型，而是"最易部署的高质量小模型"。这与 Gemma 4 Open Model Adoption Framework Interconnects 中的采纳框架分析一致。

3. 项目反应理论（IRT）在模型评估中的应用¶

21 期引入 IRT（Item Response Theory）进行模型评估，这是一个从教育测量学借用的统计框架——不仅看"答对多少题"，还看"题目有多难"和"区分度多高"。这比简单的准确率更公平，因为它校准了题目难度对得分的影响。¶

4. 开源模型的"长尾评测"问题¶

主流 benchmark（MMLU、GSM8K）被大量模型刷榜后区分度下降，需要更具挑战性的评测来区分前沿模型。IRT 是一个方向，但社区还需要更多"不可刷"的评测（如真实工程任务、多步推理）。

5. DeepSeek V4 发布对竞争格局的影响¶

DeepSeek V4 的发布（如 Deepseek V4 所述）重新定义了开源前沿的竞争基准——其他模型需要在 V4 的能力水平上竞争而非 V3。

实践启示¶

1. 模型选型：关注 IRT 校准后的得分而非原始准确率¶

IRT 校准后的得分更能反映模型的真实能力，减少了"简单题目答对=能力强"的偏差。

2. 追踪 Interconnects Latest Open Artifacts 系列¶

这是跟踪开源模型前沿的最佳信源之一，每期包含新模型发布、RAM 追踪和评估方法论更新。

3. Gemma 4 适合"易部署"场景¶

如果部署环境受限（边缘设备、成本敏感），Gemma 4 的尺寸/质量比可能是最佳选择。

4. 评估框架：引入 IRT 或类似校准方法¶

如果你的团队在比较多个模型，使用 IRT 校准可以减少题目难度偏差，得到更公平的比较。

5. 关注"不可刷"评测的发展¶

主流 benchmark 的区分度在下降，关注 LiveCodeBench、SWE-bench 等动态更新的评测，它们更能反映模型的真实能力。

Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.¶

Ch01.394 Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.¶

Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.¶

CAISI V4 IRT 评估的方法论缺陷¶

Harness 选择扭曲能力评估¶

开放模型生态的关键进展¶

关键数据/实践启示¶

深度分析¶

1. #21 期的模型密集度反映了开源加速趋势¶

2. Gemma 4 的 Google 战略定位¶

3. 项目反应理论（IRT）在模型评估中的应用¶

21 期引入 IRT（Item Response Theory）进行模型评估，这是一个从教育测量学借用的统计框架——不仅看"答对多少题"，还看"题目有多难"和"区分度多高"。这比简单的准确率更公平，因为它校准了题目难度对得分的影响。¶

4. 开源模型的"长尾评测"问题¶

5. DeepSeek V4 发布对竞争格局的影响¶

实践启示¶

1. 模型选型：关注 IRT 校准后的得分而非原始准确率¶

2. 追踪 Interconnects Latest Open Artifacts 系列¶

3. Gemma 4 适合"易部署"场景¶

4. 评估框架：引入 IRT 或类似校准方法¶

5. 关注"不可刷"评测的发展¶

相关实体¶

相关引用¶