Latest open artifacts (#19):Qwen 3.5、GLM 5、MiniMax 2.5 — 中国实验室的前沿推进¶
Ch01.365 Latest open artifacts (#19):Qwen 3.5、GLM 5、MiniMax 2.5 — 中国实验室的前沿推进¶
📊 Level ⭐⭐ | 9.8KB |
entities/latest-open-artifacts-19-qwen-35-glm-5-minimax-25-chinese-la.md
Latest open artifacts (#19):Qwen 3.5、GLM 5、MiniMax 2.5 — 中国实验室的前沿推进¶
→ 原文存档
摘要¶
Interconnects 第 19 期 "Latest open artifacts" 汇总了 2026 年 2-3 月中国 AI 实验室在开放权重(open-weights)模型上的密集发布:Qwen、MiniMax、Z.ai、Ant Ling、StepFun 等均推出旗舰模型;同时行业仍密切关注 DeepSeek V4 的即将发布。本期引入新的"相对采用度指标"(Relative Adoption Metrics, RAM),用于在同一规模类别内标准化比较模型下载量,GPT-OSS 与 Kimi K2 Thinking 在 RAM 评分中表现突出。
核心要点¶
- Qwen3.5-397B-A17B:Qwen 团队发布跨多个尺寸的更新(dense 0.8B 到 27B,MoE 35B-A3B 到 397B-A17B),全部多模态、默认使用推理,基于 Qwen-Next 架构与 GDN 层;指令跟随、多语言、风格均有显著提升,但小模型仍存在"过度思考"问题。
- Step-3.5-Flash:StepFun 推出 196B-A11B MoE,跨多个基准表现强劲,尤其在数学任务上击败多个尺寸数倍于它的模型。
- GLM-5:智谱(Z.ai)发布 744B-A40B 模型,需求大增导致其编码计划(coding plan)价格上涨,并附有完整技术报告(arXiv:2602.15763)。
- MiniMax-M2.5:尽管参数量相对较小,MiniMax-M2.5 已能与 GLM-5、Kimi K2.5 比肩,迅速成为社区最受欢迎模型之一。
- OpenThinker-Agent-v1:OpenThoughts 团队(此前以 OpenThoughts 3 等开放推理数据集著称)首次进军 agentic reasoning,发布 SFT 与 RL 数据以及"lite"版本的终端任务评测集。
- Tri-21B-Think 与 MiniCPM-SALA:分别来自韩国 Trillion Labs(21B 推理模型,支持英/韩/日)与 openbmb(8B 稀疏注意力,支持 1M 上下文窗口)。
深度分析¶
开放权重前沿的"中国加速"¶
过去一个月开放权重模型生态发生了显著变化:所有头部中国实验室——Qwen、MiniMax、Z.ai、Ant Ling、StepFun——均发布了旗舰模型。这是开放权重 AI 前沿推进最密集的一波。
与此同时,DeepSeek V4 的发布仍是行业焦点,"传闻持续加速"。其前身 DeepSeek V3.2 在 RAM 评分上表现"远低于 DeepSeek 2025 年初的发布",意味着 V4 面临更高的预期压力。
RAM:相对采用度指标的引入¶
Interconnects 与 Atom Project 联合推出的 Relative Adoption Metrics (RAM) 是一个衡量开放权重模型相对采用度的标准化工具:
- 核心思想:在同一参数规模类别内,将某模型的下载量与同类模型归一化比较。
- 判定基准:RAM 分数 >1 意味着该模型有望成为其规模类别下历史下载量前 10 的模型。
- 典型赢家:GPT-OSS "实际上是 Llama 3.1 以来最受欢迎的开放权重美国模型";Kimi K2 Thinking 与多个 OCR 模型表现优异。
- 典型输家:DeepSeek V3.2 等近期大模型采用度"远低于 DeepSeek 2025 年初的发布"。
这一指标比单纯的 HuggingFace 下载量计数更有意义——它控制了规模类别与发布时长两个变量,更能反映真实的社区采用情况。
Qwen3.5:架构升级与权衡¶
Qwen3.5 是 Qwen 团队的长期等待更新,亮点包括:
- 架构创新:基于 Qwen-Next 架构 + GDN 层(Gated Delta Network,一种状态空间模型变体,区别于传统 Transformer 的 attention 机制)。
- 多模态原生:所有尺寸模型均支持多模态。
- 推理默认开启:默认使用链式推理。
- 小尺寸版本实用化:提供 0.8B 到 27B 的 dense 模型,覆盖边缘部署场景。
- 指令跟随与多语言增强:相比 Qwen 3 显著提升。
- 已知问题:小模型"过度思考"(overthinking)仍存在,可通过在 chat template 中禁用推理缓解。
Qwen 品牌 + 混合架构的组合是否能在 Qwen 3 的基础上进一步扩大采用,是 Interconnects 重点关注的问题之一。
GLM-5:商业化压力的信号¶
GLM-5 由智谱 Z.ai 推出:
- 规格:744B-A40B MoE,总参数 744B,每次推理激活 40B。
- 市场反响:需求大增导致编码计划(coding plan)价格上涨。
- 完整技术报告:arXiv:2602.15763 提供详细架构与训练信息。
价格上涨本身是一个重要信号——开放权重模型在编码场景下开始具备商业化定价能力,挑战了"开源模型只能免费"的传统认知。
智能体推理(Agentic Reasoning)的开放化¶
OpenThinker-Agent-v1 是本期最值得关注的"非传统模型"项目:
- OpenThoughts 团队背景:此前以 OpenThoughts 3(1.2M 数据集)等开放推理数据集著称。
- 首次进军 agentic reasoning:发布 SFT(监督微调)与 RL(强化学习)数据。
- 配套评测:提供"lite"版本的终端任务评测集,用于评估小模型。
这一动向意味着 agentic reasoning 训练数据的开放化已拉开序幕,对 Agent 工程能力图谱 中"训练数据"维度的开放生态具有结构性意义。
稀疏注意力与长上下文¶
MiniCPM-SALA 由 openbmb 发布,8B 参数 + 稀疏注意力,支持 1M 上下文窗口。
稀疏注意力(Sparse Attention)的应用意味着模型可以在有限算力下处理远超传统 attention 机制的上下文长度,这对长文档理解、代码库级推理、多轮对话记忆等场景具有直接价值。
实践启示¶
- 选型应基于 RAM 而非纯下载量:在评估开放权重模型时,关注同一规模类别下的 RAM 分数,能更准确判断模型的真实采用趋势与社区支持活跃度。GPT-OSS、Kimi K2 Thinking 等"被低估"的模型可能更适合作为基础底座。
- GDN 等非 Transformer 架构值得关注:Qwen-Next + GDN 层的组合表明状态空间模型(SSM)变体在主流大模型中开始占据一席之地。对推理延迟敏感的场景,应优先评估此类架构的推理成本优势。
- Agent 训练数据开始开放化:OpenThinker-Agent-v1 的 SFT/RL 数据开放,为中小团队构建垂直 agent 提供了新基座。可结合 Agent 循环设计 与 Agent 评测基准 进行二次微调。
- 开放权重模型的商业化路径已打开:GLM-5 编码计划涨价证明开放权重 + 增值服务(API、托管、fine-tuning 服务)的混合商业模式具备可持续性。对希望控制成本的团队,付费开放权重 API 可能优于闭源 API。
- "小而强"路线持续被验证:MiniMax-M2.5 以相对小的参数量达到 GLM-5 级别性能,说明数据质量 + 训练方法学的进步比单纯堆参数更重要。在 Agent 工程能力图谱 中,应将"小模型 + 强推理"视为独立分支评估。
- 稀疏注意力是长上下文的关键路径:1M 上下文的 MiniCPM-SALA 表明稀疏注意力工程化已成熟。对 RAG、代码库分析、多文档摘要等场景,应优先评估稀疏注意力模型。
关联实体¶
- DeepSeek V4 — 业界关注度最高、即将发布的中国前沿模型
- CybersecQwen 4B — Qwen 在安全垂域的专用模型
- OpenClaw 完全指南 — Agent 工具栈的实践参考
- Agent 记忆系统的工程实践 — 长上下文在 Agent 记忆中的工程化
- Claude Code 源码核心机制 — 编码场景的 Agent 实现细节
- Agent 循环设计 — Agent 评测与训练的核心范式