DeepSeek Visual Primitives:视觉原语作为思考媒介¶
Ch09.118 DeepSeek Visual Primitives:视觉原语作为思考媒介¶
📊 Level ⭐⭐⭐ | 10.0KB |
entities/deepseek-visual-primitives.md
核心定位¶
DeepSeek 2026-04-30 发布的视觉原语论文。核心创新:让模型在思考过程中输出坐标(bounding box / point)作为"用手指着图说话"的媒介,把 grounding 从 post-hoc verification 变成 intrinsic medium of thought。 ^["raw/articles/deepseek-visual-primitives-thinking"]
核心概念:Reference Gap¶
Perception Gap vs Reference Gap¶
| 术语 | 含义 | 主流解决方案 |
|---|---|---|
| Perception Gap(感知鸿沟) | 模型没看清 | 高分辨率切割、动态分块 |
| Reference Gap(指代鸿沟) | 模型说不清楚"指哪个" | 视觉原语(坐标) |
| DeepSeek 认为:感知再强,指代不准也白搭。 ^["raw/articles/deepseek-visual-primitives-thinking"] |
"看见" vs "看清楚" vs "说清楚指哪个"¶
这是三件不同的事。主流路径只解决了前两件。 ^["raw/articles/deepseek-visual-primitives-thinking"]
Point 为什么比框更适合拓扑推理¶
- 框适合定位具体物体(定位准、信息量大)
- 点适合抽象指代(轨迹、路径、交叉口方向)
- 迷宫/路径追踪用坐标(x, y)没有歧义,纯文本 CoT 走几步就乱了
关键技术数据¶
压缩效率¶
| 模型 | KV cache 条目(800×800图) | 7 benchmark 平均分 |
|---|---|---|
| Gemini-3-Flash | ~1100 | 76.5% |
| Claude-Sonnet-4.6 | ~870 | 65.3% |
| GPT-5.4 | ~740 | 71.1% |
| Qwen3-VL-235B-A22B | ~660 | 68.1% |
| Gemma-4-31B | ~289 | 69.7% |
| DeepSeek(本文) | ~90 | 77.2% |
| DeepSeek 用比 Claude 少 9 倍、比 Gemini 少 12 倍的 KV cache 条目,做出了小幅领先平均分。 ^["raw/articles/deepseek-visual-primitives-thinking"] |
压缩链路(三步)¶
- ViT 切块(DeepSeek-ViT,14×14 像素/patch)→ 2916 个 patch token ^["raw/articles/deepseek-visual-primitives-thinking"]
- 3×3 空间压缩(相邻9个 patch 压成1个)→ 324 个 ^["raw/articles/deepseek-visual-primitives-thinking"]
- Compressed Sparse Attention(每4个压成1个)→ 81 个 ^["raw/articles/deepseek-visual-primitives-thinking"] 总压缩比:7056 倍 ^["raw/articles/deepseek-visual-primitives-thinking"]
拓扑推理领先幅度¶
| 任务 | DeepSeek | 第二名 | 领先 |
|---|---|---|---|
| 迷宫导航 | 66.9% | Gemini 49.4% | +16.3pp |
| 路径追踪 | 56.7% | GPT-5.4 46.5% | +10.2pp |
| 所有 frontier 模型在拓扑推理任务上均表现欠佳(论文原话)。 ^["raw/articles/deepseek-visual-primitives-thinking"] |
5阶段训练管线¶
专家化设计¶
- F_TwG:thinking with grounding(用框思考)
- F_TwP:thinking with pointing(用点思考)
- 分开训避免模式冲突
三层 RL 奖励¶
- Format RM:格式合规、防止重复框 ^["raw/articles/deepseek-visual-primitives-thinking"]
- Quality RM:LLM 评委5维打分(冗余度/一致性/自相矛盾/引用有效性/reward hacking) ^["raw/articles/deepseek-visual-primitives-thinking"]
- Accuracy RM:任务特定精度奖励 ^["raw/articles/deepseek-visual-primitives-thinking"]
OPD 蒸馏¶
合体后的统一模型在每个专项上不如各自的专家模型,用蒸馏闭合差距。 ^["raw/articles/deepseek-visual-primitives-thinking"]
数据设计亮点¶
Anti-cheap 思维¶
- 对抗迷宫(看似可解实不可解):教模型"不要光看就敢答,要真探索过"
- 同色路径追踪:强迫模型靠曲率连续性判断,不能靠颜色作弊
多语言零-shot¶
没有中文训练数据但能中文推理——说明视觉原语和语言能力是解耦的。 ^["raw/articles/deepseek-visual-primitives-thinking"]
局限¶
- 需要触发词:模型不能自主判断"需不需要用视觉原语" ^["raw/articles/deepseek-visual-primitives-thinking"]
- 极细粒度精度不够:坐标 0-999 整数,800×800 图上每单位=0.8像素 ^["raw/articles/deepseek-visual-primitives-thinking"]
- 拓扑推理跨场景泛化未验证 ^["raw/articles/deepseek-visual-primitives-thinking"]
对 coding agent 的意义¶
DeepSeek 是七大 coding agent 旗舰中最后一个把视觉接入主力产品的,但以最贵的方式补课:不是"做了一个差不多的视觉模型",而是"做了一个全新范式的视觉模型"。 ^["raw/articles/deepseek-visual-primitives-thinking"] coding agent 真正卡住人的不是"看不清细节",是"描述不清楚这个按钮的下面那个组件"。视觉原语能力对这类场景有独特优势。 ^["raw/articles/deepseek-visual-primitives-thinking"]
深度分析¶
1. Reference Gap 是比 Perception Gap 更根本的视觉理解瓶颈¶
主流路线在高分辨率切割、动态分块上持续投入,但这解决的是"感知鸿沟"——让模型看得更清楚。DeepSeek 的核心论点是:感知再强,如果说不清楚"我指的是图上哪个位置",视觉理解仍是不完整的。"看见""看清楚""说清楚指哪个"是三件不同的事,主流只解决了前两件。 ^["raw/articles/deepseek-visual-primitives-thinking"]
2. 视觉原语将 grounding 从验证工具升级为思考媒介¶
这是范式层面的转移。之前的工作(Visual CoT、CogCom、GRIT)将 grounding 定位为 post-hoc verification:模型先用文字想完,再用框来事后验证自己的判断。DeepSeek 将 grounding 变为 intrinsic medium of thought:模型边思考边用坐标指着图说话,坐标本身就是思考的一部分,而非思考的结果。这一转变使视觉信息在 token 序列中的角色从"证据"变为"载体"。 ^["raw/articles/deepseek-visual-primitives-thinking"]
3. 7056 倍压缩效率重新定义多模态 LLM 的工程可行边界¶
DeepSeek 用 ~90 KV cache 条目实现 77.2% 平均分,而 Claude 用 ~870 条目只有 65.3%——压缩效率与性能同时领先。3×3 空间压缩 + Compressed Sparse Attention 的两段式压缩链路证明了:在 ViT 输出端做token-level 压缩,比在attention 层面压缩更高效且信息损失更小。 ^["raw/articles/deepseek-visual-primitives-thinking"]
4. 拓扑推理是所有 frontier 模型共同的能力缺口¶
论文原文"Notably, all frontier models exhibit suboptimal performance on topological reasoning tasks"——这是对 GPT-5.4、Gemini-3-Flash、Claude-Sonnet-4.6 的集体点名。迷宫导航 DeepSeek 66.9% vs Gemini 49.4%(+16.3pp),路径追踪 56.7% vs GPT-5.4 46.5%(+10.2pp)。差距的根源在于:纯文本 CoT 无法长时间维持精确空间状态,而坐标(x, y)是歧义最低的空间语言。 ^["raw/articles/deepseek-visual-primitives-thinking"]
5. 专家化训练→统一→蒸馏的工程闭环值得 Agent 系统借鉴¶
DeepSeek 的 5 阶段管线(Stage 2 专家化 SFT → Stage 3 专家化 RL → Stage 4 统一 RFT → Stage 5 OPD 蒸馏)展示了一个完整的"分-合-调"工程哲学:先让专家各司其职,再合体,最后用蒸馏弥合合体的损失。这与 multi-agent 系统中"专家 agent → 协调 agent → 知识蒸馏"的路径高度相似。 ^["raw/articles/deepseek-visual-primitives-thinking"]
实践启示¶
1. 拓扑推理类 coding agent 任务应优先考虑 DeepSeek 视觉原语方案¶
需要视觉定位的 coding 场景(UI 组件定位、代码-截图对应、图表理解)中,DeepSeek 的 point 能力(坐标指代)在指代精确度上显著优于基于框的方法。选型评估时应将"指代精度"而非"图像分辨率"作为视觉能力的关键指标。 ^["raw/articles/deepseek-visual-primitives-thinking"]
2. coding agent 视觉能力评估应新增"说清楚指哪个"维度¶
当前 coding agent 评测普遍关注分辨率支持、token 成本、响应速度,对"能否在思考过程中用坐标指代图上具体位置"缺乏评测标准。DeepSeek 的论文表明,这一能力与 agent 的调试、UI 修改、视觉审查等任务高度相关——这些正是现有 benchmark 的盲区。 ^["raw/articles/deepseek-visual-primitives-thinking"]
3. 多语言部署无需额外微调视觉原语能力¶
视觉原语(坐标、框)是视觉-语言解耦的表示,中文语境下模型直接复用基模的多语言能力。这意味着非英语市场的 coding agent 集成时,视觉原语模块不需要额外的本地化训练投入。 ^["raw/articles/deepseek-visual-primitives-thinking"]
4. 警惕触发词限制对自动化场景的影响¶
DeepSeek 目前无法自主判断"是否需要用视觉原语",必须由外部触发。这一限制在 human-in-the-loop 场景下可接受,但在 fully autonomous coding agent 中会导致模型在需要指代时忘记用坐标。系统设计时应加入触发词策略层(rule-based 或 LLM 判断)。 ^["raw/articles/deepseek-visual-primitives-thinking"]
5. 极细粒度视觉任务需结合高分辨率方案而非单独使用视觉原语¶
坐标精度 0-999(对应 800×800 图每单位 0.8 像素)在 pixel-level 精确定位场景不够用。未来的正确路径是:视觉原语(粗粒度指代)+ 高分辨率感知(细粒度验证)结合,而非单独依赖任一方案 。 ^["raw/articles/deepseek-visual-primitives-thinking"]
相关阅读¶
相关阅读¶
- SenSNova U1(中国首个真实超 GPT-4.5 的 MoE)
原文链接:https://mp.weixin.qq.com/s/tz7Zdbv8KhHtG8fCGqQ5LQ