DeepSeek视觉原语论文：当所有人在堆图像分辨率时，它在堆「指代精度」¶

Ch01.863 DeepSeek视觉原语论文：当所有人在堆图像分辨率时，它在堆「指代精度」¶

📊 Level ⭐⭐⭐ | 13.0KB | entities/deepseek-vision-primitives.md

DeepSeek视觉原语论文：视觉指代精度新范式¶

核心观点¶

DeepSeek 2026年4月30日发布论文 Thinking with Visual Primitives，提出「视觉原语」概念——将坐标和边界框作为视觉推理的最小单元，让模型一边推理一边「用手指着图说话」。这是 DeepSeek 补齐多模态能力的核心动作，同时也是一种反共识的技术路线选择：主流在堆图像分辨率，DeepSeek 在堆指代精度。

背景时间线¶

时间	事件
4月24日	DeepSeek V4 论文发布（58页）
4月29日	DeepSeek App 灰度内测识图模式
4月30日	Thinking with Visual Primitives 论文公开
V4 论文解读中已预测多模态将成为 V5 方向。V4 论文发布后 6 天内，App 灰度内测和论文接续亮相，完成了「论文铺路、模型后亮相」的完整节奏。

关键创新¶

1. 视觉原语作为思考媒介¶

DeepSeek 提出两个核心术语区分自己和之前的工作：

先前工作： grounding 作为 post-hoc verification（事后验证机制）——模型先想完，再用框来确认「我刚才说的那个东西确实在这里」
DeepSeek：视觉原语作为 intrinsic medium of thought（思考的内在媒介）——模型一边推理一边输出坐标，坐标是思考过程的一部分「思考的媒介」vs「验证的证据」——前者是思维语言，后者是脚注。

2. 指代精度 vs 分辨率¶

路线	代表做法	核心思路
主流（Anthropic、Google等）	高分辨率切割、动态分块	让模型「看得更清楚」
DeepSeek（本文）	坐标作为最小推理单元	让模型「指得准」
主流路线提升整体感知（perception），DeepSeek 提升空间理解能力（grounding precision）。感知变强不等于指代变准——这是两个不同的问题。

3. 效率对比¶

一张 800×800 图片的 KV Cache 条目数对比： | 模型 | KV Cache 条目 | 平均分 | |---|---|---| | Gemini-3-Flash | ~1100 | 76.5% | | Claude-Sonnet-4.6 | ~870 | 65.3% | | GPT-5.4 | ~740 | 71.1% | | Qwen3-VL-235B-A22B | ~660 | 68.1% | | Gemma-4-31B | ~289 | 69.7% | | DeepSeek（本文） | ~90 | 77.2% | DeepSeek 用比 Claude 少 9 倍、比 Gemini 少 12 倍的 KV 条目，做出了小幅领先的平均分。整体压缩比 7056 倍。

4. 拓扑推理突破¶

最有意思的差距不在平均分，而在拓扑推理任务： | 任务 | DeepSeek | Gemini-3-Flash | GPT-5.4 | Claude-Sonnet-4.6 | |---|---|---|---|---| | DS_Maze_Navigation（迷宫导航） | 66.9% | 49.4% | 50.6% | 48.9% | | DS_Path_Tracing（路径追踪） | 56.7% | 41.4% | 46.5% | 30.6% | 在需要长时间维持空间状态的拓扑推理任务上，DeepSeek 领先第二名 16.3 个百分点。论文原话：「所有 frontier 模型在拓扑推理任务上均表现欠佳，说明多模态大模型的推理能力还有相当大的提升空间。」

技术解读¶

视觉原语格式¶

模型在生成思考过程时输出两种坐标格式： 边界框（bounding box）：

<|ref|>狗<|/ref|><|box|>120,340,580,890<|/box|>

意思是「这只狗在图上左上角到右下角这个矩形区域里」。坐标归一化到 0-999 整数。 点（point）：

<|point|>[[357,369],[260,372]]<|/point|>

意思是「这个点到那个点」。适合轨迹、路径、交叉口方向选择等无法用框表达的场景。

压缩链路¶

整个 token 压缩链路有三步： 1. ViT 切块：DeepSeek-ViT 14×14 像素一个 patch，756×756 图切成 2916 个 patch token 2. 3×3 空间压缩：在 ViT 出口处每 9 个相邻 patch token 沿通道维度压缩成 1 个，2916 压成 324 3. Compressed Sparse Attention：每 4 个 KV 条目再压成 1 个，324 变成 81 总压缩比：571,536 像素 → 81 个 KV 条目 = 7056 倍。

训练管线：5阶段专家化¶

Pretraining：从 HuggingFace 爬取 97,984 个标注了 object detection 或 grounding 的数据集，经过语义审核（剔除乱码、私人实体、模糊缩写）和几何质量审核（剔除漏标超 50%、严重截断、超大框）后得到约 4000 万高质量样本
Specialized SFT：训练两个专家模型 F_TwG（用框思考）和 F_TwP（用点思考），分开训练避免模式冲突
Specialized RL：用 GRPO 和三层奖励（Format RM、Quality RM、Accuracy RM）打磨专家模型
Unified RFT：将两个专家合体成统一模型 F
On-Policy Distillation：闭合"合体后各专项不如专家"的差距，统一模型 F 同时学习两个专家的输出分布

密集奖励设计¶

计数任务的奖励函数：R(ŷ, y) = α · exp(−β · |ŷ−y| / (|y|+1))，α=0.7, β=3。预测值偏离真值越远，奖励指数衰减。这给模型留了平滑的学习信号，而非 0/1 二值奖励的悬崖式梯度。迷宫任务分 5 项加权：因果探索进度 + 探索完整性 + 穿墙惩罚 + 路径有效性 + 答案正确性。

Anti-Cheat 数据设计¶

对抗迷宫：先生成可解迷宫，故意在中间堵几堵厚墙让它看起来能走但实际走不通，教会模型「不要光看就敢答，要真探索过」
同色曲线：路径追踪数据全部做成同色版本，强迫模型靠曲率连续性而非颜色作弊

语言无关性彩蛋¶

论文明确写道：「虽然关于视觉原语的后训练数据里没有任何中文语料，但模型依然能用中文思考和回答，这是从基座模型继承下来的多语言能力。」视觉原语（坐标）接管空间推理，语言由基座模型接管——两者解耦良好。

深度分析¶

Perception Gap vs Reference Gap¶

学术界给主流路径的问题起了名字：Perception Gap——模型推理失败是因为没看清，把分辨率拉高就好了。DeepSeek 怼的就是这个共识。他们的论点是：感知再强，指代不准也白搭。这件事被叫做 Reference Gap（指代鸿沟）。用数人数的场景来理解：60 个人三排站着，让你数「穿条纹队服、坐前排、不戴帽子的有几个」。不用手指指着用，你就得在脑子里维持一个「我数到哪了」的列表，三个人之后就会乱。主流路径让模型「看得见」每个人，这是感知；但模型推理时只能用「左数第三个穿红衣服的」这种语言来指代，多步推理之后就崩了。 看见 ≠ 看清楚 ≠ 说清楚指哪个——这是三件不同的事，主流路径只解决了前面两件。

为什么 DeepSeek 是最后一个但选择反共识路线¶

DeepSeek 是七大 coding agent 玩家里最后一个把视觉接入主力产品的旗舰：比 GLM-5V-Turbo 晚 28 天，比 Kimi K2.5 晚 3 个月，比 Anthropic 晚两年，比 Gemini 晚两年半。他们一直在等一个更好的方法——不是「我也做了一个差不多的视觉模型」，而是「我做了一个全新范式的视觉模型，顺便把基础能力一起补上了」。

5阶段训练管线的工程哲学¶

先专家化（Specialized SFT + RL）再合体（Unified RFT）再蒸馏（On-Policy Distillation），每一步都不偷懒。合体后比单个专家差是意料之中的（a noticeable performance gap remains），所以最后用蒸馏闭合差距。这是一个漂亮的工程闭环：专家化是为了专项极致，合体是为了统一推理，蒸馏是为了消除差距。

视觉原语让模型更接近人类认知¶

论文中有个例子：模型看一张左边是切开的水果（纹路像猫脸）、右边是一只真猫的图，回答「为什么这张图很搞笑」。模型在水果上标出黑点（模拟猫瞳孔）、深色纹理（模拟猫鼻子），然后在真猫上标出白色脸、绿色眼睛、粉色鼻子，最后总结相似性是搞笑来源。模型在做的事情和你看到这张图时大脑做的事情几乎一样——先注意到「水果上的黑点像眼睛」，然后才觉得搞笑。「用手指着思考」本来就是人类做事的方式：数数用手指、走迷宫用手指、解释路线用手指、描述设计稿用手指。手指是思维的延伸，不是思维之外的辅助。DeepSeek 把这件事变成了模型能做到的事。

实践启示¶

1. 视觉理解对 Coding Agent 是必须的¶

视觉理解对 coding agent 来说已经是「必须」而非「锦上添花」。Coding agent 的工作场景里，纯文本已经不够用了：截一张前端页面给 AI 判断布局是否崩、截一张报错给 AI 判断是不是网络问题、让 AI 读设计稿直接生成组件代码——这些任务用文字描述根本说不清。

2. 堆指代精度可能比堆分辨率更高效¶

DeepSeek 的结果显示，用 1/10 的 KV cache 做到了小幅领先平均分。这意味着对于需要精确定位（如 UI 测试、图表理解、文档分析）的场景，与其追求更高分辨率，不如让模型学会用坐标指着自己正在看的区域。效率差异会在大规模部署时显著放大。

3. Grounding 应作为思考媒介而非验证工具¶

之前把 grounding 加入 chain-of-thought 的工作（Visual CoT、CogCom、GRIT 等）都是让它做 post-hoc verification，模型先想完再用框确认。DeepSeek 的路线是把 grounding 内化为思考本身的一部分——坐标是思考的语言，不是思考的脚注。在设计多模态 agent 系统时，应该考虑让视觉指代成为模型推理过程的有机组成，而非事后添加的验证层。

4. Coding Agent 视觉的新评判维度¶

DeepSeek 把比赛维度换了：之前大家比的是「我的视觉模型能看 4K 图」「我的视觉模型 token 多便宜」，现在比的是「我的视觉模型能不能在思考的时候用手指着图说话」。对于需要处理「这个按钮的下面那个组件」「左边第三个卡片」这类任务的 coding agent，指代精度比分辨率更关键。

5. 拓扑推理是当前多模态模型的共同短板¶

所有 frontier 模型在拓扑推理任务上都表现欠佳这件事值得特别关注。如果你的应用场景涉及地图导航、电路图理解、流程图分析、布局理解等需要长时间维持空间状态的任务，当前的多模态模型都可能存在这个短板。DeepSeek 用坐标解决了这个问题，但这需要特定的训练数据（46万迷宫 + 12.5万路径追踪）。

6. 触发词限制是当前工程的折中¶

论文坦诚模型目前不能自主判断「这道题需不需要用手指」，必须有触发词才会启用视觉原语（所有示例都有 [Trigger_Placeholder]）。理想状态下模型应该自动判断：复杂数数、空间推理、走迷宫启用视觉原语；问「这是什么品种的狗」用普通模式。这个限制意味着在构建 Agent 系统时，需要在 prompt 层面做判断路由。

局限¶

触发词依赖：模型不能自主判断是否需要启用视觉原语，需要外部触发
精度上限：坐标是 0-999 整数，对 800×800 图来说每个单位 0.8 像素，pixel-level 精确定位做不到
跨场景泛化：在论文设计的迷宫和路径追踪上表现好，换一个全新拓扑场景能否泛化未知