DeepSeek视觉原语论文:当所有人在堆图像分辨率时,它在堆「指代精度」¶
Ch01.863 DeepSeek视觉原语论文:当所有人在堆图像分辨率时,它在堆「指代精度」¶
📊 Level ⭐⭐⭐ | 13.0KB |
entities/deepseek-vision-primitives.md
DeepSeek视觉原语论文:视觉指代精度新范式¶
核心观点¶
DeepSeek 2026年4月30日发布论文 Thinking with Visual Primitives,提出「视觉原语」概念——将坐标和边界框作为视觉推理的最小单元,让模型一边推理一边「用手指着图说话」。这是 DeepSeek 补齐多模态能力的核心动作,同时也是一种反共识的技术路线选择:主流在堆图像分辨率,DeepSeek 在堆指代精度。
背景时间线¶
| 时间 | 事件 |
|---|---|
| 4月24日 | DeepSeek V4 论文发布(58页) |
| 4月29日 | DeepSeek App 灰度内测识图模式 |
| 4月30日 | Thinking with Visual Primitives 论文公开 |
| V4 论文解读中已预测多模态将成为 V5 方向。V4 论文发布后 6 天内,App 灰度内测和论文接续亮相,完成了「论文铺路、模型后亮相」的完整节奏。 |
关键创新¶
1. 视觉原语作为思考媒介¶
DeepSeek 提出两个核心术语区分自己和之前的工作:
- 先前工作: grounding 作为 post-hoc verification(事后验证机制)——模型先想完,再用框来确认「我刚才说的那个东西确实在这里」
- DeepSeek:视觉原语作为 intrinsic medium of thought(思考的内在媒介)——模型一边推理一边输出坐标,坐标是思考过程的一部分 「思考的媒介」vs「验证的证据」——前者是思维语言,后者是脚注。
2. 指代精度 vs 分辨率¶
| 路线 | 代表做法 | 核心思路 |
|---|---|---|
| 主流(Anthropic、Google等) | 高分辨率切割、动态分块 | 让模型「看得更清楚」 |
| DeepSeek(本文) | 坐标作为最小推理单元 | 让模型「指得准」 |
| 主流路线提升整体感知(perception),DeepSeek 提升空间理解能力(grounding precision)。感知变强不等于指代变准——这是两个不同的问题。 |
3. 效率对比¶
一张 800×800 图片的 KV Cache 条目数对比: | 模型 | KV Cache 条目 | 平均分 | |---|---|---| | Gemini-3-Flash | ~1100 | 76.5% | | Claude-Sonnet-4.6 | ~870 | 65.3% | | GPT-5.4 | ~740 | 71.1% | | Qwen3-VL-235B-A22B | ~660 | 68.1% | | Gemma-4-31B | ~289 | 69.7% | | DeepSeek(本文) | ~90 | 77.2% | DeepSeek 用比 Claude 少 9 倍、比 Gemini 少 12 倍的 KV 条目,做出了小幅领先的平均分。整体压缩比 7056 倍。
4. 拓扑推理突破¶
最有意思的差距不在平均分,而在拓扑推理任务: | 任务 | DeepSeek | Gemini-3-Flash | GPT-5.4 | Claude-Sonnet-4.6 | |---|---|---|---|---| | DS_Maze_Navigation(迷宫导航) | 66.9% | 49.4% | 50.6% | 48.9% | | DS_Path_Tracing(路径追踪) | 56.7% | 41.4% | 46.5% | 30.6% | 在需要长时间维持空间状态的拓扑推理任务上,DeepSeek 领先第二名 16.3 个百分点。论文原话:「所有 frontier 模型在拓扑推理任务上均表现欠佳,说明多模态大模型的推理能力还有相当大的提升空间。」
技术解读¶
视觉原语格式¶
模型在生成思考过程时输出两种坐标格式: 边界框(bounding box):
意思是「这只狗在图上左上角到右下角这个矩形区域里」。坐标归一化到 0-999 整数。 点(point): 意思是「这个点到那个点」。适合轨迹、路径、交叉口方向选择等无法用框表达的场景。压缩链路¶
整个 token 压缩链路有三步: 1. ViT 切块:DeepSeek-ViT 14×14 像素一个 patch,756×756 图切成 2916 个 patch token 2. 3×3 空间压缩:在 ViT 出口处每 9 个相邻 patch token 沿通道维度压缩成 1 个,2916 压成 324 3. Compressed Sparse Attention:每 4 个 KV 条目再压成 1 个,324 变成 81 总压缩比:571,536 像素 → 81 个 KV 条目 = 7056 倍。
训练管线:5阶段专家化¶
- Pretraining:从 HuggingFace 爬取 97,984 个标注了 object detection 或 grounding 的数据集,经过语义审核(剔除乱码、私人实体、模糊缩写)和几何质量审核(剔除漏标超 50%、严重截断、超大框)后得到约 4000 万高质量样本
- Specialized SFT:训练两个专家模型 F_TwG(用框思考)和 F_TwP(用点思考),分开训练避免模式冲突
- Specialized RL:用 GRPO 和三层奖励(Format RM、Quality RM、Accuracy RM)打磨专家模型
- Unified RFT:将两个专家合体成统一模型 F
- On-Policy Distillation:闭合"合体后各专项不如专家"的差距,统一模型 F 同时学习两个专家的输出分布
密集奖励设计¶
计数任务的奖励函数:R(ŷ, y) = α · exp(−β · |ŷ−y| / (|y|+1)),α=0.7, β=3。预测值偏离真值越远,奖励指数衰减。这给模型留了平滑的学习信号,而非 0/1 二值奖励的悬崖式梯度。 迷宫任务分 5 项加权:因果探索进度 + 探索完整性 + 穿墙惩罚 + 路径有效性 + 答案正确性。
Anti-Cheat 数据设计¶
- 对抗迷宫:先生成可解迷宫,故意在中间堵几堵厚墙让它看起来能走但实际走不通,教会模型「不要光看就敢答,要真探索过」
- 同色曲线:路径追踪数据全部做成同色版本,强迫模型靠曲率连续性而非颜色作弊
语言无关性彩蛋¶
论文明确写道:「虽然关于视觉原语的后训练数据里没有任何中文语料,但模型依然能用中文思考和回答,这是从基座模型继承下来的多语言能力。」视觉原语(坐标)接管空间推理,语言由基座模型接管——两者解耦良好。
深度分析¶
Perception Gap vs Reference Gap¶
学术界给主流路径的问题起了名字:Perception Gap——模型推理失败是因为没看清,把分辨率拉高就好了。DeepSeek 怼的就是这个共识。他们的论点是:感知再强,指代不准也白搭。这件事被叫做 Reference Gap(指代鸿沟)。 用数人数的场景来理解:60 个人三排站着,让你数「穿条纹队服、坐前排、不戴帽子的有几个」。不用手指指着用,你就得在脑子里维持一个「我数到哪了」的列表,三个人之后就会乱。主流路径让模型「看得见」每个人,这是感知;但模型推理时只能用「左数第三个穿红衣服的」这种语言来指代,多步推理之后就崩了。 看见 ≠ 看清楚 ≠ 说清楚指哪个——这是三件不同的事,主流路径只解决了前面两件。
为什么 DeepSeek 是最后一个但选择反共识路线¶
DeepSeek 是七大 coding agent 玩家里最后一个把视觉接入主力产品的旗舰:比 GLM-5V-Turbo 晚 28 天,比 Kimi K2.5 晚 3 个月,比 Anthropic 晚两年,比 Gemini 晚两年半。他们一直在等一个更好的方法——不是「我也做了一个差不多的视觉模型」,而是「我做了一个全新范式的视觉模型,顺便把基础能力一起补上了」。
5阶段训练管线的工程哲学¶
先专家化(Specialized SFT + RL)再合体(Unified RFT)再蒸馏(On-Policy Distillation),每一步都不偷懒。合体后比单个专家差是意料之中的(a noticeable performance gap remains),所以最后用蒸馏闭合差距。这是一个漂亮的工程闭环:专家化是为了专项极致,合体是为了统一推理,蒸馏是为了消除差距。
视觉原语让模型更接近人类认知¶
论文中有个例子:模型看一张左边是切开的水果(纹路像猫脸)、右边是一只真猫的图,回答「为什么这张图很搞笑」。模型在水果上标出黑点(模拟猫瞳孔)、深色纹理(模拟猫鼻子),然后在真猫上标出白色脸、绿色眼睛、粉色鼻子,最后总结相似性是搞笑来源。模型在做的事情和你看到这张图时大脑做的事情几乎一样——先注意到「水果上的黑点像眼睛」,然后才觉得搞笑。 「用手指着思考」本来就是人类做事的方式:数数用手指、走迷宫用手指、解释路线用手指、描述设计稿用手指。手指是思维的延伸,不是思维之外的辅助。DeepSeek 把这件事变成了模型能做到的事。
实践启示¶
1. 视觉理解对 Coding Agent 是必须的¶
视觉理解对 coding agent 来说已经是「必须」而非「锦上添花」。Coding agent 的工作场景里,纯文本已经不够用了:截一张前端页面给 AI 判断布局是否崩、截一张报错给 AI 判断是不是网络问题、让 AI 读设计稿直接生成组件代码——这些任务用文字描述根本说不清。
2. 堆指代精度可能比堆分辨率更高效¶
DeepSeek 的结果显示,用 1/10 的 KV cache 做到了小幅领先平均分。这意味着对于需要精确定位(如 UI 测试、图表理解、文档分析)的场景,与其追求更高分辨率,不如让模型学会用坐标指着自己正在看的区域。效率差异会在大规模部署时显著放大。
3. Grounding 应作为思考媒介而非验证工具¶
之前把 grounding 加入 chain-of-thought 的工作(Visual CoT、CogCom、GRIT 等)都是让它做 post-hoc verification,模型先想完再用框确认。DeepSeek 的路线是把 grounding 内化为思考本身的一部分——坐标是思考的语言,不是思考的脚注。在设计多模态 agent 系统时,应该考虑让视觉指代成为模型推理过程的有机组成,而非事后添加的验证层。
4. Coding Agent 视觉的新评判维度¶
DeepSeek 把比赛维度换了:之前大家比的是「我的视觉模型能看 4K 图」「我的视觉模型 token 多便宜」,现在比的是「我的视觉模型能不能在思考的时候用手指着图说话」。对于需要处理「这个按钮的下面那个组件」「左边第三个卡片」这类任务的 coding agent,指代精度比分辨率更关键。
5. 拓扑推理是当前多模态模型的共同短板¶
所有 frontier 模型在拓扑推理任务上都表现欠佳这件事值得特别关注。如果你的应用场景涉及地图导航、电路图理解、流程图分析、布局理解等需要长时间维持空间状态的任务,当前的多模态模型都可能存在这个短板。DeepSeek 用坐标解决了这个问题,但这需要特定的训练数据(46万迷宫 + 12.5万路径追踪)。
6. 触发词限制是当前工程的折中¶
论文坦诚模型目前不能自主判断「这道题需不需要用手指」,必须有触发词才会启用视觉原语(所有示例都有 [Trigger_Placeholder])。理想状态下模型应该自动判断:复杂数数、空间推理、走迷宫启用视觉原语;问「这是什么品种的狗」用普通模式。这个限制意味着在构建 Agent 系统时,需要在 prompt 层面做判断路由。
局限¶
- 触发词依赖:模型不能自主判断是否需要启用视觉原语,需要外部触发
- 精度上限:坐标是 0-999 整数,对 800×800 图来说每个单位 0.8 像素,pixel-level 精确定位做不到
- 跨场景泛化:在论文设计的迷宫和路径追踪上表现好,换一个全新拓扑场景能否泛化未知
相关实体¶
相关实体¶
- Personavlm Personalized Memory
- Bedrock Image Content Precise Analysis
- Redis之父下场给Deepseek V4单独造了一台推理引擎
- Ds4C Deepseek V4 Antirez
- Deepseek Moe Parallel Strategy
- MOC
→ 原文存档