DeepSeek 成本迁移：从 KV Cache 到 Harness 的系统层¶

Ch05.034 DeepSeek 成本迁移：从 KV Cache 到 Harness 的系统层¶

📊 Level ⭐⭐ | 15.6KB | entities/deepseek-cost-migration-system-layer-kv-cache-harness.md

DeepSeek 成本迁移：从 KV Cache 到 Harness 的系统层¶

核心论点¶

DeepSeek 值得看的地方，已经越过模型便宜本身，落到了"模型之外"的系统层。

当模型越来越便宜，贵的东西会搬到哪里：缓存、内存、存储、编译器、调度、硬件适配，以及让模型变成 Agent 的 Harness。

技术主线：成本如何从模型侧搬到系统层¶

V2→V4 效率演进¶

V2 论文：MLA（低秩潜在表示压缩 KV Cache）+ DeepSeekMoE（稀疏计算）
相比 DeepSeek 67B：训练成本↓42.5%，KV Cache↓93.3%，生成吞吐↑5.76倍
V4 Preview（2026-04-24）：1.6T 总参/49B 激活（Pro），284B 总参/13B 激活（Flash），默认 1M 上下文
核心方向：不在最贵的矩阵乘法和稀缺显存上压所有成本

成本分层策略¶

技术	作用
MoE	稀疏激活，每个 token 只激活部分专家
MLA	KV Cache 压进更小潜在表示
DSA/CSA/HCA	长上下文注意力优化
Engram (conditional memory)	静态知识用查找替代反复计算

结论：稀疏激活 + 压缩缓存 + 磁盘缓存 + 内存查找 + kernel/编译器优化

KV Cache 不是边角料¶

长任务 Agent 反复携带：代码库、工具说明、长文档、日志、需求、历史决策、测试结果。

KV Cache 一旦变便宜，团队会把更多东西放进去。反直觉边界：Jevons Paradox——效率提升后资源消耗反而扩大。

Disk Caching（默认开启）：后续请求与前面有重叠前缀可命中缓存，best-effort，不保证 100%，数小时到数天后清理。

缓存已经成为 API 语义的一部分：提示词怎么写、上下文怎么组织、工具说明怎么排列，都影响后续成本。

长任务 Agent 的新工程问题：一个工作现场，能不能被缓存友好地组织起来？

Engram 的信号¶

MoE 解决：当前 token 该激活哪些专家
Engram 想补：哪些东西用可扩展查表拿出来，而非继续消耗神经计算
硬件分工影响：计算更吃 GPU/矩阵乘法/HBM 带宽；查找更容易和大容量内存/预取/缓存层级发生关系

TileLang → TileKernels¶

把 MoE、Engram、mHC、KV Cache 压缩和长上下文推到生产，落到 kernel、数据布局、通信、调度和硬件适配。

意义：让模型团队把算法想法落到不同硬件上，减少每次换硬件都要重写底层优化的成本。

Harness 层：成本入口¶

Model + Harness = Agent。模型只是引擎，模型外面怎么读文件、用工具、跑命令、收集测试反馈、保存上下文，才决定它能不能变成能干活的 Agent。

Agent Harness Engineering 七层（ETCLOVG）¶

分两层看： - 结构层：执行环境、工具接口、上下文与记忆、生命周期 - 控制层：可观测、验证、治理

便宜模型 ≠ 便宜 Agent。模型调用便宜，只是把单次推理价格压下去。Agent 真跑起来后，成本在环境、工具、上下文、重试、评估、审计和回滚里重新出现。

Harness 承担的实际成本¶

上下文怎么组织 → 缓存命中能不能用起来
工具说明怎么裁剪 → 每轮上下文会不会浪费
文件读写/命令执行/测试反馈怎么进循环 → 一次任务要跑多少轮
观测和验证做得多深 → 质量风险变成隐藏成本
权限/审计/回滚怎么设计 → Agent 能不能进真实生产环境

核心判断：DeepSeek 能不能定义工作负载¶

能否用模型架构、推理接口、缓存机制、Agent Harness 和开源工程，让硬件厂商、云厂商、推理框架、开发者工具都围绕它的负载来优化。

如果可以 → 位置超过"低价模型供应商" 如果不行 → 再便宜也可能只是把价值让给下游

五大后续观察信号¶

价格和缓存：长上下文、缓存命中、多轮 Agent 调用的价格能否长期压住
硬件适配：有没有针对 MoE/KV Cache/长上下文/Engram/kernel/调度做实质优化
开源工程：kernel、推理引擎、调度器、基准测试、复现脚本、框架合入
Harness 产品：能不能在真实用户愿意长期跑的工作现场里长期工作
商业协议：硬件采购、联合优化、股权激励、生态基金或战略合作的公开披露

深度分析¶

成本转移的实质是一场硬件分工重构¶

DeepSeek 这篇文章的核心洞察，并不在于某个具体技术的进步，而在于揭示了一个结构性趋势：当模型层变得足够便宜，成本会沿着价值链向"附近"更便宜的资源转移。MLA 把 KV Cache 压进低秩潜在空间，MoE 把激活稀疏化，这些都是在显存和算力约束下的工程选择。但，成本并没有消失——只是被重新分配。

V2 时代，KV Cache 占用 93.3% 的 reduction 意味着团队在处理长文档、代码库这类场景时，需要在显存和计算之间做痛苦的选择。而 V4 的 1M 上下文默认开启，实质上把长上下文从"特权能力"变成了"基础设施"。这不只是一个产品决策，而是一次成本结构的重新定义：当上下文不再稀缺，围绕上下文的工程问题（如何组织、如何缓存、如何裁剪）就成了新的竞争边界。

Engram 的引入更值得注意。它代表了一种思路转变：从"把所有知识编码进模型参数"转向"让模型在需要时去查表"。这对应着一种硬件分工的重组：计算更集中于 GPU 和矩阵乘法，查找更依赖大容量内存和缓存层级。如果这种分工成立，那么围绕 Engram 的存储系统和访问调度，就成了新的优化重点。

Jevons Paradox 在 AI 成本里的具象化¶

Jevons Paradox 描述了一个反直觉现象：当效率提升导致资源使用成本下降时，人们倾向于使用更多该资源而非更少。在 KV Cache 场景下，这个悖论以特殊形式出现。当缓存变得便宜且高效，团队会倾向于把所有东西都往缓存里塞——代码库、文档、工具说明、历史对话。但这种"浪费"实际上创造了新的工程需求：如何让工作现场被缓存友好地组织？

这个问题之所以重要，是因为它把工程问题从"如何降低单次成本"转移到了"如何提升整体吞吐量"。一个设计良好的工作现场，可能因为缓存命中率的提升，让单次任务成本下降 80%，而同时处理的请求量上升 300%。这不是线性优化，而是生态系统的重构。

Context Caching 作为 API 语义的一部分，实际上在改变 prompt engineering 的含义。传统的 prompt engineering 关注如何写好指令，而缓存友好的 prompt engineering 还需要考虑如何组织上下文，使得前缀复用率最大化。这是一种新的工程学科的雏形。

Harness 是模型和真实工作现场的中间层¶

文章提出的 Agent Harness Engineering 七层（ETCLOVG）框架，本质上是在说：模型的推理能力只是 Agent 的下限，真正的上限由 Harness 决定。这个观察在实践中被反复验证——同样的模型，在不同团队的 Agent 实现中，成本和效果可能相差一个数量级。

便宜的模型把单次推理的价格压下去，但这只是把成本重新分布到了其他地方。上下文组织不当导致每次请求都要重传大量历史；工具说明没有裁剪导致每轮都浪费 token；文件读写和命令执行没有优化导致任务轮次增加；观测和验证缺失导致问题在后期才发现。这些"隐藏成本"往往比模型调用成本更难优化，因为它们不体现在 API 账单上，却实实在在地消耗着工程资源。

Harness 设计的核心矛盾在于：它需要足够灵活以适配多样化的任务，又需要足够规范以保证可观测性和安全性。这个平衡的破坏是大多数 Agent 项目失败的根本原因。

TileLang/TileKernels 的工程化意图¶

TileLang → TileKernels 这条技术路径的意图，是让算法团队的创新能够以更低的成本落到不同硬件上。在传统研发模式下，每次换硬件（从 NVIDIA 到 AMD，从 H100 到 H200），团队都需要重写底层优化。这是一个巨大的隐性成本，抑制了硬件多样性和算法创新。

如果 TileKernels 能够提供一套统一的抽象，让算法团队描述计算需求而不必关心底层硬件细节，那么硬件适配的成本就会显著下降。这对于 DeepSeek 想要"定义工作负载"的目标至关重要——只有当硬件厂商和云厂商发现围绕 DeepSeek 的负载优化是有工程基础的，他们才会有动力去做这些优化。

实践启示¶

重新设计上下文策略¶

对于已经在使用或计划使用 DeepSeek 的团队，这篇文章的第一个实践启示是：上下文管理需要被当作一等公民来对待。传统的做法是把所有相关信息都塞进上下文，然后祈祷模型能够理解。这种做法在模型便宜、上下文短的时候勉强可用，但在 DeepSeek 提供了 1M 上下文和 Disk Caching 之后，我们需要重新思考上下文策略。

一个有效的方法是：为 Agent 工作现场设计专门的上下文架构。这包括：如何分层组织长期记忆、短期上下文和工作现场状态；如何设计工具说明使得它们在多次调用中能够被缓存复用；如何在保持模型对任务理解的同时最小化每轮传递的数据量。这些决策的影响往往比调参或换模型大得多。

用缓存思维重新审视工作流¶

Disk Caching 的默认开启是一个重要信号：DeepSeek 正在把缓存当成基础设施而不是可选项。对于 Agent 开发者，这意味着需要从缓存的角度重新审视工作流设计。哪些部分有公共前缀？哪些请求之间有重叠？如何设计任务使得前缀复用率最大化？

具体来说，在设计长任务 Agent 时，应该考虑：如何把一个复杂任务分解成多个阶段，使得阶段之间有最大的公共前缀；如果任务涉及文件处理，是否可以先处理文件生成稳定的中间结果，再让 Agent 基于这些结果工作；如何组织工具说明和系统提示，使得它们在多次调用中被有效缓存。

把 Harness 成本纳入 TCO 计算¶

在评估使用 DeepSeek 构建 Agent 的总拥有成本（TCO）时，需要把 Harness 层的成本纳入考量。这包括：上下文管理的工程投入、工具接口的开发维护成本、观测和验证体系的搭建成本、以及处理 Agent 异常行为的运维成本。

一个实用的框架是：为每个成本因素建立明确的指标和预算。例如，上下文管理团队应该关注每轮平均 token 消耗和缓存命中率；工具接口团队应该关注工具调用的平均延迟和错误率；观测团队应该关注任务成功率和平均修复时间。把这些成本显性化，是优化 Harness 层的第一步。

关注 Engram 生态的成熟度¶

Engram 作为一种"用查表替代计算"的范式，目前还处于早期阶段。对于技术团队来说，关注 Engram 生态的成熟度是一个长期任务。这包括：官方的实现和文档是否完整；社区是否有足够的最佳实践分享；以及在生产环境中使用 Engram 的真实案例。

如果 Engram 生态能够成熟，它将成为 Agent 设计中不可或缺的一环。团队需要提前思考：哪些知识应该编码进模型参数，哪些应该作为 Engram 条目管理，以及如何设计 Engram 条目的更新机制。这些决策将影响 Agent 的长期维护成本和适应性。

建立硬件适配的评估清单¶

DeepSeek 想要"定义工作负载"，一个关键信号是硬件厂商和云厂商是否愿意围绕它做专门优化。对于评估 DeepSeek 部署的团队，一个实用的做法是建立硬件适配的评估清单：当前环境是否支持 DeepSeek 的特定优化（如 MoE 的专家并行、KV Cache 的压缩格式）？云厂商是否提供了针对 DeepSeek 负载的专用实例类型？调度器是否能够识别 DeepSeek 的负载特征并进行优化？

这个清单的价值在于：它能够帮助团队识别出当前部署中尚未被充分利用的优化空间，也能够为未来的技术选型提供依据。

DeepSeek 成本迁移：从 KV Cache 到 Harness 的系统层¶

Ch05.034 DeepSeek 成本迁移：从 KV Cache 到 Harness 的系统层¶

DeepSeek 成本迁移：从 KV Cache 到 Harness 的系统层¶

核心论点¶

技术主线：成本如何从模型侧搬到系统层¶

V2→V4 效率演进¶

成本分层策略¶

KV Cache 不是边角料¶

Engram 的信号¶

TileLang → TileKernels¶

Harness 层：成本入口¶

Agent Harness Engineering 七层（ETCLOVG）¶

Harness 承担的实际成本¶

核心判断：DeepSeek 能不能定义工作负载¶

五大后续观察信号¶

深度分析¶

成本转移的实质是一场硬件分工重构¶

Jevons Paradox 在 AI 成本里的具象化¶

Harness 是模型和真实工作现场的中间层¶

TileLang/TileKernels 的工程化意图¶

实践启示¶

重新设计上下文策略¶

用缓存思维重新审视工作流¶

把 Harness 成本纳入 TCO 计算¶

关注 Engram 生态的成熟度¶

建立硬件适配的评估清单¶

相关实体¶

相关链接¶