DeepSeek V4是怎么训练出来的？58页论文深入解读¶

Ch01.751 DeepSeek V4是怎么训练出来的？58页论文深入解读¶

📊 Level ⭐⭐ | 3.7KB | entities/deepseek-v4-training-58-page-paper-deep-dive.md

DeepSeek V4是怎么训练出来的？58页论文深入解读涉及agent领域的核心技术议题。

DeepSeek V4是怎么训练出来的？¶
58页论文深入解读劝退提醒： 1、这是一篇很长很长的文章，会深入到DeepSeek V4论文中涉及到的各种细节，如果你不感兴趣，只是想知道模型跑分的话，没必要读 2、我也没那么好的技术能力，这是花了2000万Opus4.
7 tokens读完内容，并做了73页PPT之后形成的理解 3、我多少对DeepSeek有些滤镜，我很喜欢这个公司的做派和风格，所以表达未必客观中立如果这种情况下，你还愿意一起往下探的话，那我们开始吧！
在我看来，DeepSeek不是一个冲破天花板的SOTA模型。
它真正的价值是把百万上下文、Agent原生能力、能接受的价格这三件事第一次绑在了一起。