DeepSeek Code Harness¶
Ch09.068 DeepSeek Code Harness¶
📊 Level ⭐⭐ | 8.4KB |
entities/deepseek-code-harness.md
Overview¶
DeepSeek 正在组建团队,从零开始构建对标 Claude Code 的代码智能体产品。核心公式:Model + Harness = Agent。除模型本身以外的所有工作,都属于 Harness 的范畴。官网职位描述明确:"他们正在把 DeepSeek 的前沿模型能力转化为领先的 Agent 产品。"
背景:Claude Code 定义上限,但中国开发者被排除在外¶
Anthropic 官方明确禁止中国大陆访问 Claude。2025年9月更出台政策:任何由中国资本控制超过50%的公司,不管注册地在哪,都不准用。CEO 达里奥·阿莫迪本人也公开主张对中国实施技术制裁。 Claude Code 的市场表现:
- GitHub 公开提交量的 4%
- 首次采购 AI 服务的企业中,Anthropic 面对 OpenAI 正面竞争赢下约 70% 订单
- 不到一年跑出数十亿美元的年化收入
- 约 27% 的任务是开发者没有这个工具时原本不会尝试的(任务边界扩大) See also Harness Engineering
DeepSeek 招聘详情¶
核心团队成员:
- 陈德里(Deli Chen) — 北大毕业,2023年加入 DeepSeek,高级研究员,NVIDIA GTC 2024 / 乌镇峰会 2025 演讲者
- Cui Tianyi — 浙大毕业,Jane Street 近九年(股票/固定收益软件开发),后联合创办香港量化基金 TSY Capital 职位要求: 深度使用过 Claude Code、Cowork、Codex、Cursor、OpenCode、GitHub Copilot、Manus、OpenClaw、Hermes 等产品。加分项:"其它超乎常人的与工作相关的才能"(DeepSeek 极客气质)
核心公式:Model + Harness = Agent¶
DeepSeek 对 Harness 的定位:除模型本身以外的所有工作,都属于 Harness 的范畴。
"真正的护城河在外围:权限控制、上下文压缩、MCP 工具、插件、Skills、Hooks、Subagent 调度、会话存储和安全策略。它把一个简单循环包成了可控、可扩展、可长时间运行的工程系统。"
关键数据:Harness 的决定性作用¶
CORE-Bench Hard:
- Claude Opus 4.5 + Claude Code Harness: 95%
- 同样模型 + Hugging Face Smolagents 朴素配置: 42%
- 同一模型,单是 Harness 差距:53 个百分点 Terminal Bench: 头部清一色用 Claude Opus 4.6,大家拼的已经不是模型,而是谁的 Harness 更好。
Anthropic 模型+Harness 共同演化编年史¶
| 时间 | 模型 | Harness 更新 |
|---|---|---|
| ~2024 | Sonnet 3.5 | 第一次展现编码+自验证+迭代潜力(Claude Code 前奏) |
| 2025-02 | Sonnet 3.7 + Claude Code 研究预览版 | Claude Code 目标:收集开发者真实使用数据反哺模型训练 |
| 2025-05 | Opus 4 + Sonnet 4 + Claude Code 正式 GA + SDK 开放 | SDK 开放,Harness 被公开 |
| ~2025 | Sonnet 4.5 | 加入 Checkpoints(回退机制),运行时长推到约 30 小时 |
| 2025 | Opus 4.5 + Sonnet 4.5 | Opus 做规划、Sonnet 做执行分工;Skills 渐进式披露补上下文窗口 |
| 2026 | Opus 4.6 + Sonnet 4.6 | Sonnet 4.6 成主力编码模型;Opus 4.6 "非常 agentic",极简 Harness 下稳定运行时长从约 4 小时跳到 12 小时;推出 agent teams、server-side compaction、100万上下文窗口 |
| Anthropic 总结规律: "找到模型里的缺口,用 Harness 补上,再用 Harness 的数据去训练模型——到某个时间点,那部分 Harness 可能就不再需要了,然后循环继续。" |
长时运行能力:区分"会写代码"和"能完成任务"¶
关键差距: 短任务一次生成即可;真实工程任务是持续的"修改→测试→出错→再修改"循环,可能持续几十分钟甚至数小时。
- 只能稳定跑几分钟的 Agent:本质仍是代码助手
-
能跑几小时甚至几天的 Agent:开始像真正的工程代理 长时运行难点:
-
上下文窗口有限且越跑越乱
- 模型规划能力弱容易半途而废
- 模型总高估自己的完成度(半成品却说"好了") 解决路径:
- 模型能力直接烘焙进权重(Opus 3.7→4.6,稳定完成50%任务的运行时长从约1小时→12小时)
- Harness 外层优化(模型外面的脚手架)
DeepSeek 的机会与挑战¶
机会:
- 模型价格优势 + 自建 Harness → 挑战 Claude Code 完整体验
-
AI 编程下一阶段:不是单点模型竞争,也不是单点工具竞争,而是模型能力、Harness 设计、运行成本和开发者入口的组合竞争 挑战:
-
真正难的是建立长时运行闭环:让模型在真实代码库里工作 → 记录失败路径 → 用户修正 → 变成下一轮产品/工具/模型训练的输入
- 如果 DeepSeek 只做模型,永远被包在别人的工具里
- 只有跑通模型+Harness 共同演化循环,才有机会长出自己的 Claude Code
Harness 正在成为新市场¶
各家对 Harness 层的商业化态度:
- Anthropic:托管运行时单独计费,按会话小时收费
- Google/Microsoft:把会话、内存、代码执行、工具调用拆成平台消费项
- OpenAI:Agents SDK 开源,不额外收第一方运行时费用,只对模型和工具调用收费
"Model + Harness = Agent,正在成为行业共识。控制层不再只是模型的附属品,而是一个独立的产品维度。"
深度分析¶
1. 为什么 2026 年 Harness 站到台前¶
AI 行业关注点的迁移路径:
- 2022:权重、微调、RLHF
- 2023:上下文、RAG、长上下文
- 2024:工具调用、MCP
- 2026:Harness(最外层) 任务复杂度升级:从"给段评论判断情绪(几十个token)"到"看完整个代码库找bug写补丁跑测试验证(可能消耗上千万token、持续数十分钟、数百次工具调用)"。
2. 中国市场的特殊机会窗口¶
Claude Code 越强,缺口越大。灰色渠道扩大的背后是刚性需求。DeepSeek 的出现恰好填补这个空白——不是"做一个更好的工具",而是"没有别的选择"。
3. 飞轮效应¶
Claude Code 每一次真实使用都在收集问题/失败轨迹/用户修正,反哺模型训练。模型越强 → Harness 越顺手 → 使用越多 → 模型进步越快。DeepSeek 如果能建立同等飞轮,就不只是对标,而是真正竞争。
实践启示¶
- Harness 是独立的产品维度 — Model + Harness = Agent,控制层不是模型的附属品
- 选型要看真实代码库表现 — CORE-Bench / Terminal Bench 数据,同模型不同 Harness 差距可达 53pp
- 长时运行能力是分水岭 — 能跑几小时的 Agent 才是真正的工程代理,否则仍是代码助手
- 中国市场特殊窗口 — Anthropic 禁令创造的需求缺口,有技术能力的团队可以填补