K-Dense — The Model Is No Longer the Bottleneck¶

Ch04.154 K-Dense — The Model Is No Longer the Bottleneck¶

📊 Level ⭐⭐ | 12.5KB | entities/k-dense-the-model-is-no-longer-the-bottleneck.md

K-Dense — The Model Is No Longer the Bottleneck¶

Source: K-Dense AI Blog (2026-06, 9.7KB) by K-Dense team. 原始内容存于 [K Dense The Model Is No Longer The Bottleneck](https://raw.githubusercontent.com/QianJinGuo/wiki/main/raw/articles/k-dense-the-model-is-no-longer-the-bottleneck.md)。

核心论点: 在 GPT-5 / Claude Opus 4.5 / Gemini 2.5 Pro 这代模型之后，模型能力不再是科学 AI 应用的天花板。真正的瓶颈是 agentic workflow 设计 —— 如何让模型在多步推理中保持高质量上下文。

TL;DR¶

What: K-Dense (AI4Science 咨询团队) 在 2026-06 发表的文章，主张 "model is no longer the bottleneck" 假说
Why it matters: 把工程注意力从 "用什么模型" 转向 "如何编排模型"——这是 2026 年 agent / harness engineering 浪潮的核心理由
How (4 case 论证):
材料科学 (无机晶体生成) — 同样 GPT-5 + 不同 harness，质量差异 3.5×
药物发现 (ADMET 预测) — 上下文工程（检索增强）比模型升级更重要
气候模拟 (降尺度) — 多 agent 协作 vs 单 agent 提升 2.8×
蛋白质设计 (binder 生成) — 反馈循环（dry-lab + wet-lab）harness 是关键

四个 case 的核心数据¶

Case 1: 材料科学（无机晶体生成）¶

Harness 设计	成功率	备注
单 prompt + GPT-5	12%	baseline
多步反思 (critic + revise)	28%	+ 2.3×
工具增强 (RAG over Materials Project)	41%	+ 3.4×
全 agent 编排（planner + executor + verifier）	52%	+ 4.3×

结论: 同样的模型，harness 设计能造成 4.3× 质量差异。

Case 2: 药物发现（ADMET 预测）¶

模型: Claude Opus 4.5（不是升级前的 Sonnet 3.5）
关键改进: 把 SMILES 字符串 + IUPAC 名称 + 蛋白 binding pocket 描述一起塞进上下文
上下文工程（不是 RAG，是 structured context）带来 18% 准确率提升
团队表示: "Sonnet 3.5 + 完美上下文 ≈ Opus 4.5 + 普通上下文"

Case 3: 气候模拟（区域降尺度）¶

单 agent: 24h 完成 1 个区域
多 agent 协作（4 agent 各负责 1 季度）: 6h 完成，质量提升 2.8×
关键发现: 多 agent 之间的协调 overhead 小于并行收益

Case 4: 蛋白质设计（binder 生成）¶

传统: LLM 一次性生成 binder 序列 → 实验验证
新型 harness: dry-lab (LLM 评分) + wet-lab (experimental data) 反馈循环
4 轮迭代后 binder 亲和力提升 12×（vs 单次 1×）
关键: harness 包含 数据回流机制，让模型持续学习

核心论点：Context Quality > Model Capability¶

文章给出一个公式（K-Dense 团队内部使用）：

Effective Capability = Model IQ × Context Quality × Harness Design

因子	2024 占比	2026 占比	趋势
Model IQ	70%	35%	↓ (claude opus 4.5 / gpt-5 已到天花板)
Context Quality	20%	35%	↑ (RAG, structured context, multi-modal)
Harness Design	10%	30%	↑↑ (multi-agent, feedback loops, planning)

含义: 2024 年大家卷模型（finetune, 蒸馏），2026 年大家应该卷 harness（编排、上下文、多 agent 协作）。

与现有实体的关系¶

支撑 Ahe Agentic Harness Engineering — K-Dense 提供 4 个科学 AI 案例佐证 "harness 决定上限"
呼应 How Harnesses And Post Training Close The Open Weight Bug Finding Gap 20260606 — Anthropic 主张 harness > pretraining；K-Dense 用科学 AI 数据给出量化证明
支持 Miroflow Deep Research Agent Harness Mirothinker — Deep Research 类 harness 是设计典范，单模型质量不及 harness
补充 Agent Harness Engineering Survey 2026 — Survey 中 "context engineering" 一节的科学 AI 实例

实践启示¶

不要追新模型 — GPT-5 vs Opus 4.5 在工程差异 < 5%；把精力放在 harness
context 是上限 — 投资 RAG、structured context、multi-modal context（不是更多 GPU）
多 agent 不是噱头 — 4 agent 并行在气候 / 材料 / 蛋白质任务都验证有效
反馈循环是核心 — dry-lab + wet-lab / critic + reviser / planner + executor

局限¶

4 个 case 都来自 K-Dense 自己做的项目（样本偏差）
没有对比 SFT/RLHF 后的模型——可能 post-training 后的模型在同等 harness 下仍有差距
"Context Quality" 难以量化（vs Model IQ 容易 benchmark）

Score: v=7, c=8, v×c=56, stars=4 — 文章不长（9.7KB）但 4 个 case 数据扎实，论点清晰（"model is no longer the bottleneck" 假说），与现有 harness engineering 体系高度契合。

Tags: harness, agentic, context-engineering, scientific-ai, k-dense, bottleneck, multi-agent, feedback-loop

深度分析¶

科学 AI 的瓶颈已从"模型能做什么"转向"系统让模型做什么"
核心观点：Anthropic 的 Chemistry 结果（通用模型在 NMR 任务上击败专用软件）证明模型能力已不再是科学 AI 的瓶颈。真正的限制是模型周围的 scaffolding——数据接入、代码执行、验证机制、审计输出。
技术要点：K-Dense 公式 Effective Capability = Model IQ × Context Quality × Harness Design 说明在 2026 年，Model IQ 的边际收益已递减，而 Context Quality 和 Harness Design 成为新的价值杠杆。
实践价值：当"用更强的模型"带来的提升<5%时，工程资源应转向 harness 设计。这与 How Harnesses And Post Training Close The Open Weight Bug Finding Gap 20260606 中 Anthropic 的主张呼应。
4 个 case 提供了 harness 设计量化价值的稀缺证据
核心观点：K-Dense 的 4 个科学 AI case（材料/药物/气候/蛋白质）是少数提供了"同一模型 + 不同 harness → 4.3× 质量差异"量化数据的来源。这打破了"harness 只是锦上添花"的误解。
技术要点：材料科学 case 中，全 agent 编排（planner+executor+verifier）比单 prompt 高出 4.3×；药物发现 case 中，structured context 比模型升级带来 18% 准确率提升。
实践价值：证明了"多 agent 协作"和"上下文工程"不是理论上的好处，而是有量化支撑的实际价值。
科学 AI 的四个真实需求：数据、代码、验证、审计
核心观点：文章明确指出"answer vs result"的差距——聊天回复≠研究结果。研究结果需要完整证据链：正确的真实数据、正确的分析方法、输出校验、可审计的产出。
技术要点：这四个需求分别对应：RAG over 250+ 科学数据库（数据）、模型写代码并执行而非描述代码（代码）、验证候选答案而非断言（验证）、产出方法/数据/脚本/图表而非 confident paragraph（审计）。
实践价值：这四个需求是设计任何科学 AI harness 的核心验收标准，也是当前大多数 LLM 应用缺失的部分。
多 agent 协作的协调 overhead 小于并行收益（气候 case: 4× 加速，质量 2.8× 提升）
核心观点：气候模拟 case 中，4 agent 并行（各负责 1 季度）比单 agent 快 4×，质量还提升 2.8×。这说明多 agent 的协调成本在很多科学 AI 场景下是净正收益。
技术要点：关键发现是"多 agent 之间的协调 overhead 小于并行收益"。这要求任务可分解、子任务间依赖少、agent 间通信开销低。
实践价值：对 Multi Agent Collaboration Patterns 和 Orchestrator Worker Architecture 提供了科学 AI 领域的实证支撑。
反馈循环（dry-lab + wet-lab）是蛋白质设计 harness 的关键
核心观点：蛋白质设计 case 中，4 轮迭代后 binder 亲和力提升 12×，而单次生成仅 1×。关键在于 harness 包含数据回流机制，让模型在每一轮 dry-lab 评分后接收 wet-lab 实验反馈。
技术要点：这是"模型在环"（model-in-the-loop）的具体实现——不是一次性生成，而是生成→评分→反馈→再生成的迭代循环。
实践价值：对 Harness Loop Architecture 提供了wet-lab 实验数据闭环的案例。

实践启示¶

评估科学 AI 项目时，首先问"模型周围的系统"而非"用哪个模型" — 在 GPT-5/Opus 4.5 时代，模型选择差异<5%，真正的价值上限由 harness 决定。优先评估数据接入、代码执行、验证机制、审计输出的完整性。
科学 AI harness 设计应包含四层：数据→分析→验证→审计 — 缺少任何一层都会导致"chatbot answer"而非"research result"。特别是验证层（检查候选答案而非直接输出）被普遍忽视。
多 agent 协作在任务可分解场景下是净正收益 — 气候/材料/蛋白质设计的 case 表明，当子任务间依赖少时，多 agent 协调 overhead 小于并行收益。可以参考 Orchestrator Worker Architecture 设计这类 harness。
建立反馈循环机制是 harness 的核心竞争力 — 无论是 critic+revised（代码场景）还是 dry-lab+wet-lab（科学实验场景），迭代反馈循环带来的质量提升远超单次生成。对照 Harness Loop Architecture 设计反馈机制。
Context Quality 是 2026 年 harness 工程的首要投入方向 — K-Dense 公式显示 Context Quality 占比从 20%→35%，与 Context Engineering 的重要性趋势一致。Structured context、RAG、multi-modal context 都是提升 Context Quality 的手段。