小龙虾彻底凉了？清华团队连夜开源Agent神器PilotDeck，Token成本狂降70%！¶

Ch04.124 小龙虾彻底凉了？清华团队连夜开源Agent神器PilotDeck，Token成本狂降70%！¶

📊 Level ⭐⭐ | 14.3KB | entities/pilotdeck-agent-os-openbmb-tsinghua.md

-> 第 1 原文存档 (新智元 ASI启示录) -> 第 2 原文存档 (数据派THU 转发新智元)

PilotDeck：清华系 Agent 操作系统¶

一句话¶

清华大学 THUNLP / OpenBMB / 面壁智能 / AI9stars 联合开源 PilotDeck——独立 WorkSpace + 白盒可控记忆 + 子Agent级智能路由（Token 降70%），完全开源。

三个核心工程突破¶

成本：子Agent级路由，不是 per-request 路由，避免 KV-cache 打断，综合节省 70-78% token

隔离：每个 WorkSpace 是 AI 完整生存环境，多任务并行互不干扰

记忆黑盒：逐条可改可删，带时间戳/来源/类型，D 空时 AI 自动 Dream 整理记忆，可一键回滚

关键数据¶

程序员人格测试：$10.97 → $1.42（降75%）
小红书内容生成：$12.58 → $2.83（降70%）
复杂任务（Sonnet 4.6+MiniMax-M2.7）：$18.36 → $3.15（降83%），效果略好

深度分析¶

架构哲学：从"模型调用"到"环境自治"¶

PilotDeck 的核心设计思路与现有 Agent 框架截然不同。大多数 Agent 系统（如 LangGraph、CrewAI）将 AI 视为一个需要被"编排"的工具，而 PilotDeck 将每个 WorkSpace 视为一个完整的"AI 生存环境"。这种设计借鉴了容器化思维，但应用于 AI 推理上下文。每个 WorkSpace 拥有独立的状态、记忆和工具集，任务之间的隔离不依赖进程边界，而依赖 AI 自身的行为规范。

这种"环境自治"模式的价值在于：它解决了多 Agent 协作中最棘手的"状态污染"问题。当一个 Agent 在执行任务 A 时，其记忆和上下文不会因为任务 B 的执行而被意外修改。在传统架构中，这需要通过复杂的上下文窗口管理来实现；而 PilotDeck 通过结构化的环境隔离，将这一难题转移给了系统层处理。

子Agent路由：跨越"请求级路由"的思维陷阱¶

大多数 Agent 系统的路由发生在请求级别——每次用户输入时，系统判断应该使用哪个模型。这种方式的根本缺陷在于：它打断了 KV-cache 的连续性。每次模型切换都意味着上下文需要重新加载，推理效率反而下降。PilotDeck 提出的子Agent级路由解决了这一痛点。一个复杂任务被分解为多个子任务后，每个子Agent 被整体分配给一个模型执行到底，其内部的上下文缓存保持连续。

这一设计在工程层面实现了两个目标的平衡：一是成本优化，通过让简单任务使用廉价模型；二是性能保障，通过保持复杂任务的模型一致性来维护推理效率。调度规则支持自然语言描述，这意味着产品经理可以用"代码相关的子任务走 Opus，文本处理走便宜模型"这样的描述来配置路由策略，而不需要理解底层模型的能力差异。

白盒记忆：重新定义"AI 记忆"的可观测性¶

传统 Agent 的记忆是一个黑箱——用户只知道 AI"记住了"，但无法干预记忆的形成过程。PilotDeck 的白盒记忆系统将每条记忆结构化为包含时间戳、来源路径和类型的元组。这种设计使得记忆系统具备了数据库一样的可观测性：用户可以看到 AI 在什么时候记住了什么，以什么方式记住的，以及这条记忆对当前任务有什么潜在影响。

Dream 机制是这一系统的动态延伸。在 AI 空闲时段，后台自动执行记忆整理，类似于人类的睡眠期间记忆巩固过程。但关键创新在于"可回滚"——当 Dream 的整理结果不如预期时，用户可以一键撤销，这与版本控制的思想一脉相承。记忆冲突的问题也因此有了结构化的解决路径：直接删除，不需要重启对话，不需要重新配置偏好。

实践启示¶

开发团队的并行化策略¶

对于同时处理多个项目的开发团队，PilotDeck 的 WorkSpace 隔离机制提供了自然的并行化框架。每个项目可以拥有独立的 WorkSpace，各自配备不同的记忆配置和工具集，而不需要额外部署多个 Agent 实例。在代码审查场景中，一个 WorkSpace 可以专门负责性能相关检查，另一个负责安全审计，它们并行运行而互不干扰。子Agent路由在这里的价值在于：不同类型的代码分析可以自动选择最适合的模型，而不需要手动配置。

产品团队的 AI 行为可审计性¶

产品团队使用 AI Agent 时面临的挑战之一是"AI 为什么这么决策"难以追溯。白盒记忆系统的时间戳和来源追踪为这一难题提供了解决方案。当 AI 在某个迭代中改变了产品策略的建议时，产品经理可以回溯：AI 在什么时候，基于什么信息，做出了这个判断。这种透明性对于建立团队对 AI 系统的信任至关重要，特别是在涉及敏感业务决策的场景中。

成本控制与资源分配¶

PilotDeck 的路由数据揭示了一个重要趋势：复杂任务中使用混合模型（主模型+子模型）可以实现成本与效果的双优化。对于播客多语言翻译+金融分析+代码文档这一复杂任务，单纯使用 Sonnet 4.6 的成本为 $18.36，而混合架构（主 Sonnet 4.6 + 子 MiniMax-M2.7）的成本降至 $3.15，同时效果略有提升。这一案例说明：在任务可以自然分解的场景下，模型组合策略往往优于单一模型策略。

企业隐私与本地部署¶

对于金融、医疗、法律等数据敏感行业，PilotDeck 支持本地模型接入的架构具有实际落地价值。云端模型负责复杂推理，本地模型负责敏感数据处理，这种分工在保证隐私的同时维持了系统的智能水平。对于需要满足数据驻留要求的企业，这一架构提供了 GDPR 和数据主权合规的技术基础。

第 2 来源：数据派THU 转发新智元（2026-06-09 17:00）¶

数据派 THU 2026-06-09 重发新智元原稿的"OpenClaw 凉了 / PilotDeck 接管"叙事，第 1 原文存档 (新智元 ASI启示录)（2026-05-28）之外第 2 个中文公众号译本。SHA-256 不同，URL 不同，公众号不同，叙事结构不同（"清华系高材生拍在沙滩的小龙虾" vs 原稿"清华系 Agent 操作系统"），但 underlying source 相同（清华 THUNLP+OpenBMB+面壁+AI9stars 联合开源同一事件）。

核心创新 / 关键数据（第 2 来源独到补充）¶

GitHub + 官网显式链接（第 1 来源没有给出）：
https://github.com/OpenBMB/PilotDeck
https://pilotdeck.openbmb.cn/
VoxCPM 端侧语音模型自动调度（第 1 来源完全无此细节）：播客多语言处理时，PilotDeck 自己判断需要什么工具，自动部署一个端侧 VoxCPM 模型来生成语音。这一 case 是 routing 能力的实战延伸：路由不仅能选云端模型，还能根据任务需要冷启动本地模型。
3 个跨域 WorkSpace 并行实测叙事（比第 1 来源更具体）：
奶茶店模拟经营（5 款奶茶 + 5 子系统 + JS 模块 + 卡片风 UI）
AI 融资数据大屏（4 个图：融资 TOP 10 / 三大区占比 / 三大赛道分布 + 动画 + 悬停）
程序员性格测试（10 道题贴近真实开发场景，6 种人格 GitHub 暗色 + JetBrains Mono 视觉）
三层舱结构更明确（第 1 来源一笔带过，第 2 来源展开成 3 条 bullet）：专属文件系统 / 专属记忆（Project Memory + Collaboration Feedback）/ 专属技能（Skill 应用商店一键安装到对应 WorkSpace）。
强叙事对比 OpenClaw：第 2 来源比第 1 来源更尖锐——把 OpenClaw 比作"飓风，第一次把 Agent 范式吹进大众视野"但"没成为 Linux"，把 PilotDeck 比作"清华系高材生，拍在沙滩的小龙虾"。

对照表（第 2 来源 vs 第 1 来源）¶

维度	第 1 来源（新智元 ASI启示录，2026-05-28）	第 2 来源（数据派THU，2026-06-09）
核心叙事	"清华系 Agent 操作系统 + Token 降70%"	"OpenClaw 凉了 + 圈内都在用 PilotDeck"
GitHub 链接	❌ 未给出	✅ `github.com/OpenBMB/PilotDeck`
官网链接	❌ 未给出	✅ `pilotdeck.openbmb.cn`
VoxCPM 端侧自动部署	❌ 无	✅ 播客多语言处理自动装 VoxCPM
WorkSpace 跨域 demo	一笔带过	奶茶店 + 数据大屏 + 性格测试 3 个具体 case
三层舱结构	简述	展开 3 个独立 bullet（文件系统/记忆/技能）
OpenClaw 横向对比	中性（"极客浪漫主义"）	尖锐（"没成为 Linux"）
Dream 机制	简述	简述（差异不大）
Token 数据表格	3 场景（已包含）	3 场景（相同数据，再加 1 个 $10.97→$1.42 = 75% 性格测试 case）
Rollback 机制	一笔带过	单独强调 "Memory Dream + Rollback Last Dream" 按钮
开发者受众定位	通用	清华大数据研究中心背书，更学术中立
publish_time	2026-05-28	2026-06-09（12 天后跨公众号传播）

与已有来源呼应¶

架构哲学呼应：第 1 来源强调"环境自治"（PilotDeck 把 AI 视为生存环境而非工具），第 2 来源把这一点翻译成大白话：「别家的 WorkSpace 是文件夹加静态规则。PilotDeck 的 WorkSpace 是 AI 的完整生存环境。」——这与 Harness Engineering 框架的"环境是新型后端"思想完全吻合。

白盒记忆呼应：第 1 来源强调"可观测性 = 数据库级"，第 2 来源把这个抽象落到具体 UI 操作：「记错了点进改，记忆冲突了直接删，不要重启对话，不要重新喂一遍偏好」——这一句精准对应 Agent 记忆架构的"用户可控 vs AI 自主整合"两派之争，PilotDeck 明显站用户可控派。

路由机制延伸：第 1 来源只覆盖"按规则 + 自然语言选模型"，第 2 来源新增一维度——路由可以冷启动本地模型（VoxCPM 案例）。这一能力是 Harness 7 层架构中"环境即服务"层的具体实现：路由不只决策，更可动态拉起新资源。

OpenClaw 横向对比的反思：两源都把 OpenClaw 定位"范式探路者而非生态建设者"，呼应 OpenClaw 8 部分总结提到的"安全/性能/可观测性短板"——PilotDeck 正是补足这些短板的后继者（隔离、记忆可控、成本）。

实践启示（从 2 源综合后）¶

GitHub 显式链接为开发者提供立即试用入口——之前 1 个 source 没给链接，2 source 后 onboarding 成本降低
VoxCPM 案例对多模态 Agent 团队有借鉴价值：复杂任务不再预装所有模型，而是在 routing 层按需冷启动
3 个跨域 demo 并行证明 WorkSpace 隔离已从"文件夹级"进化到"AI 完整生存环境级"——是 Agent Harness 上下文管理概念的产品化落地
6 种程序员人格的细分定位是Skill 商店 + WorkSpace + Routing 三件套的用户教育样例——通过游戏化 case 让用户理解三层结构

上线状态 / 链接¶

GitHub: https://github.com/OpenBMB/PilotDeck（第 2 来源首次提供）
官网: https://pilotdeck.openbmb.cn/（第 2 来源首次提供）
联合研发方: 清华 THUNLP + 面壁智能 + OpenBMB + AI9stars
发布节奏: 2026-05-28（新智元首发）→ 2026-06-09（数据派 THU 转发）→ 12 天跨公众号传播