跳转至

小龙虾彻底凉了?清华团队连夜开源Agent神器PilotDeck,Token成本狂降70%!

Ch04.124 小龙虾彻底凉了?清华团队连夜开源Agent神器PilotDeck,Token成本狂降70%!

📊 Level ⭐⭐ | 14.3KB | entities/pilotdeck-agent-os-openbmb-tsinghua.md

-> 第 1 原文存档 (新智元 ASI启示录) -> 第 2 原文存档 (数据派THU 转发新智元)

PilotDeck:清华系 Agent 操作系统

一句话

清华大学 THUNLP / OpenBMB / 面壁智能 / AI9stars 联合开源 PilotDeck——独立 WorkSpace + 白盒可控记忆 + 子Agent级智能路由(Token 降70%),完全开源。

三个核心工程突破

成本:子Agent级路由,不是 per-request 路由,避免 KV-cache 打断,综合节省 70-78% token

隔离:每个 WorkSpace 是 AI 完整生存环境,多任务并行互不干扰

记忆黑盒:逐条可改可删,带时间戳/来源/类型,D 空时 AI 自动 Dream 整理记忆,可一键回滚

关键数据

  • 程序员人格测试:$10.97 → $1.42(降75%)
  • 小红书内容生成:$12.58 → $2.83(降70%)
  • 复杂任务(Sonnet 4.6+MiniMax-M2.7):$18.36 → $3.15(降83%),效果略好

深度分析

架构哲学:从"模型调用"到"环境自治"

PilotDeck 的核心设计思路与现有 Agent 框架截然不同。大多数 Agent 系统(如 LangGraph、CrewAI)将 AI 视为一个需要被"编排"的工具,而 PilotDeck 将每个 WorkSpace 视为一个完整的"AI 生存环境"。这种设计借鉴了容器化思维,但应用于 AI 推理上下文。每个 WorkSpace 拥有独立的状态、记忆和工具集,任务之间的隔离不依赖进程边界,而依赖 AI 自身的行为规范。

这种"环境自治"模式的价值在于:它解决了多 Agent 协作中最棘手的"状态污染"问题。当一个 Agent 在执行任务 A 时,其记忆和上下文不会因为任务 B 的执行而被意外修改。在传统架构中,这需要通过复杂的上下文窗口管理来实现;而 PilotDeck 通过结构化的环境隔离,将这一难题转移给了系统层处理。

子Agent路由:跨越"请求级路由"的思维陷阱

大多数 Agent 系统的路由发生在请求级别——每次用户输入时,系统判断应该使用哪个模型。这种方式的根本缺陷在于:它打断了 KV-cache 的连续性。每次模型切换都意味着上下文需要重新加载,推理效率反而下降。PilotDeck 提出的子Agent级路由解决了这一痛点。一个复杂任务被分解为多个子任务后,每个子Agent 被整体分配给一个模型执行到底,其内部的上下文缓存保持连续。

这一设计在工程层面实现了两个目标的平衡:一是成本优化,通过让简单任务使用廉价模型;二是性能保障,通过保持复杂任务的模型一致性来维护推理效率。调度规则支持自然语言描述,这意味着产品经理可以用"代码相关的子任务走 Opus,文本处理走便宜模型"这样的描述来配置路由策略,而不需要理解底层模型的能力差异。

白盒记忆:重新定义"AI 记忆"的可观测性

传统 Agent 的记忆是一个黑箱——用户只知道 AI"记住了",但无法干预记忆的形成过程。PilotDeck 的白盒记忆系统将每条记忆结构化为包含时间戳、来源路径和类型的元组。这种设计使得记忆系统具备了数据库一样的可观测性:用户可以看到 AI 在什么时候记住了什么,以什么方式记住的,以及这条记忆对当前任务有什么潜在影响。

Dream 机制是这一系统的动态延伸。在 AI 空闲时段,后台自动执行记忆整理,类似于人类的睡眠期间记忆巩固过程。但关键创新在于"可回滚"——当 Dream 的整理结果不如预期时,用户可以一键撤销,这与版本控制的思想一脉相承。记忆冲突的问题也因此有了结构化的解决路径:直接删除,不需要重启对话,不需要重新配置偏好。

实践启示

开发团队的并行化策略

对于同时处理多个项目的开发团队,PilotDeck 的 WorkSpace 隔离机制提供了自然的并行化框架。每个项目可以拥有独立的 WorkSpace,各自配备不同的记忆配置和工具集,而不需要额外部署多个 Agent 实例。在代码审查场景中,一个 WorkSpace 可以专门负责性能相关检查,另一个负责安全审计,它们并行运行而互不干扰。子Agent路由在这里的价值在于:不同类型的代码分析可以自动选择最适合的模型,而不需要手动配置。

产品团队的 AI 行为可审计性

产品团队使用 AI Agent 时面临的挑战之一是"AI 为什么这么决策"难以追溯。白盒记忆系统的时间戳和来源追踪为这一难题提供了解决方案。当 AI 在某个迭代中改变了产品策略的建议时,产品经理可以回溯:AI 在什么时候,基于什么信息,做出了这个判断。这种透明性对于建立团队对 AI 系统的信任至关重要,特别是在涉及敏感业务决策的场景中。

成本控制与资源分配

PilotDeck 的路由数据揭示了一个重要趋势:复杂任务中使用混合模型(主模型+子模型)可以实现成本与效果的双优化。对于播客多语言翻译+金融分析+代码文档这一复杂任务,单纯使用 Sonnet 4.6 的成本为 $18.36,而混合架构(主 Sonnet 4.6 + 子 MiniMax-M2.7)的成本降至 $3.15,同时效果略有提升。这一案例说明:在任务可以自然分解的场景下,模型组合策略往往优于单一模型策略。

企业隐私与本地部署

对于金融、医疗、法律等数据敏感行业,PilotDeck 支持本地模型接入的架构具有实际落地价值。云端模型负责复杂推理,本地模型负责敏感数据处理,这种分工在保证隐私的同时维持了系统的智能水平。对于需要满足数据驻留要求的企业,这一架构提供了 GDPR 和数据主权合规的技术基础。

第 2 来源:数据派THU 转发新智元(2026-06-09 17:00)

数据派 THU 2026-06-09 重发新智元原稿的"OpenClaw 凉了 / PilotDeck 接管"叙事,第 1 原文存档 (新智元 ASI启示录)(2026-05-28)之外第 2 个中文公众号译本。SHA-256 不同,URL 不同,公众号不同,叙事结构不同("清华系高材生拍在沙滩的小龙虾" vs 原稿"清华系 Agent 操作系统"),但 underlying source 相同(清华 THUNLP+OpenBMB+面壁+AI9stars 联合开源同一事件)

核心创新 / 关键数据(第 2 来源独到补充)

  1. GitHub + 官网 显式链接(第 1 来源没有给出):
  2. https://github.com/OpenBMB/PilotDeck
  3. https://pilotdeck.openbmb.cn/
  4. VoxCPM 端侧语音模型自动调度第 1 来源完全无此细节):播客多语言处理时,PilotDeck 自己判断需要什么工具,自动部署一个端侧 VoxCPM 模型来生成语音。这一 case 是 routing 能力的实战延伸:路由不仅能选云端模型,还能根据任务需要冷启动本地模型
  5. 3 个跨域 WorkSpace 并行实测叙事(比第 1 来源更具体):
  6. 奶茶店模拟经营(5 款奶茶 + 5 子系统 + JS 模块 + 卡片风 UI)
  7. AI 融资数据大屏(4 个图:融资 TOP 10 / 三大区占比 / 三大赛道分布 + 动画 + 悬停)
  8. 程序员性格测试(10 道题贴近真实开发场景,6 种人格 GitHub 暗色 + JetBrains Mono 视觉)
  9. 三层舱结构更明确(第 1 来源一笔带过,第 2 来源展开成 3 条 bullet):专属文件系统 / 专属记忆(Project Memory + Collaboration Feedback)/ 专属技能(Skill 应用商店一键安装到对应 WorkSpace)。
  10. 强叙事对比 OpenClaw:第 2 来源比第 1 来源更尖锐——把 OpenClaw 比作"飓风,第一次把 Agent 范式吹进大众视野"但"没成为 Linux",把 PilotDeck 比作"清华系高材生,拍在沙滩的小龙虾"。

对照表(第 2 来源 vs 第 1 来源)

维度 第 1 来源(新智元 ASI启示录,2026-05-28) 第 2 来源(数据派THU,2026-06-09)
核心叙事 "清华系 Agent 操作系统 + Token 降70%" "OpenClaw 凉了 + 圈内都在用 PilotDeck"
GitHub 链接 ❌ 未给出 github.com/OpenBMB/PilotDeck
官网链接 ❌ 未给出 pilotdeck.openbmb.cn
VoxCPM 端侧自动部署 ❌ 无 ✅ 播客多语言处理自动装 VoxCPM
WorkSpace 跨域 demo 一笔带过 奶茶店 + 数据大屏 + 性格测试 3 个具体 case
三层舱结构 简述 展开 3 个独立 bullet(文件系统/记忆/技能)
OpenClaw 横向对比 中性("极客浪漫主义") 尖锐("没成为 Linux")
Dream 机制 简述 简述(差异不大)
Token 数据表格 3 场景(已包含) 3 场景(相同数据,再加 1 个 $10.97→$1.42 = 75% 性格测试 case)
Rollback 机制 一笔带过 单独强调 "Memory Dream + Rollback Last Dream" 按钮
开发者受众定位 通用 清华大数据研究中心背书,更学术中立
publish_time 2026-05-28 2026-06-09(12 天后跨公众号传播)

与已有来源呼应

架构哲学呼应:第 1 来源强调"环境自治"(PilotDeck 把 AI 视为生存环境而非工具),第 2 来源把这一点翻译成大白话:「别家的 WorkSpace 是文件夹加静态规则。PilotDeck 的 WorkSpace 是 AI 的完整生存环境。」——这与 Harness Engineering 框架的"环境是新型后端"思想完全吻合。

白盒记忆呼应:第 1 来源强调"可观测性 = 数据库级",第 2 来源把这个抽象落到具体 UI 操作:「记错了点进改,记忆冲突了直接删,不要重启对话,不要重新喂一遍偏好」——这一句精准对应 Agent 记忆架构 的"用户可控 vs AI 自主整合"两派之争,PilotDeck 明显站用户可控派。

路由机制延伸:第 1 来源只覆盖"按规则 + 自然语言选模型",第 2 来源新增一维度——路由可以冷启动本地模型(VoxCPM 案例)。这一能力是 Harness 7 层架构 中"环境即服务"层的具体实现:路由不只决策,更可动态拉起新资源。

OpenClaw 横向对比的反思:两源都把 OpenClaw 定位"范式探路者而非生态建设者",呼应 OpenClaw 8 部分总结 提到的"安全/性能/可观测性短板"——PilotDeck 正是补足这些短板的后继者(隔离、记忆可控、成本)。

实践启示(从 2 源综合后)

  1. GitHub 显式链接为开发者提供立即试用入口——之前 1 个 source 没给链接,2 source 后 onboarding 成本降低
  2. VoxCPM 案例多模态 Agent 团队有借鉴价值:复杂任务不再预装所有模型,而是在 routing 层按需冷启动
  3. 3 个跨域 demo 并行证明 WorkSpace 隔离已从"文件夹级"进化到"AI 完整生存环境级"——是 Agent Harness 上下文管理 概念的产品化落地
  4. 6 种程序员人格的细分定位是Skill 商店 + WorkSpace + Routing 三件套的用户教育样例——通过游戏化 case 让用户理解三层结构

上线状态 / 链接

  • GitHub: https://github.com/OpenBMB/PilotDeck(第 2 来源首次提供)
  • 官网: https://pilotdeck.openbmb.cn/(第 2 来源首次提供)
  • 联合研发方: 清华 THUNLP + 面壁智能 + OpenBMB + AI9stars
  • 发布节奏: 2026-05-28(新智元首发)→ 2026-06-09(数据派 THU 转发)→ 12 天跨公众号传播

原文链接

相关实体