GBrain — YC CEO Garry Tan 的 Postgres-native AI 第二大脑：5 大设计决策 + 零 LLM 知识图谱 + 8 阶段检索 + Brain⊥Source 正交维度¶

Ch01.220 GBrain — YC CEO Garry Tan 的 Postgres-native AI 第二大脑：5 大设计决策 + 零 LLM 知识图谱 + 8 阶段检索 + Brain⊥Source 正交维度¶

📊 Level ⭐⭐ | 16.4KB | entities/gbrain.md

概述¶

GBrain 于 2026 年 4 月初开源，十几天内斩获 9K+ Star。其核心解决的是 AI Agent 的"金鱼脑"问题——每次开聊都从零开始，昨天告诉它的事今天就当没发生过。 Garry Tan 本人用 GBrain 运行自己的日常 Agent：17888 个页面、4383 个人物、723 家公司、21 个定时任务全自动运转。整套项目仅用 12 天完成开发。

与 GStack 的关系¶

GStack：教 Agent 怎么写代码（7 万+ Star，每天 3 万开发者使用）
GBrain：教 Agent 怎么记事和思考两个项目相互独立，可单独使用，也可组合。hosts/gbrain.ts 是连接两者的桥梁——GStack 的编码 Skill 在动手写代码前会先查 GBrain 脑子，确认之前是否讨论过或决定过什么。两者共同实践了 Garry Tan 的哲学。

核心架构¶

Compiled Truth + Timeline 知识模型¶

每个 brain page 分两层：

Compiled Truth（上层）：当前最佳理解，可被随时改写——认知随新接触不断刷新
Timeline（下层）：只追加不删除，记录每条原始证据设计目的：既要让认知进化，又不能丢失历史。之前的笔记工具要么覆盖式更新（丢历史），要么纯追加（查的时候一团乱），GBrain 的分层兼顾两者优点。

25 个 Skill 即插即用¶

两个常驻 Skill：

signal-detector：每条新消息进来自动后台运行便宜小模型，抓取随口说的观点和提到的人/公司
brain-ops：Agent 回答前先去脑子查一遍，查不到再调外部 API——解决 AI 瞎编问题其他 Skill 覆盖：会议、邮件、推特、PDF、视频、GitHub 仓库摄入；cron 调度、每日简报、引用自检、过期页面巡检等运维类任务。

混合搜索 + 实体自动升级¶

搜索：向量 + 关键词 + RRF 融合 + 多查询扩展 + 4 层去重。实体自动升级机制：

被提及 1 次 → 生成 stub 页面
被提及 3 次以上 → 自动联网从 LinkedIn/Twitter/公司主页补料
被提及 8 次以上或开过会 → 走完整管线，生成详细 dossier fail-improve 循环：意图分类器从第一周的 40% 确定性提升到 87%。

能打电话的脑子¶

集成 Twilio + OpenAI Realtime——打电话进去时 AI 已从脑子拉出对方全部上下文（上次聊天内容、合作项目、未结话题）。通话结束后自动生成 brain page，包含完整转录、实体识别、与已有页面的交叉引用。

部署方式¶

路线 A（推荐）：让 Agent 自己装。将 prompt 贴入 OpenClaw 或 Hermes Agent：

Retrieve and follow the instructions at: https://raw.githubusercontent.com/garrytan/gbrain/master/INSTALL_FOR_AGENTS.md

约 30 分钟完成。 路线 B：本地 CLI 体验：

git clone https://github.com/garrytan/gbrain.git && cd gbrain && bun install && bun link
gbrain init        # 本地脑子，2 秒拉起
gbrain import ~/notes/
gbrain query "我的笔记里反复出现的主题是什么?"

默认使用 PGLite（嵌入式 Postgres），零配置。超过 1000 个文件或多设备同步时，gbrain migrate --to supabase 迁移到 Supabase。 路线 C：接入 Claude Code / Cursor——自带 30+ MCP 工具，通过 stdio 暴露：

{
  "mcpServers": {
    "gbrain": { "command": "gbrain", "args": ["serve"] }
  }
}

设计哲学¶

GBrain 背后是 Thin Harness, Fat Skill 哲学：把智能放在 Skill 里，Runtime 越薄越好。 Garry Tan 的观点：Skill 文件就是代码，是目前做知识工作最强的载体。 性能基准：P@5 49.1%、R@5 97.9%。关闭 KG 功能后 P@5 下降 31.4pp，优于纯 ripgrep-BM25+向量 RAG 。

深度分析¶

Thin Harness, Fat Skill 哲学的完整实现¶

GBrain 是 Garry Tan `` 哲学在记忆与认知领域的完整实践。GStack 管编码执行，GBrain 管记忆与推理——两者共同构成一个轻 Harness 上长出胖 Skill 的 Agent 系统。 Runtime 极薄：只有 25 个 Skill 的加载器和调度器，所有智能逻辑都在 Skill 文件里。Skill 文件即代码，是目前知识工作最强的载体——这是 Garry Tan 的核心论点。

Compiled Truth + Timeline 的认知价值¶

传统笔记工具两难：覆盖式更新丢失历史，纯追加无法形成有效认知。GBrain 的双层设计破解了这一困境：

Compiled Truth 层：当前最佳理解，可被随时覆写——认知随新接触不断刷新
Timeline 层：只追加不删除，每条原始证据都有时间戳和来源这本质上是让 AI Agent 拥有了"进化中的记忆"，而非静态的文档库。

8 层架构的认知升维¶

传统 RAG 只到"找得到"，GBrain 的 8 层架构实现了从检索到记忆再到认知的跃迁： | 层 | 名称 | 本质 | |----|------|------| | 1-4 | 基础检索强化 | 让相关内容能被找到 | | 5 | Reranking | 92% 的第一名结果在此步变动——排序即认知 | | 6 | Epistemology | 记录来源/时间戳/置信度，知识的知识 | | 7 | Entity KG | 14 万+关联边，构成关系网络 | | 8 | Dreaming Loops | 闲时自主合并同类项、修补逻辑断层 | 网友称第 6 层为"真正护城河"——因为它让整个系统可知可溯，而非黑箱生成。

实体自动升级的价值¶

不需要人工标注重要性，系统通过提及频率自动判断：1 次生成 stub → 3 次联网补料 → 8 次或开会生成完整 dossier。这是一种基于涌现的被动学习机制。 fail-improve 循环让意图分类器从 40% 提升到 87%——系统在每次兜底中自我优化。

实践启示¶

对 Agent 开发者的启示¶

记忆是 Agent 的基础设施：没有记忆的 Agent 每次都是新手。GBrain 证明了记忆系统可以开源、快速部署、且效果显著。
Skill 即认知单元：把智能放在可插拔的 Skill 里，而非硬编码进 Runtime。这是未来 Agent 架构的主流方向。
知识的知识是护城河：第 6 层 Epistemology 记录来源和置信度，比答案本身更有价值——它让 Agent 知道自己不知道什么。

对个人知识管理的启示¶

两档记忆优于单一记忆：既要有随时刷新的认知层（Compiled Truth），也要有永不丢失的证据层（Timeline）。
频率即重要性：被提及多次的实体自动升级，无需人工标注。
对话即输入：电话、消息、会议都可以成为记忆的来源，系统自动完成提取和关联。

对 AI 创业的启示¶

12 天 MVP 是可行的：Garry Tan 12 天完成 GBrain，说明 AI 项目的核心原型可以极快验证。
开源 + YC 背书 = 传播飞轮：9K+ Star 十几天达成，创始人个人品牌是重要的放大器。
零配置起步，按需扩展：默认 PGLite 嵌入式 Postgres，零配置；超过 1000 文件或多设备同步再迁 Supabase——这是 SaaS 工具的正确打开方式。

8 层架构详解¶

GBrain 将传统 RAG 的 4 层扩展为 8 层，从"找得到"升级到"真正记住并进化"： | 层 | 名称 | 功能 | |----|------|------| | 1 | Chunking | v4 分块器，处理 Markdown/代码块/元数据 | | 2 | Embedding | 对比 3 家供应商，选最优语义匹配方案 | | 3 | Indexing | O(log n)，375K 块时 2ms vs 2s | | 4 | Query Understanding | tokenmax 模式查询扩展 + 意图检测 | | 5 | Reranking | ZE zerank-2 重排序，92% 第一名结果在此变动 | | 6 | Epistemology | 记录来源/时间戳/置信度（网友称"真正护城河"） | | 7 | Entity KG | 14 万+关联边，人物→公司→会议→概念关系网 | | 8 | Dreaming Loops | 闲时自主触发，合并同类项、修补逻辑断层 | 性能基准：P@5 49.1%、R@5 97.9%。关闭 KG 功能后 P@5 下降 31.4pp，优于纯 ripgrep-BM25+向量 RAG 。

第 3 来源：术哥无界 v0.42.44.0 源码深度解析¶

运维有术（术哥无界 ShugeX）2026-06-16 发布的源码深度分析 — 项目已经从 4 月初的 v0.17 演进到 v0.42.44.0，生产数据从 17,888 pages / 4,383 people / 723 companies / 21 cron jobs 增长到 146,646 pages / 24,585 people / 5,339 companies / 66 cron jobs（约 8.2× 增长）。

本来源与前两来源的视角差异： - 第 1 来源（Garry Tan 研发治理，2026-04）：项目刚开源的 12 天 MVP 视角 - 第 2 来源（8 层架构详解，2026-05）：从 RAG 4 层扩展到 8 层的功能视角 - 第 3 来源（本篇）：从源码出发的 5 大设计决策 + 工程可靠性视角

5 大设计决策¶

1. 契约优先：双引擎架构¶

47 个 BrainEngine 接口操作，kind: 'postgres' | 'pglite' 判别字段
避开 instanceof 跨模块动态导入的原型链断裂陷阱
TypeScript discriminated union 编译期穷尽性检查
想加第三个引擎实现 47 个操作即可，CLI/MCP 层不动
代价：contract 一旦定型修改波及面大

2. 零 LLM 知识图谱：正则 + 动词¶

4 pass 提取链（Markdown 链接 / 限定 wikilink / 非限定 wikilink / 裸名）
60+ 动词正则（works_at / invested_in / founded / advises）
Frontmatter 派生边（works_at / founded / attended）
addLinksBatch JSONB 批量写入绕过 65535 参数上限
零 LLM 调用 → 近零成本 + 秒级全图提取 + 每次写页自动触发

3. 四层检索：8 阶段管线¶

向量（HNSW）+ BM25 + 关系（递归 CTE BFS）+ source-aware → RRF 融合
5 个硬编码常量（COMPILED_TRUTH_BOOST=2.0 / CROSS_SOURCE_BOOST=1.10 等）
Per-page max-pool (DISTINCT ON (slug)) 防长页面占满结果集
evidence + create_safety 标签让下游知道每条结果的可信度
三种模式：conservative / balanced（默认）/ tokenmax

4. Brain ⊥ Source：两个正交组织维度¶

Brain（数据库轴）× Source（仓库轴）
slug 在 source 范围内不重复，全局可重复
6 层渐进增强解析链（参数 > env > dotfile > path > fallback）
PageType v0.38 从闭合 union 改为开放 string，Schema Pack 可扩展

5. 工程可靠性¶

batchRetry + decorrelated jitter 防 thundering herd
background-work 5 sink 按 order 顺序 drain，防 CLI 退出数据丢失
ctx.remote === false 才可信，4 个信任边界调用点全部 fail-closed
PGLite advisory lock 用 PID liveness + heartbeat 防 WAL 损坏

gbrain think 命令¶

命令	行为
`gbrain search`	返回原始页面（和普通 RAG 一样）
`gbrain think`	综合答案 + 显式引用 + 缺口分析（gap analysis）
缺口分析	页面过期 / 声明无引用 / 两页矛盾 / 知识空洞

搜索引擎和大脑的区别：搜索找页面，大脑读页面并写出答案，同时承认自己不知道什么。

源码诚实的局限标注（README 不会告诉你）¶

PGLite 单写者限制：大规模 sync 需要停 serve
frontmatter tag 无 provenance 列：reindex 只能 add-only
图遍历的 truncation 检测：存在 false positive/negative，方案已推迟

与其他 GBrain 来源的关系¶

第 1 来源（Garry Tan 研发治理）：项目 12 天 MVP 故事 + Thin Harness Fat Skill 哲学 + 25 Skill + 部署方式 + Compiled Truth+Timeline
第 2 来源（8 层架构详解）：从 RAG 4 层扩展到 8 层（Chunking/Embedding/Indexing/Query/Reranking/Epistemology/Entity KG/Dreaming Loops）
第 3 来源（本篇）：5 大设计决策 + 源码级实现细节 + 工程可靠性 + gbrain think

三个来源构成"项目故事 → 功能架构 → 源码实现"完整闭环。