autobrowse browserbase persistent skill¶

Ch07.034 autobrowse browserbase persistent skill¶

📊 Level ⭐⭐ | 9.2KB | entities/autobrowse-browserbase-persistent-skill.md

-> 原文存档

Autobrowse — 浏览器 Agent 持久记忆：技能文件作为永久技能¶

核心定位¶

Browserbase（Kyle Jeong, 2026-05-07）提出。核心命题：让浏览器 Agent 的每次探索都变成可复用的永久技能——不是向量，不是会话录像，而是任何人都能读懂的 markdown 技能文件。

核心问题：探索税（Discovery Tax）¶

定义：浏览器 Agent 每次会话结束后学到的一切都跟着蒸发，下次运行还得从零开始探索同一个网站。推理能力越来越强，但记忆没有改善。
凯恩斯思想实验：没有海马体的天才，每次从零推导出同样精妙的结论，却无法在昨天的洞察上继续前进。
根本瓶颈：不是推理能力，而是记忆形式——现有方案（会话录像、trace、embedding 向量）要么不可读、要么不可复用、要么两者兼有。

核心架构：五步学习循环¶

Objective → Run → Study → Iterate → Graduate (SKILL.md)  
    ↑                                      ↓  
    ←←←←←←←← strategy.md（跨迭代叠加）←←←←←

| 步骤 | 作用 |
|------|------|
| Objective | 真实任务输入 |
| Run | 产生完整 trace（工具调用、token 消耗） |
| Study | Agent 元认知反思（卡点、猜测、不必要 token） |
| Iterate | strategy.md 叠加学习笔记，跨迭代知识积累 |
| Graduate | 收敛后输出 SKILL.md + 辅助脚本 |
收敛信号：相邻迭代成本和轮次数改善幅度收窄时主动短路；目标不是全局最优，是"足够好+足够可靠+足够便宜"。

关键设计：记忆 = Markdown 技能文件¶

为什么不用向量/截图：

向量：不可读，跨 Agent 无法复用
截图：不可执行，无法版本控制 SKILL.md 结构：
名称、描述
推荐方法 + 备选路径
具体 API 调用步骤（含参数说明）
已知坑点和规避方式
辅助脚本（CLI、Python helper、CSS 选择器） 可读性 → 可审计 → 可移交：从"信任 Agent 输出"跃迁到"读懂 Agent 操作手册"。

量化效果：Craigslist 基准¶

任务：旧金山 Craigslist 两居室公寓搜索，$5000–$7000，带室内洗衣机。
| 指标 | 原始 Agent | Autobrowse 技能 | 改善 |
|------|-----------|-----------------|------|
| 耗时 | 71 秒 | 27 秒 | 2.6x ↓ |
| 成本 | $0.22 | $0.12 | 45% ↓ |
| 正确性 | 0 精准命中 | 2 精确匹配 | ✓ |
关键洞察：更快失败不比慢但正确更有价值——正确性是核心指标。

核心发现：JSON API 逆向¶

Craigslist 探索发现：

搜索页面全 JS 渲染，browse snapshot 返回 0 个可访问性引用
真实数据在 https://sapi.craigslist.org/web/v8/postings/search/full（公开 JSON API，无鉴权）
坑：postal= 参数缺失时按 IP 地理位置返回错误城市
人工逆向需数小时，Autobrowse 几次迭代自动发现

自批评：Agency 分层框架¶

层级	工具	适用场景
L0	确定性 Python + BeautifulSoup	静态 HTML
L1	`browse fetch`	简单动态页面
L2	Autobrowse	高复杂性、需探索的长尾网站
原则：先用最低 Agency 工具探一下，能拿到数据就停止；只有低 Agency 工具都失败时才升级到 Autobrowse。

复利与递归¶

技能库复利：每新网站 → 新技能 → 长尾任务越来越便宜。能力工厂模式。
递归改进自身：

迭代循环本身、收敛启发式、技能模板格式 → 也成为被优化的对象
不依赖神秘新模型能力，只需方法递归应用

深度分析¶

记忆形式才是根本瓶颈¶

过去两年浏览器 Agent 的推理能力突飞猛进——JS 渲染、反爬、多步流程、验证码处理均有突破。但跨会话传递知识的能力没有任何改善。Kyle Jeong 的核心论断：现有记忆方案（会话录像、execution trace、embedding 向量）要么不可读，要么不可复用。真正有用的记忆必须同时满足：能被人读懂、能被 Agent 执行、能被团队共享和版本控制。这三个条件指向同一个答案——markdown 技能文件，而非向量数据库或截图。

五步学习循环的收敛机制¶

Objective → Run → Study → Iterate → Graduate 的五步循环中，真正的知识积累发生在 Iterate 阶段——strategy.md 跨迭代叠加，每次新迭代先读这份笔记，确保上次学到的教训不会丢失。收敛信号是相邻迭代成本和轮次数改善幅度收窄时主动短路。关键洞察：目标不是全局最优，而是"足够好 + 足够可靠 + 足够便宜"的三重约束满足。这个终止条件本身就是一种元级别的工程决策，避免无限迭代的资源浪费。

JSON API 逆向作为核心发现¶

Craigslist 基准测试揭示了一个深层模式：浏览器 Agent 的真正瓶颈往往不是推理，而是数据结构发现。搜索页面全 JS 渲染，browse snapshot 返回 0 个可访问性引用；真实数据藏在未文档化的公开 JSON API 中。这个发现不是靠人工调研，而是 Autobrowse 几次迭代自动完成的——这说明 Agent 在探索过程中积累的"网站结构知识"比任何静态爬虫规则都更有价值。

Agency 分层与工具选择原则¶

L0（确定性 Python + BeautifulSoup）适合静态 HTML；L1（browse fetch）适合简单动态页面；L2（Autobrowse）适合高复杂性、需探索的长尾网站。原则很清晰：先用最低 Agency 工具探一下，能拿到数据就停止；只有低 Agency 工具都失败时才升级到 Autobrowse。这个分层框架解决的是"工具错配"问题——用大炮打蚊子或用蚊子扛大炮都是资源错配。

技能库的复利与递归¶

每新网站 → 新技能 → 长尾任务越来越便宜。能力工厂模式的核心是复利：技能库增长 → 后续任务成本下降 → 更多任务变得经济可行。更值得关注的是递归自我改进：迭代循环本身、收敛启发式、技能模板格式都成为被优化的对象。这不依赖神秘的新模型能力，只需方法递归应用。

实践启示¶

工具选择：先探后用。遇到网站先用 browse fetch 探一下，数据直接在响应里就写解析器；响应为空或需 JS 渲染才升级到 Autobrowse。避免从一开始就用高 Agency 工具，白白付探索税。
收敛判断：边际改善收窄即停。通常 3-5 次迭代后，相邻迭代的成本和轮次改善幅度开始收敛。记住目标不是全局最优，而是三重约束的同时满足——足够好、足够可靠、足够便宜。无限迭代是对资源的浪费。
技能文件：可读性是一切的基础。SKILL.md 的价值在于同时服务两个受众：Agent 能直接加载执行，人类能读懂并审计。工程师可读可编辑可版本控制，非技术人员也能发现错误。从"信任 Agent 输出"跃迁到"读懂 Agent 操作手册"是本质改变。
正确性优先于速度。"更快失败"的 Agent 不比"慢但正确"的 Agent 更有价值。在基准测试中，原始 Agent 60 个全市范围结果 0 精准命中，Autobrowse 技能 2 个精确匹配——这个差距才是关键。速度和成本改善是正确性解决后的副产品。
静态 HTML 不用 Autobrowse。167 行静态 HTML 州立法规目录跑了四次迭代、~$24 美元仍无法单次返回完整数据——这是工具错配的典型教训。这种场景用 ~200 行确定性 Python + BeautifulSoup 即可，亚秒级运行，零推理成本。

Last updated: 2026-05-19
评审：Value 8 × Confidence 8 = 64 ✅ PASS | ★★★★