World Knowledge：Agent推理前先探索环境生成可迁移知识¶

Ch04.259 World Knowledge：Agent推理前先探索环境生成可迁移知识¶

📊 Level ⭐⭐ | 9.3KB | entities/world-knowledge-agent-self-evolution-tencent-hkustgz.md

World Knowledge：Agent推理前先探索环境生成可迁移知识¶

论文：Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration（Tencent + HKUST(GZ)，arXiv:2604.18131v1）

核心问题¶

当前 Agent 范式的问题：依赖人类预先设计的任务、奖励和工作流。一旦脚手架去掉，Agent 无法自我成长。

本文提出 Native Agency：让 Agent 进入陌生环境时，不等任务、不等奖励，先主动建立可复用的环境理解。

World Knowledge¶

针对具体环境的结构化环境认知，以 Markdown 文档存储。可被现有 Agent 直接加载到上下文，无需修改推理框架。

关键特性：显式、可迁移、可版本化、可校验。

两阶段框架¶

阶段一：Native Evolution Phase（推理时/训练时均执行）¶

无任务、无奖励执行： 1. Planning → 规划探索路线 2. Exploring → 进入环境交互观察 3. Summarizing → 整理观察摘要 4. Refining → 压缩提炼成 World Knowledge K

阶段二：Knowledge-Enhanced Execution Phase¶

下游任务到来时，将 K 带入上下文完成任务。

行为模式转变： - 无 K：看见网页 → 现找答案（7步仍可能答错） - 有 K：先有环境地图 → 带地图找答案（2步答对）

训练：SFT + RFT 两阶段¶

SFT¶

Teacher model（Gemini-2.5-Pro）生成高质量探索轨迹： - 每环境 3 份候选 K，用 outcome-based reward 选最优 - Expert trajectory：平均 374.8 步，每步 3322.4 tokens

RFT（两轮）¶

当前模型自探索，生成多份候选 K，用下游任务收益排序筛选。

Outcome-Based Reward¶

R(K) = Success(T_E | K) - Success(T_E | ∅)

评价的是"知识最终有没有用"，而非探索过程每步打分。

核心数据¶

模型	数据	WebWalker	WebVoyager
Qwen3-30B-A3B	base	22.04	41.08
Qwen3-30B-A3B	+K(Ours RFT)	40.91	57.44
Seed-OSS-36B	base	16.26	39.93
Seed-OSS-36B	+K(Ours RFT)	37.50	56.79

约 20% 绝对提升。未训练 base model 加 K 反而会拖累任务。

跨模型迁移：Qwen3-14B+K 超过未辅助 Gemini-2.5-Flash（Conference 35.6% vs 31.3%）。

关键工程结论¶

知识最优长度约 8k-16k tokens，过长进入收益递减（Game 域 16k-32k 为 41.56，32k-64k 反降至 40.72）
执行步数平均减少约 17%
SFT + 第一轮 RFT 收益最显著，第二轮 RFT 边际化
高质量 K 可超越用于引导它的 teacher prompt

局限性¶

训练阶段仍需下游任务监督，未完全 reward-free
验证主要在网页环境，多模态 GUI/具身/代码仓库未充分验证
探索成本高（平均 374.8 步）
World Knowledge 静态 Markdown，缺校验与动态更新机制
跨环境泛化（vs 跨模型迁移）待验证

启发¶

Agent 瓶颈未必在推理能力，而在对当前环境的结构理解
外部化知识可能是参数扩张之外的另一条 scaling 路径
"训练时有奖励，推理时无奖励"范式可迁移到其他环境

深度分析¶

World Knowledge 本质是环境先验的外部化存储 不同于参数化的隐式环境建模，World Knowledge 以 Markdown 形式显式存储页面结构、跳转关系、核心逻辑，使得知识可在 Agent 间共享复用，且无需修改底层推理框架即可接入。
训练后知识才有效——base model 加 K 反而帮倒忙 论文实验明确显示：未训练的 base model 加载 world knowledge 反而拖累任务表现（22.04→19.84），说明环境知识必须与模型推理能力对齐才能发挥作用，非适配知识是噪音而非信号。
8k-16k tokens 是知识长度的甜点区间 Game 域数据表明：0→8k-16k 持续提升（39.71），16k-32k 边际收益（41.56），32k-64k 开始下降（40.72）。关键约束是压缩质量而非积累数量，过长的知识引人注意力分散和检索噪声。
跨模型迁移验证了知识的可迁移性而非模型的适配性 Qwen3-14B+K 超过未辅助的 Gemini-2.5-Flash（35.6% vs 31.3%），证明 World Knowledge 的价值不依赖特定模型，而是真正捕获了环境结构本身，可作为独立于模型的共享知识资产。
两步范式（探索→执行）将推理与知识生成解耦 Native Evolution Phase 和 Knowledge-Enhanced Execution Phase 分离设计，使得知识可离线积累、版本化管理、跨任务复用——这是从"每任务即时推理"向"知识积累驱动"范式转变的核心标志。

实践启示¶

在 Web Agent 流水线中嵌人环境探索阶段：参考 Native Evolution Phase 的 Plan-Explore-Summarize-Refine 循环，让 Agent 在处理下游任务前先用少量步数扫描页面结构，生成环境摘要后再执行具体任务，可显著减少执行步数和错误率。
用 Outcome-Based Reward 而非过程奖励评估知识质量：R(K) = Success(T_E|K) - Success(T_E|∅) 的设计避免了让 teacher 对探索每步打分，直接衡量"知识最终有没有用"。实践者可将此公式迁移到任何知识压缩场景，只关心下游任务收益。
建立知识长度-质量帕累托曲线：通过实验找到当前任务域的 8k-16k 最优区间，建立知识压缩预算的工程基线。过长知识引人收益递减，过短则丢失关键环境结构，平衡点是持续迭代的工程参数。
设计 SFT + RFT 两阶段训练流程：先用强 teacher 生成 expert trajectory 建立基础能力，再用模型自探索扩展知识多样性，两轮 RFT 中第一轮收益最显著，第二轮边际化——可据此控制训练成本。
将 World Knowledge 视为可版本化的共享资产：静态 Markdown 格式天然支持 Git 版本化管理，后续可引人动态更新机制（定期 re-explore + diff 合并），使环境知识随网站结构演变保持新鲜度，而非一次性生成后僵化。

World Knowledge：Agent推理前先探索环境生成可迁移知识¶

Ch04.259 World Knowledge：Agent推理前先探索环境生成可迁移知识¶

World Knowledge：Agent推理前先探索环境生成可迁移知识¶

核心问题¶

World Knowledge¶

两阶段框架¶

阶段一：Native Evolution Phase（推理时/训练时均执行）¶

阶段二：Knowledge-Enhanced Execution Phase¶

训练：SFT + RFT 两阶段¶

SFT¶

RFT（两轮）¶

Outcome-Based Reward¶

核心数据¶

关键工程结论¶

局限性¶

启发¶

深度分析¶

实践启示¶

相关实体¶