AI Coding Agent Token 成本控制五层模型¶

Ch09.119 AI Coding Agent Token 成本控制五层模型¶

📊 Level ⭐⭐⭐ | 4.9KB | entities/token-cost-control-coding-agent-devinyzeng-tencent.md

原文归档：原文归档

AI Coding Agent Token 成本优化的完整五层模型：使用习惯→模型路由→Context 工程→代码图谱→Agent 架构。devinyzeng/腾讯技术工程。

成本 = 重复上下文搬运，优化 = 减少重复 + 合理路由 + 精准检索 + 清晰分工。核心不是少问一句话，是让系统少重复做无效工作。

层级	解决什么	方法
使用习惯	无意义历史和废 Token	一 session 一事 / 及时 compact / 外置长期信息 / CLI 优先
模型路由	贵模型干便宜活	任务分档 / 升级链路 / 预算旋钮 / Skill 绑模型
Context 工程	同样前缀重复发送	RTK/Caveman/headroom/context-mode
代码图谱	每次从零找代码	Graphify/CodeGraph
Agent 架构	所有任务塞同一大上下文	subagent 隔离 / Orchestrator-Worker

典型请求分布：

System Prompt 5K + 项目说明 10K + Skill 定义 20K + Tool/MCP 定义 30K + 历史会话 100K + 代码文件 50K + 用户问题 0.1K
贵的是系统塞进去的东西，不是你写的那句话

五种成本：输入 Token / 输出 Token / 推理 Token / 工具往返 / 重试（后两项最易被低估）

Graphify：Tree-sitter 知识图谱，-71.5× Token 消耗，22k stars
CodeGraph：7 仓库 benchmark：-16pp 成本 / -47pp Token / -58pp Tool Call（vs 无 CodeGraph 基线）

单 Agent 全程：215K tokens × N 轮 → Orchestrator 10K + Worker 14K + Worker 10K = 每轮压缩 5-10 倍

端到端示例：Go API 重构，单 Agent 800K-1.2M → Orchestrator-Worker 100K-150K（-70~85%）

上下文越多越好 ✗ / MCP 越多越强 ✗ / 所有 Agent 上最强模型 ✗ / 聊天记录当长期记忆 ✗ / 只看单价不看总成本 ✗ / Prompt 越短越好 ✗

更低成本 = 更少重复上下文 + 更合理模型路由 + 更精准代码检索 + 更清晰 Agent 分工