So You Want to Sell Inference¶
Ch01.573 So You Want to Sell Inference¶
📊 Level ⭐⭐ | 6.2KB |
entities/tomtunguz-com-so-you-want-to-sell-inference.md
So You Want to Sell Inference¶
摘要¶
Tom Tunguz 深入分析 LLM 推理市场的商业经济学。核心论点:AI 增长最快的公司要么在卖推理,要么在转售推理。但推理转售是零毛利业务——本质上是支付通道而非软件公司。文章系统性地拆解了三种定价策略:cost-plus markup、value-based pricing、cost optimization,并指出 value-based pricing 是唯一可持续的模型。
核心要点¶
三种定价策略¶
1. Cost-plus Markup¶
在推理成本之上加价:
- 原理:客户价格 = 推理成本 × 1.3(30% 毛利)
- 前提:harness(产品、工作流、UX)必须足够好,才能证明溢价合理
- 致命缺陷:客户会将你的价格与 raw API 对比,然后绕过你
- 趋势:随着推理 commoditize,markup 向零压缩
这是最简单的模型,但也是最脆弱的。本质上是支付处理器 + 仪表板。
2. Value-based Pricing¶
按结果收费:
- 原理:按解决的 ticket 数、完成的任务数、生成的报告数收费——创造价值的一个比例
- 案例:Sierra 只在 agent 解决 ticket 时收费,失败不收费
- 案例:Devin 卖 Agent Compute Units(ACU),不是 token——与 Databricks、Snowflake 的 credit 模型相同
- 优势:毛利与推理成本完全解耦,客户看不到你的推理成本
- 持久性:这是真正的软件商业模式
3. Cost Optimization¶
降低推理成本以扩大毛利:
- Model routing:根据任务复杂度路由到不同模型(战术性,可复制)
- Caching:缓存重复查询的推理结果(战术性,可复制)
- Distillation:用 frontier 模型生成训练数据,蒸馏到 sub-8B 参数的专有小模型(可防御)
Distillation 是唯一可持续的优化策略:生产流量通过 frontier teacher 模型,蒸馏到学生模型,部署在便宜硬件上。最终你拥有竞争对手无法复制的专有模型。
Bring Your Own Key 的影响¶
当客户自带 API key 时:
- Cost-plus 崩溃:客户在云账单上看到原始推理成本,markup 变成可见的税
- Value-based 存活:客户直接付推理费,为你为结果付费
- Optimization 存活:客户带 key 不带引擎,你收平台费
结论:卖平台,不卖 token。
董事会应该问的问题¶
每个推理转售业务的董事会都应该问:你在运行哪种定价模型?
- Cost-plus = 带仪表板的支付处理器
- Value-based = 软件公司
答案决定了你在构建什么。
深度分析¶
推理市场的结构性变化¶
推理正在经历与其他基础设施服务相同的 commoditization 路径:
类比历史: - 计算:从自建机房 → IaaS(AWS)→ 价格战 → 价值在 PaaS/SaaS 层 - 存储:从本地磁盘 → S3 → 价格战 → 价值在数据平台层 - 推理:从自建 GPU → API 服务 → 价格战 → 价值在应用层
推理是 AI 时代的"第一导数"(first derivative of inference),但第一导数本身不创造持久价值。
Harness 的价值与陷阱¶
文章提到了一个关键概念:harness(产品、工作流、UX 包装在模型周围)。这与 Harness Engineering 的理念高度吻合。
但 harness 存在一个陷阱:
- 如果 harness 只是包装(wrapper),客户会绕过你直接调 API
- 如果 harness 是价值创造(解决具体问题),客户愿意按结果付费
区别在于:wrapper 增加成本,harness 创造价值。
对 AI Infra 投资的启示¶
Tom Tunguz 的分析对投资者有明确的指引:
- 纯推理转售:零毛利,不值得投资
- Cost-plus wrapper:随着推理 commoditize,毛利趋向零
- Value-based 平台:持久的软件商业模式,值得投资
- Distillation + 专有模型:可防御的竞争优势
Sierra 和 Devin 的定价模式¶
文章举的两个案例值得深入分析:
Sierra:按 resolved ticket 收费 - 客户为结果付费,不为 token 付费 - 失败的尝试 = Sierra 的成本,不是客户的成本 - 激励对齐:Sierra 有动力提高成功率
Devin:Agent Compute Units (ACU) - 抽象层在 compute 之上,类似 Databricks 的 DBU - 客户理解的是"完成工作量",不是"消耗多少 token" - 定价与底层推理成本解耦
实践启示¶
- 定价策略:如果你在卖推理,立即转向 value-based pricing
- Distillation:投资专有小模型的能力,这是可防御的竞争优势
- Harness 设计:确保你的 harness 创造价值而非仅增加成本
- BYOK 策略:支持客户自带 key,但确保你的价值不依赖于 markup
- 指标选择:用业务指标(resolved tickets、completed tasks)而非技术指标(tokens)定价
相关实体¶
- Harness Engineering — harness 的价值与陷阱
- AgentCore — 平台层产品的定位参考
- Inference Economics — 推理经济学的更广泛讨论
- Sierra — value-based pricing 的案例
- Devin — ACU 定价模型的案例
- Model Distillation — cost optimization 的核心策略
→ 原文存档