Apple Silicon costs more than OpenRouter¶
Ch01.081 Apple Silicon costs more than OpenRouter¶
📊 Level ⭐ | 5.9KB |
entities/offline-llm-energy-use-html.md
Apple Silicon costs more than OpenRouter¶
→ 原文存档
摘要¶
本文通过详细的成本核算,揭示了一个反直觉的事实:在 Apple Silicon(M5 MacBook Pro)上运行本地 LLM 推理的单位 token 成本,实际上是通过 OpenRouter 调用云端同等模型的约 3 倍。硬件折旧而非电力成本是主导因素,推理速度的差距进一步放大了这一劣势。
核心要点¶
1. 电力成本:几乎可以忽略¶
Northern Virginia 住宅电价约 $0.18/kWh(EIA 2025 年美国平均为 $0.1730/kWh)。M5 MacBook Pro 满载推理功耗 50-100W,每小时电费仅 $0.009-$0.018,即每天 24 小时满载推理的电费约 $0.48。电力成本在总拥有成本中占比极小。
2. 硬件折旧:真正的成本大头¶
14 寸 M5 Max MacBook Pro(64GB RAM)售价 $4,299。按不同使用寿命摊销:
| 使用寿命 | 年成本 | 每小时成本 |
|---|---|---|
| 3 年 | $1,433 | $0.164 |
| 5 年 | $860 | $0.098 |
| 10 年 | $430 | $0.049 |
对于持续满载推理场景,3 年使用寿命可能是合理估计;正常使用则 5-7 年更合理。
3. Token 经济学:速度决定一切¶
M5 Max 本地运行 Gemma 4 31B 的推理速度约 10-40 tokens/秒。不同场景下的每百万 token 成本:
| 条件 | 每百万 token 成本 |
|---|---|
| 悲观(100W, 10 tok/s, 3 年) | $4.79 |
| 中等(75W, 20 tok/s, 5 年) | ~$1.50 |
| 乐观(50W, 40 tok/s, 10 年) | $0.40 |
OpenRouter 上 Gemma 4 31B 的价格约 $0.38-$0.50/百万 token。只有在极端乐观假设下,Apple Silicon 才能与云端持平。
4. 速度差距的隐性成本¶
OpenRouter 上的 Gemma 4 31B 可达 60-70 tokens/秒,而 M5 Max 本地仅 10-20 tokens/秒,差距 3-7 倍。对于时薪数百美元的工程师来说,等待本地推理的时间成本远超 token 费用差异。
深度分析¶
成本结构解构¶
本地推理成本由三个要素构成:电力 + 硬件折旧 + 机会成本。电力成本($0.02/小时)在总成本中占比不到 20%,硬件折旧($0.05-$0.16/小时)是绝对主导。这与直觉相反——许多人认为"本地推理电费便宜所以更划算",但忽略了 $4,299 的设备投入。
Memory-bound 的本质¶
推理速度慢的根本原因在于 Apple Silicon 的内存带宽瓶颈。LLM 推理是典型的 memory-bound 操作——模型权重需要从统一内存加载到计算单元,M5 Max 的内存带宽(约 200-400 GB/s)远低于数据中心 GPU(如 H100 的 3.35 TB/s)。这意味着即使计算单元有余力,推理速度仍受制于数据搬运速度。
本地推理的真正价值主张¶
尽管成本劣势明显,本地推理仍有不可替代的场景: - 隐私敏感:数据不离开设备,适用于医疗、法律、金融等合规要求严格的场景 - 离线可用:无网络依赖,适用于飞机、偏远地区等网络受限环境 - 开发调试:本地推理便于调试模型行为,无需承担 API 调用成本 - 教育研究:理解 LLM 工作原理的最佳方式是本地运行和观察
消费级设备的能力跃迁¶
值得惊叹的是,$4,299 的消费级设备已经能运行接近 Anthropic Sonnet 水平的模型(如 Gemma 4 31B)。这在两年前是不可想象的——本地推理的可行性已从"不可能"变为"可实现但贵"。随着硬件迭代(M6、M7)和模型效率提升(量化、稀疏化),这一差距将持续缩小。
经济学类比:自有服务器 vs. 云计算¶
这与传统 IT 领域的"自建 vs. 上云"决策高度类似。当使用率极高(接近 100% 占用)时,自建可能更经济;但大多数场景下,云端的弹性、速度和免运维优势使其更具性价比。对于 LLM 推理,由于推理速度差异(3-7x)和硬件成本差异($4,299 vs. 按需付费),云端方案在多数生产场景中仍是更优选择。
实践启示¶
- 场景匹配:隐私敏感但成本不敏感时使用 Apple Silicon 本地推理完全合理;成本敏感的 coding assistant 场景应优先选择 OpenRouter 等云端方案。
- 全成本核算:评估本地推理方案时,必须将硬件折旧纳入计算,而非仅看电费。使用 5 年摊销的每小时成本($0.098 + $0.02 ≈ $0.12)更接近真实成本。
- 速度优先:在交互式场景中,推理速度直接影响用户体验和工程师效率。3-7 倍的速度差距意味着每小时可多处理 3-7 倍的任务量。
- 混合策略:开发阶段可利用本地推理进行调试和实验(无需 API key、无网络延迟),生产阶段切换到云端方案获取速度和成本优势。
- 关注硬件迭代:Apple Silicon 的内存带宽每代提升约 30-50%,配合模型量化技术的进步,本地推理的性价比将持续改善。
相关实体¶
- Inference cost at scale with napkin math
- From Doer To Director The Ai Mindset Shift
- Running An Ai Native Engineering Org