跳转至

Apple Silicon costs more than OpenRouter

Ch01.081 Apple Silicon costs more than OpenRouter

📊 Level ⭐ | 5.9KB | entities/offline-llm-energy-use-html.md

Apple Silicon costs more than OpenRouter

原文存档

摘要

本文通过详细的成本核算,揭示了一个反直觉的事实:在 Apple Silicon(M5 MacBook Pro)上运行本地 LLM 推理的单位 token 成本,实际上是通过 OpenRouter 调用云端同等模型的约 3 倍。硬件折旧而非电力成本是主导因素,推理速度的差距进一步放大了这一劣势。

核心要点

1. 电力成本:几乎可以忽略

Northern Virginia 住宅电价约 $0.18/kWh(EIA 2025 年美国平均为 $0.1730/kWh)。M5 MacBook Pro 满载推理功耗 50-100W,每小时电费仅 $0.009-$0.018,即每天 24 小时满载推理的电费约 $0.48。电力成本在总拥有成本中占比极小。

2. 硬件折旧:真正的成本大头

14 寸 M5 Max MacBook Pro(64GB RAM)售价 $4,299。按不同使用寿命摊销:

使用寿命 年成本 每小时成本
3 年 $1,433 $0.164
5 年 $860 $0.098
10 年 $430 $0.049

对于持续满载推理场景,3 年使用寿命可能是合理估计;正常使用则 5-7 年更合理。

3. Token 经济学:速度决定一切

M5 Max 本地运行 Gemma 4 31B 的推理速度约 10-40 tokens/秒。不同场景下的每百万 token 成本:

条件 每百万 token 成本
悲观(100W, 10 tok/s, 3 年) $4.79
中等(75W, 20 tok/s, 5 年) ~$1.50
乐观(50W, 40 tok/s, 10 年) $0.40

OpenRouter 上 Gemma 4 31B 的价格约 $0.38-$0.50/百万 token。只有在极端乐观假设下,Apple Silicon 才能与云端持平。

4. 速度差距的隐性成本

OpenRouter 上的 Gemma 4 31B 可达 60-70 tokens/秒,而 M5 Max 本地仅 10-20 tokens/秒,差距 3-7 倍。对于时薪数百美元的工程师来说,等待本地推理的时间成本远超 token 费用差异。

深度分析

成本结构解构

本地推理成本由三个要素构成:电力 + 硬件折旧 + 机会成本。电力成本($0.02/小时)在总成本中占比不到 20%,硬件折旧($0.05-$0.16/小时)是绝对主导。这与直觉相反——许多人认为"本地推理电费便宜所以更划算",但忽略了 $4,299 的设备投入。

Memory-bound 的本质

推理速度慢的根本原因在于 Apple Silicon 的内存带宽瓶颈。LLM 推理是典型的 memory-bound 操作——模型权重需要从统一内存加载到计算单元,M5 Max 的内存带宽(约 200-400 GB/s)远低于数据中心 GPU(如 H100 的 3.35 TB/s)。这意味着即使计算单元有余力,推理速度仍受制于数据搬运速度。

本地推理的真正价值主张

尽管成本劣势明显,本地推理仍有不可替代的场景: - 隐私敏感:数据不离开设备,适用于医疗、法律、金融等合规要求严格的场景 - 离线可用:无网络依赖,适用于飞机、偏远地区等网络受限环境 - 开发调试:本地推理便于调试模型行为,无需承担 API 调用成本 - 教育研究:理解 LLM 工作原理的最佳方式是本地运行和观察

消费级设备的能力跃迁

值得惊叹的是,$4,299 的消费级设备已经能运行接近 Anthropic Sonnet 水平的模型(如 Gemma 4 31B)。这在两年前是不可想象的——本地推理的可行性已从"不可能"变为"可实现但贵"。随着硬件迭代(M6、M7)和模型效率提升(量化、稀疏化),这一差距将持续缩小。

经济学类比:自有服务器 vs. 云计算

这与传统 IT 领域的"自建 vs. 上云"决策高度类似。当使用率极高(接近 100% 占用)时,自建可能更经济;但大多数场景下,云端的弹性、速度和免运维优势使其更具性价比。对于 LLM 推理,由于推理速度差异(3-7x)和硬件成本差异($4,299 vs. 按需付费),云端方案在多数生产场景中仍是更优选择。

实践启示

  1. 场景匹配:隐私敏感但成本不敏感时使用 Apple Silicon 本地推理完全合理;成本敏感的 coding assistant 场景应优先选择 OpenRouter 等云端方案。
  2. 全成本核算:评估本地推理方案时,必须将硬件折旧纳入计算,而非仅看电费。使用 5 年摊销的每小时成本($0.098 + $0.02 ≈ $0.12)更接近真实成本。
  3. 速度优先:在交互式场景中,推理速度直接影响用户体验和工程师效率。3-7 倍的速度差距意味着每小时可多处理 3-7 倍的任务量。
  4. 混合策略:开发阶段可利用本地推理进行调试和实验(无需 API key、无网络延迟),生产阶段切换到云端方案获取速度和成本优势。
  5. 关注硬件迭代:Apple Silicon 的内存带宽每代提升约 30-50%,配合模型量化技术的进步,本地推理的性价比将持续改善。

相关实体