Apple Silicon costs more than OpenRouter¶

Ch01.081 Apple Silicon costs more than OpenRouter¶

📊 Level ⭐ | 5.9KB | entities/offline-llm-energy-use-html.md

Apple Silicon costs more than OpenRouter¶

摘要¶

本文通过详细的成本核算，揭示了一个反直觉的事实：在 Apple Silicon（M5 MacBook Pro）上运行本地 LLM 推理的单位 token 成本，实际上是通过 OpenRouter 调用云端同等模型的约 3 倍。硬件折旧而非电力成本是主导因素，推理速度的差距进一步放大了这一劣势。

核心要点¶

1. 电力成本：几乎可以忽略¶

Northern Virginia 住宅电价约 $0.18/kWh（EIA 2025 年美国平均为 $0.1730/kWh）。M5 MacBook Pro 满载推理功耗 50-100W，每小时电费仅 $0.009-$0.018，即每天 24 小时满载推理的电费约 $0.48。电力成本在总拥有成本中占比极小。

2. 硬件折旧：真正的成本大头¶

14 寸 M5 Max MacBook Pro（64GB RAM）售价 $4,299。按不同使用寿命摊销：

使用寿命	年成本	每小时成本
3 年	$1,433	$0.164
5 年	$860	$0.098
10 年	$430	$0.049

对于持续满载推理场景，3 年使用寿命可能是合理估计；正常使用则 5-7 年更合理。

3. Token 经济学：速度决定一切¶

M5 Max 本地运行 Gemma 4 31B 的推理速度约 10-40 tokens/秒。不同场景下的每百万 token 成本：

条件	每百万 token 成本
悲观（100W, 10 tok/s, 3 年）	$4.79
中等（75W, 20 tok/s, 5 年）	~$1.50
乐观（50W, 40 tok/s, 10 年）	$0.40

OpenRouter 上 Gemma 4 31B 的价格约 $0.38-$0.50/百万 token。只有在极端乐观假设下，Apple Silicon 才能与云端持平。

4. 速度差距的隐性成本¶

OpenRouter 上的 Gemma 4 31B 可达 60-70 tokens/秒，而 M5 Max 本地仅 10-20 tokens/秒，差距 3-7 倍。对于时薪数百美元的工程师来说，等待本地推理的时间成本远超 token 费用差异。

深度分析¶

成本结构解构¶

本地推理成本由三个要素构成：电力 + 硬件折旧 + 机会成本。电力成本（$0.02/小时）在总成本中占比不到 20%，硬件折旧（$0.05-$0.16/小时）是绝对主导。这与直觉相反——许多人认为"本地推理电费便宜所以更划算"，但忽略了 $4,299 的设备投入。

Memory-bound 的本质¶

推理速度慢的根本原因在于 Apple Silicon 的内存带宽瓶颈。LLM 推理是典型的 memory-bound 操作——模型权重需要从统一内存加载到计算单元，M5 Max 的内存带宽（约 200-400 GB/s）远低于数据中心 GPU（如 H100 的 3.35 TB/s）。这意味着即使计算单元有余力，推理速度仍受制于数据搬运速度。

本地推理的真正价值主张¶

尽管成本劣势明显，本地推理仍有不可替代的场景： - 隐私敏感：数据不离开设备，适用于医疗、法律、金融等合规要求严格的场景 - 离线可用：无网络依赖，适用于飞机、偏远地区等网络受限环境 - 开发调试：本地推理便于调试模型行为，无需承担 API 调用成本 - 教育研究：理解 LLM 工作原理的最佳方式是本地运行和观察

消费级设备的能力跃迁¶

值得惊叹的是，$4,299 的消费级设备已经能运行接近 Anthropic Sonnet 水平的模型（如 Gemma 4 31B）。这在两年前是不可想象的——本地推理的可行性已从"不可能"变为"可实现但贵"。随着硬件迭代（M6、M7）和模型效率提升（量化、稀疏化），这一差距将持续缩小。

经济学类比：自有服务器 vs. 云计算¶

这与传统 IT 领域的"自建 vs. 上云"决策高度类似。当使用率极高（接近 100% 占用）时，自建可能更经济；但大多数场景下，云端的弹性、速度和免运维优势使其更具性价比。对于 LLM 推理，由于推理速度差异（3-7x）和硬件成本差异（$4,299 vs. 按需付费），云端方案在多数生产场景中仍是更优选择。

实践启示¶

场景匹配：隐私敏感但成本不敏感时使用 Apple Silicon 本地推理完全合理；成本敏感的 coding assistant 场景应优先选择 OpenRouter 等云端方案。
全成本核算：评估本地推理方案时，必须将硬件折旧纳入计算，而非仅看电费。使用 5 年摊销的每小时成本（$0.098 + $0.02 ≈ $0.12）更接近真实成本。
速度优先：在交互式场景中，推理速度直接影响用户体验和工程师效率。3-7 倍的速度差距意味着每小时可多处理 3-7 倍的任务量。
混合策略：开发阶段可利用本地推理进行调试和实验（无需 API key、无网络延迟），生产阶段切换到云端方案获取速度和成本优势。
关注硬件迭代：Apple Silicon 的内存带宽每代提升约 30-50%，配合模型量化技术的进步，本地推理的性价比将持续改善。

Apple Silicon costs more than OpenRouter¶

Ch01.081 Apple Silicon costs more than OpenRouter¶

Apple Silicon costs more than OpenRouter¶

摘要¶

核心要点¶

1. 电力成本：几乎可以忽略¶

2. 硬件折旧：真正的成本大头¶

3. Token 经济学：速度决定一切¶

4. 速度差距的隐性成本¶

深度分析¶

成本结构解构¶

Memory-bound 的本质¶

本地推理的真正价值主张¶

消费级设备的能力跃迁¶

经济学类比：自有服务器 vs. 云计算¶

实践启示¶

相关实体¶