Netflix 分层通知系统：Thinking Fast & Slow 的 Slow-Fast RL 架构¶

Ch11.239 Netflix 分层通知系统：Thinking Fast & Slow 的 Slow-Fast RL 架构¶

📊 Level ⭐⭐⭐ | 2.3KB | entities/netflix-notification-slow-fast-hierarchical-rl.md

Netflix 分层通知系统：Thinking Fast & Slow 的 Slow-Fast RL 架构¶

Netflix 将 Kahneman 的"快慢思维"理论应用于通知系统设计，构建了 Slow Policy + Fast Policy 的分层 RL 架构。Slow 层做周级频率规划，Fast 层做实时消息选择，解决了短期 engagement 与长期用户健康的矛盾。

→ 原文存档

核心问题¶

问题	旧系统	新系统
奖励视野	短期（单消息即时行为）	长期（周级用户留存）
频率控制	隐式（阈值校准）	显式（Slow Policy 个性化规划）
排序与节奏	耦合（同一决策规则）	解耦（分层决策）

Slow-Fast 分层架构¶

Slow Policy（System 2）¶

输入：成员长期参与模式
输出：周级 Pacing Plan Action（Push 频率 × Email 频率 ≈ O(100) 种组合）
目标函数：U(member, action) = Σ wₖ·Reward_k - Cost(action)
正信号：用户参与平台的可能性
负信号：疲劳/退订倾向
Universal Message Cost：防止退化为"always send"策略的额外成本项

Fast Policy（System 1）¶

输入：Slow Policy 的 pacing 约束 + 当前发送机会
输出：选择最优消息
目标：在 pacing 约束内最大化即时相关性

Pacing 策略¶

Uniform Random：将频率目标转为每次机会的发送概率，加权抛硬币
非均匀扩展：星期几模式、用户活跃度条件、发布对齐突发

关键设计洞察¶

频率与质量解耦：旧系统中调整频率阈值会改变消息质量分布，新系统完全解耦
稀疏负反馈处理：显式负反馈极稀疏，需要 universal cost 项保持奖励函数凹性
周级视野：关键指标（观看习惯、退订风险）只在长时间尺度显现