Netflix OCI-Agent: 人机协同因果推断 Agentic Workflow¶
Ch11.217 Netflix OCI-Agent: 人机协同因果推断 Agentic Workflow¶
📊 Level ⭐⭐ | 3.6KB |
entities/netflix-oci-agent-human-augmenting-causal-inference.md
Netflix OCI-Agent: 人机协同因果推断 Agentic Workflow¶
Netflix 开源的 oci-agent 是一个面向观察性因果推断(Observational Causal Inference, OCI)的人机协同 Agentic Workflow。核心设计哲学:Agent 负责执行和诊断,人类负责判断和决策——不是替代而是增强(human-augmenting)。
→ 原文存档 → LLM 主题 ≠ 真实变量 — 因果推断方法论
核心架构:三角色 + Actor-Critic Loop¶
| 角色 | 职责 |
|---|---|
| Principal(人类) | 提供分析计划、指定 confounders、指定工具和数据模型 |
| Actor(Agent) | 将计划细化为 spec、执行分析、执行四项设计诊断、报告 remediation |
| Critic(Agent) | 检查盲点、验证 plan↔spec↔execution 一致性、指定 credibility level、建议替代策略 |
Actor-Critic 循环:Actor 执行分析 → Critic 诊断缺陷 → Actor 修正 → 直到 Critic 满意。
四项设计诊断(Design Diagnostics)¶
基于 target trial emulation 哲学——"理想的 A/B 测试是什么?"
| 诊断 | 标准 |
|---|---|
| Covariate Balance | 加权后处理/控制组的标准化均值差 < 0.2 |
| Overlap | 倾向得分在 0.1–0.9 之间(排除极端值) |
| Placebo Outcome | 处理前变量的"处理效应"不显著异于零 |
| Sensitivity to Hidden Confounders | 对假设遗漏变量的敏感性分析 |
案例:新娱乐类型对留存的影响¶
- 基线(裸 Claude Sonnet 4.6):线性回归 + 控制变量 → 偏大的处理效应估计
- OCI-Agent(同模型):估计值仅为基线的 25%
- 原因:早期采用者偏差(early adopter bias)→ overlap 失败 + placebo 失败
- Critic Agent 自动识别了偏差来源并建议 remediation
关键设计原则¶
- 透明可审计:Agent 产出 plans、specs、plots、notebooks 供人类检查和重新执行
- 无 ground truth 场景下的评估:依赖 process audits + 人类监督,而非程序化 ground truth 比较
- 模板化 notebook:使用经过验证的非 Agentic OCI 工具包(doubly robust learning)
- 版本控制:Agent 版本化报告,上传执行后的 notebook 到文件存储
技术栈¶
- 基于 Netflix 内部 OCI 工具包(doubly robust learning for causal effect estimation)
- 开源:Netflix-Skunkworks/oci-agent
- 模型:Claude Sonnet 4.6
- 评估:2016 ACIC competition datasets
与现有实体的差异化¶
| 维度 | 本实体(Netflix OCI-Agent) | llm-themes-not-observations(William Gieng) |
|---|---|---|
| 主题 | Agent 执行因果推断的工作流设计 | LLM 生成变量在因果推断中的测量陷阱 |
| 角色 | Actor-Critic + 人类 Principal | 方法论警示 |
| 贡献 | 开源工具 + 诊断框架 + 案例 | 理论框架 + 偏差分类学 |
| 互补性 | "怎么用 Agent 做因果推断" | "用 Agent 做因果推断时要避免什么" |