Netflix OCI-Agent: 人机协同因果推断 Agentic Workflow¶

Ch11.217 Netflix OCI-Agent: 人机协同因果推断 Agentic Workflow¶

📊 Level ⭐⭐ | 3.6KB | entities/netflix-oci-agent-human-augmenting-causal-inference.md

Netflix OCI-Agent: 人机协同因果推断 Agentic Workflow¶

Netflix 开源的 oci-agent 是一个面向观察性因果推断（Observational Causal Inference, OCI）的人机协同 Agentic Workflow。核心设计哲学：Agent 负责执行和诊断，人类负责判断和决策——不是替代而是增强（human-augmenting）。

→ 原文存档 → LLM 主题 ≠ 真实变量 — 因果推断方法论

核心架构：三角色 + Actor-Critic Loop¶

角色	职责
Principal（人类）	提供分析计划、指定 confounders、指定工具和数据模型
Actor（Agent）	将计划细化为 spec、执行分析、执行四项设计诊断、报告 remediation
Critic（Agent）	检查盲点、验证 plan↔spec↔execution 一致性、指定 credibility level、建议替代策略

Actor-Critic 循环：Actor 执行分析 → Critic 诊断缺陷 → Actor 修正 → 直到 Critic 满意。

四项设计诊断（Design Diagnostics）¶

基于 target trial emulation 哲学——"理想的 A/B 测试是什么？"

诊断	标准
Covariate Balance	加权后处理/控制组的标准化均值差 < 0.2
Overlap	倾向得分在 0.1–0.9 之间（排除极端值）
Placebo Outcome	处理前变量的"处理效应"不显著异于零
Sensitivity to Hidden Confounders	对假设遗漏变量的敏感性分析

案例：新娱乐类型对留存的影响¶

基线（裸 Claude Sonnet 4.6）：线性回归 + 控制变量 → 偏大的处理效应估计
OCI-Agent（同模型）：估计值仅为基线的 25%
原因：早期采用者偏差（early adopter bias）→ overlap 失败 + placebo 失败
Critic Agent 自动识别了偏差来源并建议 remediation

关键设计原则¶

透明可审计：Agent 产出 plans、specs、plots、notebooks 供人类检查和重新执行
无 ground truth 场景下的评估：依赖 process audits + 人类监督，而非程序化 ground truth 比较
模板化 notebook：使用经过验证的非 Agentic OCI 工具包（doubly robust learning）
版本控制：Agent 版本化报告，上传执行后的 notebook 到文件存储

技术栈¶

基于 Netflix 内部 OCI 工具包（doubly robust learning for causal effect estimation）
开源：Netflix-Skunkworks/oci-agent
模型：Claude Sonnet 4.6
评估：2016 ACIC competition datasets

与现有实体的差异化¶

维度	本实体（Netflix OCI-Agent）	llm-themes-not-observations（William Gieng）
主题	Agent 执行因果推断的工作流设计	LLM 生成变量在因果推断中的测量陷阱
角色	Actor-Critic + 人类 Principal	方法论警示
贡献	开源工具 + 诊断框架 + 案例	理论框架 + 偏差分类学
互补性	"怎么用 Agent 做因果推断"	"用 Agent 做因果推断时要避免什么"