MosaicLeaks: Can your research agent keep a secret?¶
Ch04.488 MosaicLeaks: Can your research agent keep a secret?¶
📊 Level ⭐⭐ | 3.4KB |
entities/mosaicleaks-privacy-risks-deep-research-agents-servicenow.md
MosaicLeaks: Can your research agent keep a secret?¶
核心问题¶
深度研究 Agent(Deep Research Agents)在执行多步查询时,会将用户的私密信息暴露在查询链路中。MosaicLeaks 研究首次系统量化了这一隐私风险。
研究发现:当 Agent 需要查询外部知识源(如搜索引擎、数据库)来完成研究任务时,用户的敏感数据(PII、商业机密等)会随着查询请求被发送到第三方服务,造成隐私泄露。
MosaicLeaks Benchmark¶
ServiceNow 团队构建了 MosaicLeaks benchmark,专门评估研究 Agent 在以下场景下的隐私泄露程度:
- PII 泄露:Agent 在查询中暴露用户个人身份信息
- 商业机密泄露:Agent 将内部文档内容发送给外部服务
- 上下文泄露:Agent 在多轮对话中累积暴露敏感上下文
实验覆盖了多个主流研究 Agent 架构,发现隐私泄露是系统性问题而非偶发。
PAPO:隐私感知策略优化¶
研究提出 PAPO (Privacy-Agentic Policy Optimization) 方法,通过强化学习训练 Agent 学会保护隐私:
- 隐私奖励信号:将隐私保护作为 RL 奖励函数的一部分
- 信用分配:在多步查询链路中,精确标记哪一步泄露了隐私
- 下采样训练:对高隐私风险的查询路径进行重点训练
PAPO 在保持 Agent 研究能力的同时,显著降低了隐私泄露率。
与现有 Agent 安全实体的关联¶
MosaicLeaks 补充了 wiki 中关于 Agent 安全的多个视角:
- 与 Nvidia Secure Local Agent Nemoclaw Openclaw 的本地安全 Agent 方案互补:NVIDIA 方案从架构层隔离,MosaicLeaks 从训练层优化
- 隐私保护是 Harness Engineering 中安全层的重要维度
- 研究 Agent 的隐私问题与 Interconnects What Comes Next With Open Models 讨论的开源模型安全话题相关
独特价值¶
- 首个系统性 benchmark:MosaicLeaks 是首个专门针对研究 Agent 隐私泄露的评测基准
- PAPO 训练方法:将隐私保护嵌入 RL 训练循环,而非事后过滤
- 实用性强:提供了可量化的隐私风险评估框架,适用于任何多步查询 Agent
元信息¶
- arXiv: 2605.30727
- 作者: Alexander Gurung, Spandana Gella, Alexandre Drouin, Issam H. Laradji, Perouz Taslakian, Rafael Pardinas
- 来源: ServiceNow Research + HuggingFace Blog