跳转至

Thought-Aligner:智能体行为安全新范式——可插拔思维校正层(ICML 2026)

Ch09.026 Thought-Aligner:智能体行为安全新范式——可插拔思维校正层(ICML 2026)

📊 Level ⭐⭐ | 15.6KB | entities/thought-aligner-shanghai-fudan-icml-2026.md

Thought-Aligner:智能体行为安全新范式——可插拔思维校正层

Overview

Thought-Aligner 是上海创智学院 × 复旦大学联合提出的智能体行为安全新方法,已被 ICML 2026 接收。arxiv:2505.11063,github.com/WhitzardAgent/Thought-Aligner。核心定位:轻量级智能体「思维校正」新思路,在智能体执行工具前修正其推理偏差,从源头防范行为风险

范式转变:从「内容是否安全」转向「行为是否可靠」。从「阻断式规则拦截」走向「修复式思维校正」。

范式转变:从内容安全到行为安全

维度 传统大模型 智能体
风险所在 输出内容 决策到执行的行为链条
攻击面 生成有害文本 错误推理导致危险动作
防御位置 输出端拦截 推理阶段校正

2026 年 5 月 8 日,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,明确将「安全、可靠、可信」作为智能体发展底线,强调强化任务理解、权限管控、异常干预等行为级安全能力。

核心洞察:「先想偏了,才做错了」

Agent 以「Thought-Action-Observation」循环完成任务。危险行为往往从看似合理、但已经偏离安全边界的 Thought 开始。

例子: - 用户要求删除某个测试任务 → Agent 误把名称相近的重要任务也纳入删除范围 - 为了更快完成目标 → 在内部推理中默认跳过确认、备份、权限校验

这类风险的本质并不是「最后一步动作突然变坏」,而是 Agent 在更早的推理阶段已经「想偏了」

端点拦截的两个问题

  • 发现得太晚——可能已经接近真实执行
  • 拦得太粗——容易把复杂任务一刀切终止,牺牲智能体的可用性

真正理想的智能体安全防御,不应只是让 Agent「别做事」,而应让它在做事之前,先把「思路想对」

方法:可插拔思维校正层

部署位置

Thought 生成之后、工具调用之前。保证每一步都不越界,从而让长链任务在整体上更安全。

关键设计决策

  1. 多轮持续影响:即使某一轮修正没有立刻改变当时的动作,修正后的 Thought 仍会进入上下文历史,对后续多轮交互形成持续影响——"不仅救当前一步,也在矫正后续整条轨迹"
  2. 防御恶意 + 良性指令非预期行为:不仅能防御各种方式的恶意攻击,针对"良性指令"可能导致的非预期行为风险也具有有效的防御效果

Thought-Aligner 防的不是「最后一步的动作」,而是「动作背后的危险念头」。

这使它不只是一个风险检测器,而更像是嵌入智能体推理链路中的「安全校正层」

三个特点

1. 轻量级、可插拔

不需要改动原始智能体模型。作为可插拔组件,部署在 Agent 每一轮交互中的 Thought 生成之后、Action 执行之前,无需对原始 Agent 模型进行重新训练

无论底层 Agent 使用的是闭源商业模型还是开源大模型,只要其推理链路中包含可访问的中间 Thought,就可以接入。

2. 维持有用性(不"拦住一切")

设计目标并不是把智能体变成一个「处处不敢动」的系统,而是在不破坏任务连续性的前提下,把高风险 Thought 修正为更审慎、更合规的执行思路。

保留原任务目标,只修正其中越过安全边界的推理部分——在安全性和有用性之间取得更好的平衡。

3. 低延迟和可部署性

规模 部署能力
1.5B 标准 PC 上单次 Thought 修正延迟 < 100 ms
7B 更强推理能力(用于复杂安全决策)

可嵌入智能体的在线执行链路,在毫秒级窗口内完成安全干预,而不显著拖慢任务执行过程。

数据与训练

为什么需要深度训练

智能体安全不是简单的关键词过滤。同样是"删除""访问""下载""调用工具",在不同任务和上下文中可能具有完全不同的风险含义。

模型需要判断: - 当前任务的真实目标是什么? - 这一步推理是否越过了安全边界? - 如果存在风险,应如何在不破坏任务目标的前提下进行修正? - 修正后的 Thought 是否仍然能指导 Agent 继续完成任务?

训练数据

  • 覆盖:隐私保护、金融安全、网络安全等 10 类代表性高风险场景
  • 数据对安全 / 不安全 Thought 偏好数据对
  • 生成方式:基于 ReAct 轨迹模拟生成多样化任务与推理过程
  • 质量保证数据校验与修复流水线
  • 训练方式两阶段微调

通过这种训练方式,Thought-Aligner 学到的不是静态规则,而是面向智能体执行过程的动态「思维校正」能力

实验结果

覆盖基准

基准 覆盖维度
ToolEmu 工具调用行为安全
Agent-SafetyBench 综合安全 benchmark
AgentHarm 攻击性行为
AgentDojo 防御攻击能力
InjecAgent 提示注入防御

关键数字

  • 基线:无防护状态下约 50% 行为安全水平
  • Thought-Aligner:提升到约 90% 平均水平
  • 相比之前方法:平均安全收益约 23%
  • 有用性未显著牺牲

「思维校正」并不是简单地让 Agent 更保守,而是让它在风险任务中形成更稳妥的执行路径

真实部署:OpenClaw 验证

团队将 Thought-Aligner 部署至 OpenClaw(龙虾)实机环境开展真实场景验证:

  • OpenClaw 是具备本地执行与跨应用协同能力的开源 AI 智能体框架
  • 可直接操作系统与应用,测试更贴近真实风险场景
  • CIK-Bench 子集上测试部署 Thought-Aligner 后的 OpenClaw,显著提升其行为安全性,同时维持有用性

在真实感知、决策与控制闭环中,Agent 面临的不再是静态测试题,而是持续变化的环境状态和实际执行风险

与已有 Agent 安全实体的关系

本文是具体方法层级的安全方案:

Thought-Aligner 的独特贡献: - 不重新训练原始 Agent——可插拔即用 - 在 Thought 阶段而非 Action 阶段防御——早介入 - 保留任务可用性——非一刀切拦截 - 真实部署验证(OpenClaw CIK-Bench)——非仅 benchmark

关键引用

  • 论文:Think twice before you act: Enhancing agent behavioral safety with thought correction
  • arXiv:2505.11063
  • 项目主页:https://github.com/WhitzardAgent/Thought-Aligner
  • 模型:WhitzardAgent/Thought-Aligner-7B (HuggingFace + ModelScope)

作者团队

  • 第一作者:蒋昌跃,上海创智学院、复旦大学联合培养在读博士(AI 安全、智能体安全)
  • 通讯作者:潘旭东,上海创智学院全时导师,复旦大学副研究员(AI 安全与治理)
  • 通讯作者:杨珉,复旦大学教授,复旦大学计算与智能创新学院执行院长(智能系统安全)
  • 团队:上海创智学院 × 复旦大学

原文存档

深度分析

1. 从"规则拦截"到"思维校正"的范式意义

Thought-Aligner 的核心突破在于重新定位了智能体安全的干预时点。传统方法在 Action 执行后进行检测与拦截,实质上是一种"事后补救"策略;而 Thought-Aligner 将防御前移至推理阶段,实现"源头治理"。这一转变的深层意义在于:智能体的危险行为根源在于推理偏差,而非动作本身——在 Thought 层面进行校正,本质上是修正"为什么会产生这个危险念头",而非仅仅阻止危险动作的发生。

这种范式转变与 ICML 2026 录用方向高度契合——会议近年来强调 AI 安全的"过程性"与"内生性"解决方案,而非仅依赖输出层的规则限制。Thought-Aligner 作为方法论文,能够在顶会发表,本身即说明学术界对"思维级防御"这一路径的认可。

2. 可插拔架构的工程落地价值

论文强调 Thought-Aligner 无需重新训练原始 Agent,这一设计决策具有重要的工程价值。当前企业级智能体系统通常基于闭源商业模型(如 GPT-4、Claude)或特定开源模型微调而成,无法也不被允许对这些模型进行重新训练。可插拔特性使得 Thought-Aligner 可以在不修改底层模型的前提下,作为独立安全模块嵌入现有系统。

从系统集成角度,可插拔还意味着独立升级与独立回滚——当新版本 Thought-Aligner 出现模型退化或兼容性问题时,可以直接移除而不影响上层 Agent 业务逻辑。这种"热插拔"安全组件的设计思路,与当前云原生时代的零信任安全架构理念一致。

3. 多轮修正的持续效应机制

Thought-Aligner 的多轮持续影响设计值得深入分析。在 ReAct 框架下,每一轮的 Thought 都会进入上下文历史,影响后续所有轮次的推理与决策。当某一轮的 Thought 被校正后,不仅当前 Action 的安全性得到改善,修正后的 Thought 还会作为下一轮推理的基础,形成正向连锁效应。

这一机制解决了单轮检测与拦截方法的根本局限:单个危险 Thought 即使被纠正,如果只作用于当前步,后续推理仍可能延续错误路径。多轮持续影响使得安全校正具有"记忆性",让整条任务轨迹的安全性逐步收敛,而非在某一节点被强制中断。

4. 安全与有用性平衡的实现路径

论文明确指出 Thought-Aligner 的目标不是"拦住一切",而是在安全性和有用性之间取得平衡。这一目标的实现依赖于训练数据中精心设计的偏好数据对——安全 Thought 与不安全 Thought 的对比,使得模型学会"如何修正"而非"如何拒绝"。

具体而言,当模型判断某个 Thought 存在风险时,它不是简单地抑制该 Thought,而是生成一个保留了原任务目标但修正了危险推理路径的替代 Thought。这种"替换而非拒绝"的能力,是 Thought-Aligner 区别于传统安全过滤器的关键所在——它让智能体在更安全的条件下继续完成任务,而非直接终止任务。

实践启示

1. 在智能体推理链路中嵌入 Thought 校正层

对于任何生产级别的智能体系统,建议在 ReAct 循环的 Thought 生成与 Action 执行之间,插入一个安全校正模块。该模块不需要很大(1.5B 规模已足够),但必须具备实时推理能力(< 100 ms 延迟),以确保不破坏任务的在线执行节奏。

2. 针对高风险场景构建安全/不安全 Thought 偏好数据对

Thought-Aligner 的训练经验表明,高质量偏好数据对是模型学会"思维校正"的关键。在实际业务中,建议围绕"删除操作"、"权限变更"、"外部工具调用"、"多步骤任务规划"等高频高风险场景,专门构建安全与不安全 Thought 的对比数据集,并使用数据校验流水线确保数据质量。

3. 结合多基准测试与真实部署验证

论文同时在 ToolEmu、Agent-SafetyBench 等模拟基准和 OpenClaw 实机环境上验证方法,这种"模拟 + 真实"的验证策略值得借鉴。基准测试可以快速定位方法在标准化场景下的性能基线,而真实部署则能发现模拟测试无法覆盖的边界情况。建议在智能体安全方案评估中同时纳入两类验证手段。

4. 利用小模型实现低延迟在线修正

1.5B 规模模型在标准 PC 上可实现 < 100 ms 的单次修正延迟,这一实验数据表明安全校正模块不需要昂贵的 GPU 资源即可部署。这为中小企业在资源受限环境下构建智能体安全能力提供了可行路径——可以直接使用量化后的 1.5B 模型作为 Thought 校正层,而无需部署 7B 或更大规模的模型。

5. 优先防御"良性指令的非预期行为"

Thought-Aligner 的另一个重要设计目标,是防御"良性指令"可能导致的非预期行为。这类风险在实际应用中往往比恶意攻击更难检测,因为指令本身是合法的,问题出在 Agent 对指令的推理过程中。安全团队在设计防御策略时,应将这类风险纳入主要威胁模型,而非仅关注注入攻击。