跳转至

一个 AI 还是不够的:MiniMax Agent Team(Mavis)

Ch04.137 一个 AI 还是不够的:MiniMax Agent Team(Mavis)

📊 Level ⭐⭐ | 13.3KB | entities/minimax-agent-team-mavis-owner-worker-verifier.md

Minimax Agent Team Mavis Owner Worker Verifier

一个 AI 还是不够的:MiniMax Agent Team(Mavis)

作者:MiniMax 稀宇科技 平台:微信 原始链接:https://mp.weixin.qq.com/s/TIL7o92f71DsPPLWT4_37A 抓取日期:2026-05-13 来源:MiniMax


背景

MiniMax 将 Agent 产品升级,新名字:Mavis — MiniMax as a Jarvis。 此次分享做 Agent Team 背后的思考:怎么设计 Agent team?为解决什么问题?付出什么成本?用户什么时候该用 Agent Team、什么时候没必要用?

单 Agent 的四个痛点

痛点一:上下文焦虑

用户给了 7 件事,Agent 做完 3 个就停了,开始汇报"已经完成了 1、2、3,要不要继续做剩下的"。这是因为模型普遍存在上下文焦虑,模型本身对于"超长任务什么时候该停"的判断就是模糊的。

痛点二:注意力漂移

用户体感是,一开始它像个聪明助手,跑着跑着变成了一个容易分心的人。你得不断追问:刚才那条要求还记得吗?那个来源核实过了吗?写着写着风格怎么变了?只要其中一个环节走偏,后面的内容就会沿着偏差继续生成。单 Agent 很难形成自我制衡,它可能很真诚地自检,但检查的仍然是自己刚刚构造出来的东西。

痛点三:IM 场景的延迟期望

在 IM 场景下,用户发一条消息往往是期待几秒内有回应的,哪怕任务很复杂,也希望对方先"收到了,我会怎么做"。但单 Agent 要么给一个很浅的答案,要么让用户盯着对话框等十分钟甚至更久。大量用户反馈"我的 Agent 怎么不回我了"。

痛点四:角色混淆

一个用户同一天可能要写代码、查资料、做 PPT、整理会议纪要、处理表格。每类任务的工具权限、质量标准、交付格式都不同。单 Agent 可以通过 Skill 暂时扮演不同角色,但角色扮演不等于角色分工——真正的分工至少包括工具不同、上下文不同、记忆不同、Skill 不同,输出协议和验收标准也不同。

Agent Team 的核心认知

多 Agent 经常被简化成"写几段 prompt 扮演不同角色",但这种做法在真实业务里撑不了多久。 可以这样理解:

  • Prompt/Skill 编排 = 写了一份工作手册发给几个人,每人按手册做事
  • Team Engine = 有一套活的系统在背后运转,prompt 只是其中很薄的一层 比如同样是"创建一个任务"这个动作,发起方可能是用户、可能是另一个 Agent、也可能是 Team Engine 的定时监控,每种来源都要走不同的处理逻辑。这些都是 Prompt 没办法做软约束的,必须有一套基础设施。

三个关键架构差异

差异一:对抗式验证

Worker 和 Verifier 之间是对抗关系,类似企业里研发和质量部门的关系,通过多轮对抗式迭代来保证交付质量,而不是靠 Agent 自己说"我做完了"。很多框架里的验证环节是可选的附加步骤,在 MiniMax 这里它是架构的核心

差异二:状态机管理

用可靠的状态机来管理 Agent 的运行周期,而不是依赖模型的自由判断来决定接下来该干什么。什么时候该验证、什么时候该重试、什么时候该停止,都是引擎层面的硬性约束

差异三:隔离上下文

Owner-Worker-Verifier 三角色

Owner(项目经理)

负责理解用户目标、拆分子任务、决定执行顺序、分配每个任务由哪个 Worker 来接、合并结果、控制什么时候停止。可以理解为项目经理。

Worker(专业执行)

不同 Worker 可以拥有不同的工具、上下文和输出要求。有的做资料检索,有的写代码,有的生成文档,有的处理表格,有的调用外部系统。Worker 的价值在于专业化,角色越清楚,它的输出就越容易被复用、比较和检查。

Verifier(对抗检查)

可以检查事实来源、跑代码测试、核对格式要求、对照覆盖清单,也可以对 Worker 的结果提出修改意见。 关键设计逻辑:Worker 停止的条件是 Verifier 启动的原因,Verifier 停止的条件是尽可能发现 Worker 的问题,而发现的问题又成为 Worker 重新启动的原因。它们之间是相互制衡的关系。 必要的时候,人类会和 Owner 一起做决策,特别是高风险变更、模糊需求、或者成本继续扩张的时候。

Task 派发 vs Agent Team

Task 派发 Agent Team
本质 一次收发,像发邮件等回复 持续在线,像开工作群
中间状态 主 Agent 不知道 Worker 可主动上报
补充通道 Owner 随时可补充指令
失败处理 卡住没法喊人 Verifier 可直接打回
持续协作的底层支撑:Team Engine 管理每个 Agent 当前处在什么阶段(等待/执行/验证/已完成)。同一个 Agent 重试时还能复用之前的上下文,不用从头来过。

IM 场景落地

核心思路:快回复 + 后台执行 主 Agent 收到消息后先快速响应:收到了,目标确认,我会怎么做。然后把具体任务拆到后台,分配给不同的 Worker 并行执行。用户不用盯着对话框等,关键节点会收到汇报。 体验上就像一个能秒回你微信、同时后台还在帮你干活的同事

Verifier 在研究场景的具体工作

来源检查

引用的是不是一个别人也能打开、也能验证的稳定链接?官方页面、论文、GitHub 仓库算稳定来源;搜索引擎缓存页、打不开的社区帖、聚合站二手转述只能当线索。

时效检查

一个来源上周访问不了但这周恢复了,报告里不能还留着"无法确认"的标注;页面的发布日期没核实过,就不能在报告里写成确定时间。 独立 Verifier 的价值:它和做研究的 Worker 不共享同一个上下文,没有"我刚查过所以应该没错"的惯性。

文档场景:能做 ≠ 能交付

单 Agent 做文档最容易出现的错觉就是:只要模型会写,就等于能交付。 长报告、正式合同、财务表格、项目复盘 PPT 有太多信息——内容规划、资料引用、结构一致性、版式规范、文件格式、表格公式、图表对象、页眉页脚、目录、导出质量——都会挤在同一个上下文和同一个执行循环里。 Agent Team 做法:Planner 定义目标和结构 → Write

深度分析

超越"角色扮演"的多 Agent 范式 MiniMax 的 Owner-Worker-Verifier 模型揭示了一个关键认知:多 Agent 的价值不在于让多个模型"扮演不同角色",而在于通过基础设施层面的解耦实现真正的任务分工。这与企业中的研发-质检对抗关系本质上是一致的。 上下文隔离作为核心竞争力 文章指出的"第三个关键架构差异"——隔离上下文——直接呼应了 Harness Engineering 的核心原则:大模型上下文是稀缺资源,需要按职责分类管理,而非共享一个不断膨胀的对话历史。这解释了为什么 MiniMax 选择让每个 Agent 只看到与自身任务相关的信息摘要,需要细节时再读全文。 对抗验证的架构地位 在 MiniMax 的设计里,Verifier 是架构核心而非可选项。Worker 停止的条件触发 Verifier 启动,而 Verifier 发现的问题又成为 Worker 重新启动的原因,形成相互制衡的闭环。这与 Harness 中 evaluator 的对抗定位高度一致。 成本约束下的 Agent Team 适用边界 论文 Cost of Consensus 指出,无结构的多 Agent 验证会产生 2.1 到 3.4 倍的 token 消耗,而准确率未必提升。这解释了为什么 MiniMax 强调"Team 不是默认选项,是策略选项":任务越复杂、链路越长、风险越高、经验越可复用的场景,才值得上 Team。

实践启示

1. 从"角色扮演"到"架构分工" 避免陷入多 Agent 就是写几段 prompt 的误解。真正的架构分工需要:工具不同、上下文不同、记忆不同、Skill 不同,输出协议和验收标准也不同。角色越清楚,输出越容易被复用、比较和检查。 2. 交接成本是隐形瓶颈 研究 Agent 收回来几十个网页,写作 Agent 可能用不了。Agent 之间应通过结构化的文件和摘要来通信,而不是把所有上下文塞进一个 prompt。在设计多 Agent 通信协议时,需要提前考虑信息重新组织的开销。 3. Verifier 是基础设施,不是可选项 认真验证就是要花时间和 token,走过场不如不设。同时需要明确的退出机制,否则越跑越贵。高风险动作(如合并代码)不能让 Agent 拍板,必须人类签字。 4. IM 场景的核心设计:快回复 + 后台执行 主 Agent 先快速响应"收到了,目标确认,我会怎么做",然后把具体任务拆到后台并行执行,用户不用盯着对话框等,关键节点会收到汇报。这本质上是一个能秒回你微信、同时后台还在帮你干活的同事模型。 5. 何时采用 Agent Team | 维度 | 有利于 Agent Team | 有利于单 Agent | |---|---|---| | 任务复杂度 | 长链路、多阶段 | 简单直接 | | 风险等级 | 高风险、高价值 | 低风险 | | 可复用性 | 经验可复用 | 一次性任务 | | 响应期待 | 可延迟 | 需即时 | 何时不用 Agent Team:任务越短、越低风险、越确定,单 Agent 甚至脚本就够了。没有结构、没有验证、没有停止条件的多 Agent 是不成立的。


相关实体