一个 AI 还是不够的：MiniMax Agent Team（Mavis）¶

Ch04.137 一个 AI 还是不够的：MiniMax Agent Team（Mavis）¶

📊 Level ⭐⭐ | 13.3KB | entities/minimax-agent-team-mavis-owner-worker-verifier.md

Minimax Agent Team Mavis Owner Worker Verifier

一个 AI 还是不够的：MiniMax Agent Team（Mavis）¶

作者：MiniMax 稀宇科技平台：微信 原始链接：https://mp.weixin.qq.com/s/TIL7o92f71DsPPLWT4_37A 抓取日期：2026-05-13 来源：MiniMax

背景¶

MiniMax 将 Agent 产品升级，新名字：Mavis — MiniMax as a Jarvis。此次分享做 Agent Team 背后的思考：怎么设计 Agent team？为解决什么问题？付出什么成本？用户什么时候该用 Agent Team、什么时候没必要用？

单 Agent 的四个痛点¶

痛点一：上下文焦虑¶

用户给了 7 件事，Agent 做完 3 个就停了，开始汇报"已经完成了 1、2、3，要不要继续做剩下的"。这是因为模型普遍存在上下文焦虑，模型本身对于"超长任务什么时候该停"的判断就是模糊的。

痛点二：注意力漂移¶

用户体感是，一开始它像个聪明助手，跑着跑着变成了一个容易分心的人。你得不断追问：刚才那条要求还记得吗？那个来源核实过了吗？写着写着风格怎么变了？只要其中一个环节走偏，后面的内容就会沿着偏差继续生成。单 Agent 很难形成自我制衡，它可能很真诚地自检，但检查的仍然是自己刚刚构造出来的东西。

痛点三：IM 场景的延迟期望¶

在 IM 场景下，用户发一条消息往往是期待几秒内有回应的，哪怕任务很复杂，也希望对方先"收到了，我会怎么做"。但单 Agent 要么给一个很浅的答案，要么让用户盯着对话框等十分钟甚至更久。大量用户反馈"我的 Agent 怎么不回我了"。

痛点四：角色混淆¶

一个用户同一天可能要写代码、查资料、做 PPT、整理会议纪要、处理表格。每类任务的工具权限、质量标准、交付格式都不同。单 Agent 可以通过 Skill 暂时扮演不同角色，但角色扮演不等于角色分工——真正的分工至少包括工具不同、上下文不同、记忆不同、Skill 不同，输出协议和验收标准也不同。

Agent Team 的核心认知¶

多 Agent 经常被简化成"写几段 prompt 扮演不同角色"，但这种做法在真实业务里撑不了多久。 可以这样理解：

Prompt/Skill 编排 = 写了一份工作手册发给几个人，每人按手册做事
Team Engine = 有一套活的系统在背后运转，prompt 只是其中很薄的一层比如同样是"创建一个任务"这个动作，发起方可能是用户、可能是另一个 Agent、也可能是 Team Engine 的定时监控，每种来源都要走不同的处理逻辑。这些都是 Prompt 没办法做软约束的，必须有一套基础设施。

三个关键架构差异¶

差异一：对抗式验证¶

Worker 和 Verifier 之间是对抗关系，类似企业里研发和质量部门的关系，通过多轮对抗式迭代来保证交付质量，而不是靠 Agent 自己说"我做完了"。很多框架里的验证环节是可选的附加步骤，在 MiniMax 这里它是架构的核心。

差异二：状态机管理¶

用可靠的状态机来管理 Agent 的运行周期，而不是依赖模型的自由判断来决定接下来该干什么。什么时候该验证、什么时候该重试、什么时候该停止，都是引擎层面的硬性约束。

差异三：隔离上下文¶

Owner-Worker-Verifier 三角色¶

Owner（项目经理）¶

负责理解用户目标、拆分子任务、决定执行顺序、分配每个任务由哪个 Worker 来接、合并结果、控制什么时候停止。可以理解为项目经理。

Worker（专业执行）¶

不同 Worker 可以拥有不同的工具、上下文和输出要求。有的做资料检索，有的写代码，有的生成文档，有的处理表格，有的调用外部系统。Worker 的价值在于专业化，角色越清楚，它的输出就越容易被复用、比较和检查。

Verifier（对抗检查）¶

可以检查事实来源、跑代码测试、核对格式要求、对照覆盖清单，也可以对 Worker 的结果提出修改意见。 关键设计逻辑：Worker 停止的条件是 Verifier 启动的原因，Verifier 停止的条件是尽可能发现 Worker 的问题，而发现的问题又成为 Worker 重新启动的原因。它们之间是相互制衡的关系。必要的时候，人类会和 Owner 一起做决策，特别是高风险变更、模糊需求、或者成本继续扩张的时候。

Task 派发 vs Agent Team¶

	Task 派发	Agent Team
本质	一次收发，像发邮件等回复	持续在线，像开工作群
中间状态	主 Agent 不知道	Worker 可主动上报
补充通道	无	Owner 随时可补充指令
失败处理	卡住没法喊人	Verifier 可直接打回
持续协作的底层支撑：Team Engine 管理每个 Agent 当前处在什么阶段（等待/执行/验证/已完成）。同一个 Agent 重试时还能复用之前的上下文，不用从头来过。

IM 场景落地¶

核心思路：快回复 + 后台执行 主 Agent 收到消息后先快速响应：收到了，目标确认，我会怎么做。然后把具体任务拆到后台，分配给不同的 Worker 并行执行。用户不用盯着对话框等，关键节点会收到汇报。体验上就像一个能秒回你微信、同时后台还在帮你干活的同事。

Verifier 在研究场景的具体工作¶

来源检查¶

引用的是不是一个别人也能打开、也能验证的稳定链接？官方页面、论文、GitHub 仓库算稳定来源；搜索引擎缓存页、打不开的社区帖、聚合站二手转述只能当线索。

时效检查¶

一个来源上周访问不了但这周恢复了，报告里不能还留着"无法确认"的标注；页面的发布日期没核实过，就不能在报告里写成确定时间。 独立 Verifier 的价值：它和做研究的 Worker 不共享同一个上下文，没有"我刚查过所以应该没错"的惯性。

文档场景：能做 ≠ 能交付¶

单 Agent 做文档最容易出现的错觉就是：只要模型会写，就等于能交付。长报告、正式合同、财务表格、项目复盘 PPT 有太多信息——内容规划、资料引用、结构一致性、版式规范、文件格式、表格公式、图表对象、页眉页脚、目录、导出质量——都会挤在同一个上下文和同一个执行循环里。 Agent Team 做法：Planner 定义目标和结构 → Write

深度分析¶

超越"角色扮演"的多 Agent 范式 MiniMax 的 Owner-Worker-Verifier 模型揭示了一个关键认知：多 Agent 的价值不在于让多个模型"扮演不同角色"，而在于通过基础设施层面的解耦实现真正的任务分工。这与企业中的研发-质检对抗关系本质上是一致的。 上下文隔离作为核心竞争力 文章指出的"第三个关键架构差异"——隔离上下文——直接呼应了 Harness Engineering 的核心原则：大模型上下文是稀缺资源，需要按职责分类管理，而非共享一个不断膨胀的对话历史。这解释了为什么 MiniMax 选择让每个 Agent 只看到与自身任务相关的信息摘要，需要细节时再读全文。 对抗验证的架构地位 在 MiniMax 的设计里，Verifier 是架构核心而非可选项。Worker 停止的条件触发 Verifier 启动，而 Verifier 发现的问题又成为 Worker 重新启动的原因，形成相互制衡的闭环。这与 Harness 中 evaluator 的对抗定位高度一致。 成本约束下的 Agent Team 适用边界 论文 Cost of Consensus 指出，无结构的多 Agent 验证会产生 2.1 到 3.4 倍的 token 消耗，而准确率未必提升。这解释了为什么 MiniMax 强调"Team 不是默认选项，是策略选项"：任务越复杂、链路越长、风险越高、经验越可复用的场景，才值得上 Team。

实践启示¶

1. 从"角色扮演"到"架构分工" 避免陷入多 Agent 就是写几段 prompt 的误解。真正的架构分工需要：工具不同、上下文不同、记忆不同、Skill 不同，输出协议和验收标准也不同。角色越清楚，输出越容易被复用、比较和检查。 2. 交接成本是隐形瓶颈 研究 Agent 收回来几十个网页，写作 Agent 可能用不了。Agent 之间应通过结构化的文件和摘要来通信，而不是把所有上下文塞进一个 prompt。在设计多 Agent 通信协议时，需要提前考虑信息重新组织的开销。 3. Verifier 是基础设施，不是可选项 认真验证就是要花时间和 token，走过场不如不设。同时需要明确的退出机制，否则越跑越贵。高风险动作（如合并代码）不能让 Agent 拍板，必须人类签字。 4. IM 场景的核心设计：快回复 + 后台执行 主 Agent 先快速响应"收到了，目标确认，我会怎么做"，然后把具体任务拆到后台并行执行，用户不用盯着对话框等，关键节点会收到汇报。这本质上是一个能秒回你微信、同时后台还在帮你干活的同事模型。 5. 何时采用 Agent Team | 维度 | 有利于 Agent Team | 有利于单 Agent | |---|---|---| | 任务复杂度 | 长链路、多阶段 | 简单直接 | | 风险等级 | 高风险、高价值 | 低风险 | | 可复用性 | 经验可复用 | 一次性任务 | | 响应期待 | 可延迟 | 需即时 | 何时不用 Agent Team：任务越短、越低风险、越确定，单 Agent 甚至脚本就够了。没有结构、没有验证、没有停止条件的多 Agent 是不成立的。

一个 AI 还是不够的：MiniMax Agent Team（Mavis）¶

Ch04.137 一个 AI 还是不够的：MiniMax Agent Team（Mavis）¶

一个 AI 还是不够的：MiniMax Agent Team（Mavis）¶

背景¶

单 Agent 的四个痛点¶

痛点一：上下文焦虑¶

痛点二：注意力漂移¶

痛点三：IM 场景的延迟期望¶

痛点四：角色混淆¶

Agent Team 的核心认知¶

三个关键架构差异¶

差异一：对抗式验证¶

差异二：状态机管理¶

差异三：隔离上下文¶

Owner-Worker-Verifier 三角色¶

Owner（项目经理）¶

Worker（专业执行）¶

Verifier（对抗检查）¶

Task 派发 vs Agent Team¶

IM 场景落地¶

Verifier 在研究场景的具体工作¶

来源检查¶

时效检查¶

文档场景：能做 ≠ 能交付¶

深度分析¶

实践启示¶

相关实体¶