跳转至

Microsoft Build 2026:微软 AI 独立日 —— 7 款 MAI 模型 + Scout 智能体

Ch04.042 Microsoft Build 2026:微软 AI 独立日 —— 7 款 MAI 模型 + Scout 智能体

📊 Level ⭐⭐ | 24.9KB | entities/microsoft-build-2026-mai-models-scout-agent.md

Microsoft Build 2026:微软 AI 独立日

"我们现在已基本追平了几个月前的最先进水平。" —— Mustafa Suleyman(微软 AI 执行副总裁兼 CEO)

Microsoft Build 2026 是微软的"AI 独立日"——从"AI 应用整合者"(依赖 OpenAI)转向"全栈 AI 基础设施与模型提供者"。核心发布:① MAI-Thinking-1(首个高级推理模型,350 亿活跃参数 / 1 万亿总参数 / SWE Bench Pro 与 Claude Opus 4.6 持平)② 6 款 MAI 系列模型(Code / Image / Transcribe / Voice 等)③ Scout(基于 OpenClaw 框架的 365 智能体,可全天候自主运行)。量子位补充全景视角:④ OpenClaw 登 Windows + MXC 沙箱GitHub Copilot 独立桌面 AppWindows 开发者体验大升级NVIDIA 合作 + Surface RTX Spark Dev Box

相关实体

原文存档(AI 前线版)原文存档(量子位全景版)Microsoft Build 2026 MAI Keynote · Semafor 报道

一句话定位

微软正式从"OpenAI 依赖者"转向"全栈 AI 提供者"——同时掌握模型 + Foundry 平台 + MAI Playground + Scout 智能体 + Microsoft 365 应用层。

1. MAI-Thinking-1:微软首个高级推理模型

模型规格

  • 类别高级推理模型(首次入场)
  • 架构:350 亿活跃参数 + 128K 上下文窗口,总参数约 1 万亿
  • 设计目标:擅长处理复杂的多步骤指令、长上下文推理以及代码生成
  • 效率与性能平衡,强调低 token 成本

性能基准

基准 MAI-Thinking-1 对比
SWE Bench Pro(编程) Claude Opus 4.6 持平 行业领先
AIME 2025 97.0% 先进数学推理
AIME 2026 94.5% 先进数学推理
微软盲测人工对比评估 用户偏好超过 Anthropic Claude Sonnet 4.6 主观评估

关键差异化:"独立训练"

  • 完全从零开始训练,不依赖 OpenAI o1 等任何现有推理模型
  • 使用企业级、干净且具备合规商业授权的数据
  • 预训练阶段排除 AI 生成内容不使用第三方模型的蒸馏数据
  • 微软明确"否定信息":模型的训练数据中不包含任何其他已训练 AI 系统的概率分布或输出序列
  • "迫使模型真正学会任务本身"

企业级差异化卖点:"独立训练"对需要"干净知识产权来源"的企业是核心卖点——对部署在医疗、金融、国防或任何需要合规采购与数据治理的场景中,这很可能会变成采购流程中的一个"必选勾选项"

初创公司或非监管场景的开发者而言,这种差异可能显得抽象。但对企业级 AI 采购来说,这是根本性差异。

推理赛道格局

在过去一年中,推理模型类别主要由以下玩家主导: - OpenAI o 系列(闭源) - Google Gemini 推理版本(闭源) - Anthropic Claude 扩展思考模式(闭源) - DeepSeek R1(2025 年初一度撼动格局,开源)

MAI-Thinking-1 = 微软在这一赛道的新入局产品。技术细节微软尚未披露(如是否采用可验证奖励强化学习 / 过程奖励建模),但"从零训练 + 无蒸馏"是核心差异化主张。

2. MAI 模型家族:多模态生态系统

微软还发布 6 款 MAI 系列模型,覆盖图像生成、语音转写、语音合成和编程等方向。所有模型都建立在同一个基础之上:从零开始"向上爬升"(hill-climbing),不依赖任何蒸馏方法,共享一致的数据规范、训练基础设施和评估体系

模型 规模 / 类别 关键能力 对标
MAI-Code-1-Flash 5B 参数 智能体编程模型,深度集成 GitHub Copilot / VS Code / 微软技术栈 性能对标 Haiku,成本更低
MAI-Image-2.5 图像生成 + 编辑 文生图 + 图像编辑 Arena 评分超过 Nano Banana Pro
MAI-Image-2.5-Flash 超高效版本 同上,更快
MAI-Transcribe-1.5 语音转录 SOTA 准确率速度是同类模型的 5 倍,内置 43 种语言领域专有术语 当前全球最强语音转录模型之一
MAI-Voice-2 语音合成 15 种语言高质量自然语音生成 + 短语音样本声音适配 + 滥用防护
MAI-Voice-2-Flash 更高性价比版本(即将推出) 同上

分发路径: - 统一接入 Foundry + 新的专用环境 MAI Playground - 在 Azure AI Foundry 上分发,针对微软一方产品(1P)优化 - 面向开发者广泛开放,支持在更多平台上使用 - 首次,开发者可以对模型权重进行自定义调优

3. Scout:"升级版 OpenClaw" 企业级智能体

产品定位

Scout = 基于 OpenClaw 框架构建的 AI 智能体,可全天候自主运行,在 Microsoft 365 应用之间独立完成任务。

集成范围

  • 连接应用:Teams、Outlook、OneDrive、SharePoint
  • 访问数据:聊天、邮件、日历、联系人
  • 调用入口:用户通过 Teams 调用 Scout
  • 跨应用交互:与用户浏览器交互,通过 MCP 连接外部应用
  • 运行位置云端、桌面端、网页端

关键设计决策

"该智能体会在后台持续运行,理解你的各类应用和系统中工作的运作方式,并在不需要每次提示的情况下主动采取行动。" —— Omar Shahine(微软企业副总裁)

  • 以用户身份执行操作
  • 拥有受治理的 Entra 身份(企业级身份认证)
  • 减少办公人员面对的重复性任务(与同事协调 / 安排会议 / 自动预留日历时间)
  • 主动发现风险(如决策停滞 → 在问题演变成阻碍前处理)

微软对 OpenClaw 安全漏洞的应对

背景:由于明显存在安全漏洞,OpenClaw 一度受到审查。

微软承诺: - Scout 具备"企业级安全与控制能力,从第一天起就可以在组织中被信任使用" - 将向开源 OpenClaw 项目进行上游贡献(与社区共建)

当前状态: - 以"实验性版本"形式向Frontier 项目客户开放 - 需要通过 Intune 策略配置 + 主动选择确认(opt-in attestation) - 定价未公布(是否含在 Microsoft 365 Copilot 订阅中待定)

Microsoft 365 Copilot 商业化现状

  • Microsoft 365 Copilot:大型企业每位用户每月 30 美元
  • 2026 年 1 月:约 3% 客户付费 = 1500 万付费用户
  • 2026 年 5 月:已增长至 2000 万付费用户
  • Scout 是 Microsoft 365 中推出的最新智能体工具,同系列还有:
  • Agent Mode(Word / Excel 等应用中与 365 Copilot 交互生成内容)
  • Copilot Cowork(微软版的 Anthropic Claude Cowork 智能体,可独立完成任务)

4. 微软 AI 战略定位的根本转变

转型前:"AI 应用整合者"

  • 主要依赖 OpenAI 模型
  • 微软提供 Azure 云 / Office 365 等应用层 + OpenAI 提供模型
  • 2025 年才推出首批自研模型

转型后:"全栈 AI 基础设施与模型提供者"

  • 从零训练自研模型(不依赖任何蒸馏)
  • 提供 Foundry + MAI Playground 分发平台
  • Azure AI Foundry + 多平台开放
  • 支持模型权重自定义调优(首次)
  • 推出企业级 Scout 智能体(与 OpenClaw 社区共生)

"人本主义超级智能(humanist superintelligence)" —— Mustafa Suleyman 在 Build 大会提出的愿景

"微软的 AI 工作始终致力于支持人类员工和用户,而非取代他们"

5. 核心断言 / 行业意义

  1. 微软正式从"OpenAI 依赖者"转向"全栈 AI 提供者"——Suleyman 称"已经基本追平了几个月前的最先进水平"
  2. "独立训练"是企业级 AI 采购的根本差异化——对医疗/金融/国防等需要"干净知识产权来源"的场景是"必选勾选项"
  3. 推理模型赛道进入多极化时代——OpenAI / Google / Anthropic / DeepSeek / 微软五强格局
  4. 小模型也能对标旗舰——MAI-Code-1-Flash(5B)性能对标 Haiku,成本更低;MAI-Image-2.5 Arena 超 Nano Banana Pro
  5. 企业级智能体进入"受治理身份"阶段——Scout 的 Entra 身份 + Intune 策略 = 企业可信任
  6. OpenClaw 社区的"企业化升级"路径——微软承诺上游贡献,但 Scout 是"实验性 + opt-in"起步

与现有 wiki 实体的关系

vs OpenClaw

  • OpenClaw = 开源 AI 编程框架,席卷 AI 圈
  • Scout = "升级版 OpenClaw"——基于 OpenClaw 框架构建,但加上微软企业级安全 / Entra 身份 / Intune 治理
  • 关键差异:Scout 是"实验性 + opt-in"起步,微软承诺向开源 OpenClaw 项目进行上游贡献(与社区共生,非取代)

vs Claude Code / Codex

  • Claude Code = Anthropic 自家 harness 跑在 Claude 模型
  • Codex = OpenAI 自家 harness 跑在 GPT 模型
  • Scout = 微软智能体(基于 OpenClaw)跑在 MAI 模型("全栈"闭环)

vs Kimi Work

  • Kimi Work = 月之暗面 K2.6 + Kimi Code Harness 搬到本地桌面
  • Scout = 微软 MAI + OpenClaw 框架在 365 云端/桌面/网页 —— "人本主义超级智能" 哲学强调"支持人类而非取代"
  • 共同点:都是模型公司 + 自家 Harness 的全栈组合
  • 差异:微软是"企业级 + 治理"(Intune + Entra + opt-in attestation),Kimi 是"本地桌面 + 用户账号"

vs wow-harness v3

  • v3 = 跨 session 事件时间线 + 概念图(协议层治理)
  • Scout = 企业身份 + 策略治理(Entra + Intune)—— 企业治理层变革
  • 共同点:都强调"治理"是 AI Agent 落地的关键

启示

  1. "全栈 AI"是模型公司的终局形态——模型 + Harness + 平台 + 智能体四层一体化
  2. "从零训练 + 无蒸馏"是企业级 AI 采购分水岭——数据来源的知识产权清晰度将进入采购 checklist
  3. 小模型路线(5B 对标 Haiku)是工程拐点——参数规模不再是唯一指标,训练数据 + 评估体系决定实际能力
  4. 企业级智能体的"受治理身份"是 2026 年主线——Entra / Intune / opt-in attestation / Frontier 实验性
  5. OpenClaw 路径 = 社区框架 + 企业增强——微软不取代 OpenClaw,而是基于它构建企业版 + 上游贡献
  6. 推理模型赛道 5 强格局——OpenAI o 系列 / Google Gemini / Anthropic Claude 扩展思考 / DeepSeek R1 / 微软 MAI-Thinking-1
  7. "人本主义超级智能" vs "通用人工智能"——Suleyman 的提法是 AGI 叙事的另一种解:超级智能但以人为本

量子位补充:Windows 生态 + NVIDIA 合作(2nd source 新增内容)

6. OpenClaw 正式登陆 Windows + MXC 操作系统级安全沙箱

关键事件: - Peter Steinberger("龙虾之父",OpenClaw 创始人)亲自站台 - OpenClaw 正式登陆 Windows —— 借助 MXC 在 Windows 上跑 node 和 gateway - MXC = 给 Agent 准备的 Windows 原生安全隔离舱——Agent 该干活干活,但别想在你电脑里乱来,安全由操作系统底层硬兜底

现场演示:MXC 沙箱成功拦截危险指令: - 微软团队现场让 OpenClaw 执行"删除桌面所有文件" - 结果:即使把 OpenClaw 自身的安全层全部关闭,它依然没能成功删除 - 全靠 MXC 安全沙箱挡住 - Peter 苦笑:"我还挺高兴它没能删除桌面文件,因为六个月前这绝对能成功哈……"

"这下好了,Windows 用户终于也能放心吃龙虾了,泪目。"—— 文章评论

配套发布: - 新的 Windows companion app——用户可更轻松地设置自己的 OpenClaw,或连接到已有 OpenClaw - 微软承诺向开源 OpenClaw 项目进行上游贡献

7. GitHub Copilot 独立桌面 App

核心定位GitHub Copilot 独立桌面客户端——脱离所有 IDE,从"插件"变成"AI 工作台"。

三大核心功能: - My Work 统一视图:一个界面里看所有在跑的 AI 任务(修 Bug / 实现需求 / 处理 PR 反馈——都能同时进行) - Agent Merge:AI 自动盯你的 PR,等 CI 跑完 + Reviewer 批准 + 所有绿灯亮 → 自动合并"守进度条这事儿还得 AI 来干,咱是彻底解放了" - Canvas:把工作计划 / 代码变更 / 执行进度铺在一块交互画布——可以在上面批注、修改、踢人回去重做。"有股子 PM 看板和 code review 融合的味儿"

Copilot SDK 全面开放: - 正式全面开放,支持 Node / Python / Go / .NET / Rust / Java - 同一套 runtime 可自己搭内部工具 - "等于是把乐高块儿给你做好了,想要啥技术栈自己随手拼"

8. Windows 开发者体验大升级

Coreutils for Windows: - 微软发布 Coreutils for Windows——直接把超过 75 个 Linux 命令行工具塞进 Windows - Rust 重写了一遍 - lscatgrepsedawk……这些 Linux 命令能在 Windows 原生终端里跑

WSL Containers 公开: - 即将公开——直接在 WSL 里用原生 CLI 创建和管理 Linux 容器 - 企业 IT 还能用策略管控容器来源和权限 - "相当于是把 Docker 功能做成系统内置组件,抹平的是本地开发和云端部署的那道沟"

Intelligent Terminal(智能终端): - "终端里有 AI"——终端报错它能直接读懂 - 分析原因 → 自动执行多步骤任务 → 整个排错过程都留在终端里完成 - 预览阶段——正式上线后将"给 StackOverflow 雪上加霜"

Windows Developer Configurations 一键装机: - WinGet 一条命令搞定:VS Code、GitHub Copilot、PowerShell 7 - 启动 WSL、Git 版本控制、隐藏文件显示 - "新电脑的装机噩梦,终结!"

9. 老黄连线站台:Surface RTX Spark Dev Box

关键人物黄仁勋远程连线 Build 现场 + 纳德拉在线唠 AI 基础设施。

设备规格:Surface RTX Spark Dev Box

参数
芯片 NVIDIA RTX Spark 超芯片
统一内存 128 GB
AI 算力 最高 1 PFLOPS
本地模型规模 1200 亿参数级
上下文窗口 最高 100 万 Token

"微软现场表示,它能够在本地运行 1200 亿参数级模型,支持最高 100 万 Token 上下文窗口的推理任务。"

战略意义

"发模型、推 Agent、Copilot 独立、改造 Windows 开发链、再配上一台专门跑 AI 的开发设备。这个大全套几乎把 AI 开发所有环节包圆了,好一个一不做二不休……"

量子位补充的核心金句

  • "微软:到底是谁说我只会抱 OpenAI 大腿,俺们也能自立山头单干的好吧!"
  • "半路掌勺的开始动真格"——评论微软 AI 战略
  • "我只是想脚踏 n 条船多找几个金主,咋把前任提款机变竞品了??"——文章戏仿 OpenAI 视角

局限 / 风险

  • MAI-Thinking-1 训练方法未披露(是否采用可验证奖励 RL、过程奖励建模)
  • 微软盲测人工对比 vs Claude Sonnet 4.6 是自报数据,缺乏第三方独立基准
  • Scout "第一天就能被信任" 的承诺与 OpenClaw "安全漏洞审查" 的现实存在张力
  • Scout 定价未公布——商业模式待定
  • "基本追平几个月前最先进水平"——Suleyman 自己也承认是追赶而非领先
  • MAI 模型商业化时间表未明确——Foundry + Playground 是分发通道,但企业级 SLA / 合规认证需后续验证
  • "第一天就能被信任" vs MXC 演示拦截——存在矛盾(演示需要沙箱兜底)
  • 120B 模型 + 100 万 Token 本地 的性能数据来自厂商自报
  • Scout / OpenClaw on Windows / GitHub Copilot 独立 App 的定价 / 可用性 / 企业级 SLA 未明确
  • WSL Containers 公开时间表 / Intelligent Terminal GA 时间表 未披露

相关对照

深度分析

  • "AI 独立日"背后的战略逻辑:微软此次发布并非单一产品推出,而是全栈闭环的宣示——从自研推理模型(MAI-Thinking-1)到模型分发平台(Foundry + MAI Playground),从开源框架定制(OpenClaw → Scout)到企业身份治理(Entra + Intune),再到 365 应用层原生集成。Suleyman 称"已基本追平几个月前的最先进水平",意味着微软已从"OpenAI 代理商"转变为具有自主模型研发能力的基础设施玩家。

  • "从零训练 + 无蒸馏"的企业采购含义:MAI-Thinking-1 的核心差异化并非性能数字,而是数据来源的合规性主张——排除 AI 生成内容、不使用第三方蒸馏数据、训练数据不包含其他已训练 AI 系统的概率分布。在医疗、金融、国防等受监管行业,这种"干净知识产权来源"将进入采购 checklist,成为合规采购的必选勾选项而非可选项。

  • Scout 的安全张力与 MXC 沙箱的双重叙事:微软一方面声称 Scout"从第一天起就可以在组织中被信任使用",另一方面 OpenClaw 的安全漏洞已被审查,且现场演示中即使关闭 OpenClaw 所有安全层,MXC 沙箱仍需兜底才能拦截危险指令。这种"实验性 + opt-in attestation"的推出策略,暗示微软在安全尚未完全验证的情况下选择了渐进式企业部署而非激进推广。

  • 推理模型赛道五强格局的形成:MAI-Thinking-1 的入场使推理模型从"OpenAI vs Google vs Anthropic vs DeepSeek"四强变为五强格局。微软虽以"追赶"姿态入场(Suleyman 自称"基本追平"),但凭借 Azure 云基础设施、Microsoft 365 8 亿用户基数以及企业级销售渠道,其后发优势在企业落地层面不可低估

  • 小模型路线(5B 对标 Haiku)的工程拐点信号:MAI-Code-1-Flash 以 5B 参数对标 Haiku、成本更低,MAI-Image-2.5 Arena 超 Nano Banana Pro。这验证了"参数规模不再是唯一指标"的工程拐点——训练数据质量、评估体系的完善程度以及与落地场景的匹配度,正在取代参数规模成为核心竞争力。

实践启示

  1. 企业 AI 采购流程新增"数据来源合规"审查项:若你负责医疗/金融/国防等受监管行业的 AI 采购,应将"模型是否从零训练、是否排除 AI 生成内容、是否使用蒸馏数据"纳入 RFI/RFP 必答项。微软的 MAI-Thinking-1 正在将此变成行业标准。

  2. Scout 类企业 Agent 的评估框架:评估 Scout 或类似企业 Agent 时,关注三个维度:① 身份治理(Entra 等企业级身份 vs 个人账号);② 策略控制(Intune 等 MDM 策略覆盖 vs 无约束);③ 安全验证(MXC 类 OS 级沙箱 vs 纯应用层防护)。这三层是 2026 年企业级 Agent 的"可信落地"最低标准。

  3. 小模型路线适合"特定场景极致性价比"需求:在代码补全(MAI-Code-1-Flash)、语音转写(MAI-Transcribe-1.5,5 倍速)等细分场景,小模型 + 专用数据的组合正在颠覆"越大越好"的认知。评估时可优先测试这类垂直场景而非泛化基准。

  4. OpenClaw 框架的企业化路径可参考:若你在构建基于开源框架的企业 Agent,注意"微软路径":基于开源框架(OpenClaw)+ 添加企业级安全层(Entra 身份 + Intune 策略)+ 向上游贡献(而非 fork 闭源)。这比完全自研或直接用开源未加固版本更符合企业采购逻辑。

  5. "全栈 AI"是模型公司的终局形态参考:无论你是模型公司还是使用模型的组织,"微软模式"(模型 + Foundry/Harness + 平台 + 智能体四层一体化)是目前最完整的企业级参考架构。对模型公司而言,这意味单纯的模型性能领先已不够,分发平台和 Agent 生态成为新护城河

原文存档(AI 前线版)原文存档(量子位全景版)