跳转至

MIRA + MPA:深度原理 AI Scientist 递归自训练打造材料基座模型,40 项实验全面 SOTA

Ch01.183 MIRA + MPA:深度原理 AI Scientist 递归自训练打造材料基座模型,40 项实验全面 SOTA

📊 Level ⭐⭐ | 22.4KB | entities/mira-mpa-deep-principle-ai4s-40-sota.md

MIRA + MPA:深度原理 AI Scientist 递归自训练打造材料基座模型,40 项实验全面 SOTA

概述

深度原理团队(DeepPrinciple)发布 Materials Property Axiom(MPA)材料基座模型,由自研 AI Scientist 平台 MIRA 通过递归自训练产出。40 项实验性质预测任务全面刷新 SOTA:平均 MAE 降低 10%,最高 51.1%。击败 Suiren-1.0(前 SOTA,1.8B 参数 + 7000 万量子化学数据 + 320 张 H800)正面对决赢下 35/40 端点。分布外泛化(MPA 退化 25.7% vs Suiren 31.8%)。这是 \"AI for AI\" 概念迄今最具说服力的一次落地。

时代背景:递归自进化按下 AGI 加速键

Jack Clark 与 OpenAI 的信号

  • Anthropic 联合创始人 Jack Clark:到 2028 年底,递归自进化(recursive self-improvement)发生的概率 60%
  • OpenAI 公开招聘「递归自我改进安全研究员」,年薪 44 万美元

AI4S 领域 Nature 三连发

  • Google DeepMind Co-Scientist——急性髓系白血病药物筛选命中 3 个阳性候选分子
  • FutureHouse Robin 系统——自主完成从假设生成到实验验证的完整闭环
  • Google ERA 引擎——并行生成数千个代码变体进行计算实验

AI 智能体自我迭代飞轮的启动:需要智能体自主从代码重构、数据清洗到模型训练,最终独立产出超越人类精心设计的 SOTA 模型。

MPA 模型:40 项实验全面 SOTA

  • 由自研 AI Scientist 平台 MIRA 通过递归自训练产出
  • 40 项实验性质预测任务中全面刷新 SOTA
  • 平均 MAE 降低 10%,最高降幅达 51%
  • MIRA 承担了关键工作:开展初步研究、适配并更新骨干基础模型、自动化训练与评估循环、分析实验结果、撰写报告初稿

这或许是「AI for AI」概念迄今为止最具说服力的一次落地。

前 SOTA 的暴力美学:Suiren-1.0

上海科学智能研究院,2026-03 发布

维度 数据
参数量 1.8B 分子基座模型家族
训练硬件 320 张 NVIDIA H800 GPU
训练数据 7000 万条量子化学级别分子构象数据
击败对象 长期霸榜的 UniMol 系列

Suiren 的结构性盲区

训练数据和优化目标主要围绕计算性质(通过量子化学软件批量算出来)

而实际材料研发中决定分子能不能用的是实验性质:沸点、闪点、毒性、溶解度等。

实验性质预测为什么难: - 实验数据天然稀疏(一次实验可能花几天) - 噪声大(不同实验室测出来的值可能不同) - 不同性质背后的物理机制完全不同 - 靠堆数据和堆参数,解决不了物理多样性带来的迁移难题

AutoResearch 架构:MIRA 的角色

MIRA 在这套架构中扮演的角色类似于一个全栈科研员:理解研究目标,自主拆解任务,调用计算资源执行实验,分析中间结果并据此调整策略。

整个过程形成递归闭环:每一轮迭代的输出成为下一轮的输入,模型性能在自主循环中持续攀升。

自主重构:AI 改写 AI 的代码

"考虑到目前已经具备 3D 分子结构和实验性质标签,最可行的多性质预测模型是什么?"

MIRA 启动 brainstorm: - 系统性分析可选路径 - 认为 UniMol 系列的 3D 预训练编码器是最合理起点 - 推荐:保留 UniMol-v2 3D Transformer 骨架 + 增加多构象感知能力 + 面向实验性质的对齐训练

MIRA 对现有代码自主重构: - 识别架构中的冗余模块 - 重新设计数据流管线以适配三阶段训练框架 - 将预训练、中间训练和后训练三个阶段的接口标准化 - 重构后的代码库成为 MPA 三阶段训练框架的工程基础

这种代码级的自主重构能力,正是 MIRA 区别于任何一个科研工具的关键。它操作的对象不仅是超参数空间,而是整个模型架构和训练管线的源代码。

自主清理:AI 的「科研直觉」

MPA 的下游基准包含 40 个实验性质预测任务,数据来源: - OPERA、Yaws 手册、CRC 化学物理手册、TDC、MoleculeNet

MIRA 在数据预处理阶段自主执行了多阶段清洗管线。更关键的是,它能够基于物理常识判断数据的合理性。

示例:当某个分子的沸点数据与其分子量和官能团组成明显不匹配时,MIRA 会将其标记为可疑数据点并从训练集中移除

这种能力在传统流程中需要领域专家花数周人工审查。MIRA 把它变成了自动化流程的一部分。

三阶段训练框架

核心设计思想:迁移 LLM 训练范式到材料基座模型,但做了一个关键的物理学改造中间训练的监督信号必须与下游目标共享物理机制

预训练

  • 基于 PubChem-xTB 数据集(约 6400 万分子结构
  • 采用几何恢复的 3D 自监督目标

物理对齐中间训练(MPA 核心创新)

MIRA 在迭代过程中发现,并非所有辅助任务都能提升下游性能,只有与目标性质共享物理机制的辅助监督才有效。

后训练

MIRA 自主发现两个关键改进:

改进 1MSE 损失替换为 Huber 损失(scaffold split 下带来 2.65% 的 MAE 降低)——有效抑制了实验数据中异常值的干扰

改进 2混合读出头(hybrid readout)—— - 注意力池化分支 + 原子加和分支 - 可学习系数 α 让模型自动适配不同性质的物理结构

性质类型 主导分支 scaffold split MAE 降低
热力学量(生成焓、燃烧焓、热容) 原子加和分支 高达 21.38%
非加和性质(闪点等) 注意力分支 主导

这个设计的精妙之处在于,它将物理先验编码进了模型架构本身。

最终战绩

指标 数据
40 个实验性质中 38 个获得提升 vs 仅预训练
平均误差降低 14.0% vs 仅预训练
燃烧焓误差降低 51.1% 热力学
吉布斯自由能降低 31.6% 热力学
40 个可比端点中赢下 35 个 vs Suiren
平均误差再降 5.4% vs Suiren
分布外泛化性能退化 MPA 25.7% vs Suiren 31.8%

在实际材料发现中,你要预测的往往是从未见过的新分子。MPA 在这种「真正的考试」中表现最稳,这才是它对产业界最有价值的地方。

迭代实录:上百轮「假设 → 验证 → 调整」

MIRA 在一个月时间内尝试上百轮迭代循环

数据侧(三次有效尝试)

MIRA 判断:模型从预训练直接跳到下游微调,中间缺了一层"物理直觉"。

  • 使用 deep research + yamo 计算化学技能——得到理论计算的热力学、偶极矩
  • 从文献获取 logP 数据集
  • 自主完成关键步骤:将基准测试中出现过的分子从训练集中剔除(避免数据泄漏)

MAE 降低轨迹:6.5% → 7.5% → 8.4%

模型结构(两次有效尝试)

继续堆数据的边际收益在递减,应该转向模型结构的改进。

下游微调阶段只用了简单的多层感知机(MLP)做预测头,还有很大的改进空间。

  • 第一次:MLP 替换为多头注意力机制,MAE 又降 1.8%
  • 第二次:发现40 个实验性质有"广延性"和"强度性质"两种——增加原子级 embedding 经过残差网络后求和的通路
  • 这条通路显式表达广延性质"各部分之和等于整体"的物理规律
  • MAE 继续降低至 12.3%

模型学会了"什么性质该用什么物理假设"。

损失函数与推理

  • MSE 换 Smooth L1(Huber 损失)——MAE 再降 1.3%
  • 推理阶段加入多构象信息聚合

最终 MAE 降低 14.6%

核心判断:递归进化的齿轮

MIRA 做的事情,本质上是用 AI 来改进 AI。 它重构了一个 AI 模型的代码,优化了这个 AI 模型的训练数据,迭代了这个 AI 模型的训练策略,最终产出了一个更强的 AI 模型。

人类在这里的角色已经从「执行者」变成了「目标设定者」,AI 在用 AI 做原料,产出更好的 AI。

一旦这个飞轮转起来,每一圈都比上一圈转得更快。

三个阶段

  • Coding Agent 自动写代码
  • Research Agent 自动做科研
  • Self-Improving Agent 自动改进自身

AI 智能体的能力边界正在以一种加速度向外扩展。每一次成功的递归迭代,都在缩短我们与 AGI 之间的距离。

递归进化的齿轮已经转动,AGI 可能比我们预想的来得更快。

与现有递归自改进实体差异化

维度 本文 MPA / MIRA 现有 ai-recursive-self-improvement-nanogpt-prime-intellect
领域 材料科学 / AI4S LLM 训练(NanoGPT)
团队 深度原理(DeepPrinciple) Prime Intellect
验证标准 40 项实验性质预测(全面 SOTA) Opus 4.7 数学基准 / NanoGPT 训练
自主重构 模型架构代码级 LLM 训练脚本级
物理先验 架构内嵌物理先验(混合读出头)
击败对象 Suiren-1.0(1.8B 分子基座) 无类似对比
商业价值 新材料发现(实验性质预测) 通用 LLM 训练

关键判断:本文关注 AI4S/材料科学领域的递归自改进,与现有 NanoGPT LLM 训练递归自改进完全不同的科学应用——不重复。

深度分析

1. 递归自训练的科学验证价值

MIRA 的递归自训练在材料科学领域证明了一个关键命题:AI 智能体能够自主完成从假设生成到 SOTA 模型产出的完整科研闭环。40 项实验性质预测全面 SOTA 的结果并非来自某一次"灵感",而是来自上百轮迭代的积累——每一轮都是一次"假设 → 验证 → 调整"的科学方法论实践。

关键在于:MIRA 不仅执行预定的训练流程,它还自主发现问题并设计解决方案。在数据侧,它判断"模型从预训练直接跳到下游微调,中间缺了一层物理直觉";在模型结构侧,它发现"下游微调阶段只用了简单的多层感知机(MLP)做预测头,还有很大的改进空间"。这种主动的问题发现能力,是递归自训练区别于超参数搜索的核心特征。

2. 物理先验的架构级编码

MIRA 的混合读出头设计代表了AI4S 模型设计的一个新范式:不是通过数据增强或损失函数工程来隐式引入物理规律,而是将物理先验直接编码进模型架构本身

混合读出头包含两条并行通路:注意力池化分支和原子加和分支。可学习系数 α 让模型自动学会"什么性质该用什么物理假设"。热力学量(生成焓、燃烧焓、热容等广延性质)由原子加和分支主导,scaffold split 下 MAE 降低高达 21.38%;非加和性质(闪点等)由注意力分支主导。

这种设计的精妙之处在于:物理约束不是被"施加"在训练过程中,而是成为模型的内在结构组成部分。模型在推理时自动适配不同性质的物理结构,无需外部引导。

3. 中间训练阶段的关键洞察

MIRA 在迭代过程中发现一个非平凡的洞察:并非所有辅助任务都能提升下游性能,只有与目标性质共享物理机制的辅助监督才有效。这个发现解释了为什么三阶段训练框架如此关键。

当你将 LLM 训练范式迁移到特定科学领域时,必须在该领域的物理机制层面进行改造,而非仅仅引入领域数据。物理对齐是中间训练的核心,而非简单的领域数据微调。这个洞察对于其他 AI4S 领域具有普遍意义。

4. 分布外泛化的深层意义

MPA 在分布外泛化测试中,性能退化仅 25.7%,而 Suiren 为 31.8%。这个数据的深层意义在于:它揭示了科学发现的本质挑战。在实际材料发现场景中,你要预测的往往是从未见过的新分子——它们的骨架、官能团组合、拓扑结构都不在训练集中。

MPA 在分布外泛化上的优势说明它学到的是可泛化的物理规律,而非训练数据的表面统计相关性。燃烧焓误差降低 51.1%、吉布斯自由能降低 31.6% 等热力学性质的显著提升,与混合读出头中原子加和分支的物理设计直接相关——这些分支显式编码了"各部分之和等于整体"的广延性质物理规律,使其能够泛化到全新的分子结构。

5. 三阶段训练的物理学改造逻辑

将 LLM 训练范式迁移到材料基座模型时,MIRA 做了一个关键的物理学改造:中间训练的监督信号必须与下游目标共享物理机制。这与纯数据驱动的领域对齐有本质区别。

在预训练阶段,模型学习通用的分子表征(几何恢复的 3D 自监督);在中间训练阶段,MIRA 发现辅助监督信号必须与目标实验性质的物理机制共享结构,使用理论计算的热力学、偶极矩等与实验性质有物理关联的计算性质作为中间训练数据;在后训练阶段,Huber 损失和混合读出头都是在损失函数和模型架构两个层面引入物理约束。这种三阶段设计是 MPA 成功的关键。

实践启示

1. AI4S 递归自训练的关键路径

深度原理团队验证了一条可行的 AI4S 递归自训练路径,核心配方包含三个关键环节:

代码级自主重构:不是修改超参数,而是操作模型架构和训练管线的源代码。MIRA 对 UniMol-v2 3D Transformer 骨架的适配、重构数据流管线以适配三阶段训练框架,是 MPA 成功的工程基础。对于任何希望复现这一成果的 AI4S 团队,代码级自主重构能力是必要条件。

数据物理直觉清洗:对多源异构实验数据进行物理合理性判断,而非纯统计异常值检测。具体操作包括交叉验证沸点与分子量/官能团的一致性、基于领域知识设置物理约束阈值、将物理直觉整合进训练数据选择流程。

三阶段训练框架的物理对齐改造:将 LLM 训练范式迁移到特定科学领域时,必须在中间训练阶段引入物理机制层面的对齐。纯数据驱动的对齐(不做物理改造)无法产生 MPA 这样的效果。

2. 三阶段训练框架的领域适配

MPA 的三阶段训练框架对构建任何领域专用基座模型具有直接指导意义:

预训练阶段:采用领域相关的自监督目标。例如 MPA 使用 PubChem-xTB 数据集(6400 万分子结构)和几何恢复的 3D 自监督目标。这个阶段的目标是学习通用的领域表征,而非特定任务的能力。

中间训练阶段(关键改造):这是将 LLM 训练范式转化为领域专用基座模型的关键步骤。MIRA 的发现表明,辅助监督信号必须与下游目标共享物理机制。在材料科学中,这意味着使用理论计算的热力学、偶极矩等与实验性质有物理关联的计算性质作为中间训练数据。

后训练阶段:引入任务特定的微调和物理先验架构。MIRA 在这个阶段自主发现了两个关键改进:Huber 损失替换 MSE 和混合读出头。对于其他 AI4S 领域,这个阶段的关键是在损失函数和模型架构两个层面引入领域特定的物理约束。

3. 实验性质预测的差异化战略

MPA 选择聚焦实验性质预测而非计算性质预测,这是一个具有战略意义的差异化选择。

Suiren-1.0 代表了"暴力美学"路线:320 H800 + 7000 万量子化学数据 + 1.8B 参数,在计算性质上实现了 SOTA。但它的结构性盲区恰好在于:实际材料研发中决定分子能否使用的是实验性质(沸点、闪点、毒性、溶解度等),而非计算性质。

对于材料科学领域的研究者:靠堆数据和堆参数,解决不了物理多样性带来的迁移难题。实验性质预测的核心挑战是物理多样性——不同性质背后的物理机制完全不同。有效的解决路径不是更大的模型和更多的数据,而是像 MPA 那样在架构层面引入物理先验、在训练流程中引入物理对齐中间训练。

4. 科学 Agent 的能力分级

MIRA 展现了科学 Agent 的能力分级体系:

L1 基础能力:数据处理、文献检索、实验流程自动化。辅助人类研究者完成耗时任务,但不自主做科研决策。

L2 研究能力:假设生成、研究路径设计、实验结果分析。MIRA 在这一层级展现出自主判断能力,例如"模型从预训练直接跳到下游微调,中间缺了一层物理直觉"。

L3 架构能力:模型架构代码级重构。MIRA 操作的对象不仅是超参数空间,而是整个模型架构和训练管线的源代码。这是科学 Agent 的最高能力层级,也是 MPA 区别于其他科研工具的关键特征。 自主智能体系统 的设计原则在此具有直接参考价值。

5. 分布外泛化作为核心评估维度

在评估任何科学领域基座模型时,分布外泛化性能应该与 SOTA 性能并列为核心评估维度

MPA 在标准基准上赢下 35/40 端点、平均误差再降 5.4%——这些数字固然重要,但真正揭示 MPA 价值的是分布外泛化数据:MPA 性能退化 25.7% vs Suiren 31.8%。这个差距说明 MPA 学到的是可泛化的物理规律,而不仅仅是训练数据的统计相关性。

对于材料科学、新药研发、电池材料等 AI4S 应用场景,实际使用中需要预测的分子往往不在训练集中。评估基座模型时必须包含分布外测试——使用与训练集分子骨架完全不同的测试集,衡量模型的真实科学发现能力。在评估基座模型时,设计分布外测试集应该成为标准流程的一部分。


相关实体