AI4S 2026 H1 跨学科前沿全景（弦论泰斗、AI 提速百倍、与"该谁负责"之问）¶

Ch01.225 AI4S 2026 H1 跨学科前沿全景（弦论泰斗、AI 提速百倍、与"该谁负责"之问）¶

📊 Level ⭐⭐ | 15.7KB | entities/ai4s-2026-h1-frontier-panorama-yinxi.md

AI4S 2026 H1 跨学科前沿全景¶

引子¶

2026 年 4 月哈佛校报刊发长文讲 AI 如何搅动理论物理。弦论顶尖学者尹希（哈佛史上最年轻华人正教授之一）公开称 AI 给他至少 100 倍提速：几周里写出的代码他亲手写要 10 年；并说"不相信有任何一项人类智力能力是 AI 无法复制的"，"自己有没有亲手得出解是次要的，只要结果能被验证"。

三个反复出现的主线¶

每个学科造自己的"基础模型" — 一个模型干多件事，类 GPT 路线，吃的不是文字而是基因序列 / 分子结构 / 天气场 / 脑片
干湿闭环真落地 — 电脑里算 + 实验室里真做；AI 直接驱动机器人做实验，自己提假设、自己跑、自己看结果再调整
清醒的反共识 — 多样性被预训练 + 对齐压扁；精密科学里确定性小模型反而更靠谱；AI 跑赢生成但验证能力远远落后

生命科学：读懂基因暗区 + 三天造千万数据¶

AlphaGenome（DeepMind，Nature 2026.01）¶

人类基因组 98% 是"暗区"（不直接编码蛋白，只做调控开关），偏偏多数致病突变就藏在这里。

一个通才打赢一屋子专才 — 一次吃 100 万碱基对，单碱基精度同时预测十来种调控信号
26 项变异效应预测评估，25 项追平或超过各自领域最强专用模型
限制：6 成预测对得上实测，剩 3 成还差；不等于可临床用

Sequence Display（哈佛，Nature Biotechnology 2026.04）¶

蛋白工程的真瓶颈不是模型而是数据。

给每个蛋白挂"活性条形码" — 活性越高条形码被编辑越多
单次实验产出 >1000 万数据点；从产数据到训完模型 3 天
已在小型基因编辑酶、tRNA 合成酶上验证
洞察：不去卷模型，去卷数据这个真瓶颈

蛋白设计趋势¶

Proteína-Complexa（英伟达+牛津，ICLR 2026）— 搬入"想得越久答得越好"范式，单样本 15.6 秒，14 个靶点全拿最佳
综述 arXiv 2602.03779：重设计蛋白酶活性提升 26 倍，耐热抬高 40 度，第一次摸到工业能用门槛

化学材料：5.33% 命中率反而是真价值¶

A-Lab（Ceder 组，arXiv 2604.11957）— 第一个严格无氧自驱动实验室¶

手套箱里自动合成+表征 352 个卤化物锂尖晶石样品，覆盖 19 种金属
大模型显式拆两角色：一个找异常+提假设，一个找规律+外推
"成功"率：从最初 75 个样本的 1.33%，跑到最后 75 个样本的 5.33%
反直觉但诚实：找异常 agent 主要在已探索区域精修，扩展靠找规律，协同增益有限
核心价值不在"赢人"，而在"证明这条路能跑通"

通用原子模拟基础模型¶

大阪大学（arXiv 2603.03223）：通用原子模拟元素 89 → 97 种，补齐镅锔锎等极重放射性元素
剑桥 MACE-POLAR-1（arXiv 2602.19411）：1 亿分子训练，蛋白+药物结合精度改善约 4 倍

物理：神经解码器让量子计算"省 40% 硬件"¶

量子纠错解码器（哈佛，arXiv 2604.08358）¶

神经网络解码器把出错率压到连续运算 100 亿步才出一次错
发现量子纠错"瀑布"现象：抑制比教科书公式陡得多
造一台量子计算机的物理量子比特可少约 40%（真金白银）
判断一次 ~40 微秒，能跟上实际机器节奏
限制：模拟数据非真机；理论上可能存在"错误地板"没观测到

物理"目标定错"小故事¶

宾州州立（arXiv 2603.15853）：默认"让能量最低"目标被神经网络过强能力算到假性偏低（物理不可能）
换目标函数后：很差的起点出发10 次里 9 次稳定收敛，老办法 2 次
典型"目标定错"故事 — 别迷信默认设置

天文气候：7424 个"平行版本的 2023 夏天"¶

极端天气情景生成（LBNL + 英伟达，arXiv 2604.09754）¶

AI 天气模型生成 7424 个 2023 夏季情景 = 7424 个"平行版本的夏天"
全球 2/3 陆地 AI 极端高温还在传统外推范围内
剩 1/3 陆地完全超出传统外推；其中 7.3%（格陵兰 / 俄东部北部 / 阿拉斯加 / 中国东部华北）算"极不可能"
核心价值不是"预报更准"，而是"廉价生成几千个平行现实"，服务于公共安全预警分级

气象基础模型"去魅"¶

英伟达 ATLAS（arXiv 2601.18111）：顶尖天气预报不需要天文级定制网格，通用 Transformer 就够，3.3 秒算一步
HealDA（arXiv 2601.17636）：AI 气象软肋 = 把观测数据整理成预报起点这一步还吊在传统方法上（吃全球算力约 4 成）；HealDA 单张 H100 1 秒出结果，vs 欧洲那套 1 小时 + 1800 个 CPU 节点，预报精度只损失不到 1 天

脑科学：放射科走通 GPT 路线 + 层级强对应¶

BrainIAC（哈佛系，Nature Neuroscience 2026.02）¶

训练数据：近 4.9 万张脑部 MRI，全程自学不需人工标注
一个模型干 7 件事：估计脑龄 / 预测痴呆 / 检测脑肿瘤基因突变 / 预测脑癌生存期等
整体跑赢 3 个传统专用 AI
意义：医学影像 AI 过去"一病一模型"；BrainIAC 证明放射科可走 GPT 路线 — 先海量无标注自学通用本领，再少标注微调多任务
越是数据稀缺、任务越难，优势越大

听觉皮层 vs 语音 AI 层级对应（Nature Machine Intelligence 2026.02）¶

15 名脑内植入电极患者听语音时记录皮层反应
脑区和 AI 模型层几乎一一对应 — 声音 → 音节 → 词 → 意思，同一条递进处理阶梯
推到了强对应层级（过去只是弱对应，碰巧预测）
暗示生物和人工系统在"把声音变成意义"这件事上可能用相似策略
限制：15 人 / 特定 AI；层级对应可能因为这件事本来就只有这一条阶梯可走；相关性 ≠ 因果

清醒的冷水¶

多样性被压扁：3 家 vs 10 家前沿模型生成的科研新假设相似度惊人；预训练 + 对齐把创新多样性压扁
35 亿参数小模型 > o4-mini：控制原子级显微镜命令准确率 99.3%；纳米尺度大模型一出错就是不可逆实验失败，精密科学里确定性小模型更靠谱
生成跑赢验证：2.3 小时产一篇论文，生成能力持续跑赢验证能力，为真实性负责还得人来

收尾判断¶

"AI 可以无限扩张'生成'，但'验证'和'负责'这一端目前还非人类不可，短期看不到松动。"

AI 正在从科研工具 → 科研流程本身挪（自驱动实验室 + AI 科学家一条龙）
这条边界不能模糊 — 谁在做科学？
半年最扎实工作都指向：A-Lab 老实报 5.33% / 小模型靠确定性赢 / 路线图承认瓶颈是"为真实性负责"
尹希的"亲手得出解是次要的"被作者部分认同：解交给 AI 生成是大好事；剩余人站着的岗是"验证"和"负责"
作者赌注：AI 钻进实验室是这十年里对人类最重要的变化之一

深度分析¶

1. "基础模型 + 领域自适应"正在重塑科研工具链¶

2026 H1 的所有突破都有一个共同底层逻辑：先训练一个通才，再针对具体科学问题做微调或提示工程。AlphaGenome 证明了基因组学可以走这条路，BrainIAC 证明了放射科可以走这条路，ATLAS 证明了气象可以走这条路。这条路的本质是把"领域知识"从手工特征工程迁移到"预训练 + 自学"里 — 意味着未来每个科学领域都会有自己的基础模型，而不只是每个任务有一个专用模型。这对科研基础设施的含义是：数据质量、数据多样性将比算法创新更值钱。

2. 生成能力与验证能力的剪刀差是 AI4S 的核心瓶颈¶

文章反复强调的一个反直觉事实：AI 生成一篇论文只需 2.3 小时，但验证、复核、为结果真实性负责的环节目前还非人类不可。这意味着 AI4S 的瓶颈不在"能产生多少假设"而在"能确认多少假设"。A-Lab 诚实地报了 5.33% 命中率，这个数字本身比"99% 准确率"更有价值 — 因为它诚实地标定了当前技术的天花板。如果整个领域继续把资源砸在生成侧而忽视验证侧，AI4S 产出的知识可信度会持续低于预期。

3. 小模型在精密科学里的胜利颠覆了"scaling law"叙事¶

35 亿参数小模型在原子级显微镜命令控制上拿到 99.3% 准确率，击败 o4-mini 等大模型。这不是个别案例 — 它反映了一个原则：在精密科学任务里，模型行为需要确定性、可复现性，而这些恰恰是大模型（过度多才多艺、过拟合到预训练分布）最难提供的特性。这个观察对 scaling law 信仰者的含义是：对于物理精度驱动的科研场景，盲目追求参数规模可能是在浪费算力。

4. 干湿闭环将重新定义"科学家"的分工¶

尹希说"自己有没有亲手得出解是次要的，只要结果能被验证"，这句话背后是一个正在发生的分工重构：当 AI 能跑实验、能提假设、能写代码，人类的独特贡献变成"为结果负责"和"设计要问什么问题"。自驱动实验室（A-Lab）和 AI 科学家一条龙模式正在把这个分工固化下来。未来"科学家"的门槛可能不再是"能做实验"，而是"能问出值得被自动化的科学问题"。

5. 多样性压缩与"平行现实"生成揭示了 AI 科研的深层矛盾¶

三家 vs 十家前沿模型生成的新假设高度相似，说明预训练 + 对齐机制正在系统性压扁创新多样性。与此同时，AI 气象模型生成了 7424 个"平行版本的 2023 夏天"，这个能力被用来做公共安全预警分级。这两个现象放在一起，揭示了一个深层矛盾：AI 一方面在压缩假设空间的多样性（收敛到预训练已知的模式），另一方面在扩张"现实模拟"的多样性（生成前所未见的场景）。这两个趋势的同时存在说明，AI 是科研中的"收敛工具"还是"发散工具"，完全取决于人类怎么用它。

实践启示¶

1. 投资数据质量比投资更大的模型更划算¶

Sequence Display 用"给每个蛋白挂活性条形码"的方式，单次实验产出超过 1000 万数据点，3 天完成从产数据到训完模型。在蛋白工程场景下，真正的瓶颈不是模型架构，而是带标注的高质量实验数据。行动建议：AI4S 团队在做预算分配时，优先考虑实验数据采集和标注的投入，而非一味采购更大的基础模型。

2. 干湿闭环是 AI4S 落地的必要条件，不要止步于"AI 辅助设计"¶

A-Lab 的意义不是那个 5.33% 命中率，而是它证明了"AI 提假设 → 机器人执行 → AI 自主调整"这条路在物理上是可行的。如果只做 CAD（计算机辅助设计）式的 AI，而不把自动化实验回路建起来，AI4S 的价值就停留在"给人更多选择"而非"替代人执行"。行动建议：有条件的科研团队应优先搭建干湿闭环基础设施，哪怕初期规模很小。

3. 在精密科学场景里，优先测试确定性小模型而非直接上多模态大模型¶

原子尺度显微镜控制任务里，35 亿参数小模型超越 o4-mini 的案例说明：对于需要确定性行为（每次相同输入必须产生相同输出）、且错误代价不可逆的实验任务，大模型反而是风险。行动建议：在化学、材料、生物实验自动化的场景里，先做小模型基线，再根据实际需求决定是否引入大模型，而非默认"越大越好"。

4. 用"平行现实"方法论做风险评估，而非追求单一"最准确"预测¶

AI 气象模型的核心价值不是"预报更准"，而是"廉价生成几千个平行现实"。这个方法论可以迁移到任何存在高度不确定性的领域：药物安全性评估、材料失效分析、气候政策影响评估。行动建议：在这些领域，应把评估范式从"找单一最优预测"切换到"生成情景分布、做分级响应预案"。

5. 明确划定"AI 负责生成，人类负责验证"的分工边界¶

尹希的判断被作者认同："解交给 AI 生成是大好事；剩余人站着的岗是'验证'和'负责'"。这个边界模糊不得，特别是在涉及公共安全或临床应用时。行动建议：AI4S 项目在立项时就应明确验证机制和人机分工，不能把"AI 生成的内容默认为正确"当作默认假设。

与已有实体的关系¶

MiroFlow — Deep Research Agent 脚手架
S-Agent — 阿里开源 deep research harness
Rein — Code Agent 框架
共同点：co-design 思想（model × infra 联合优化）
AI4S 区别：这里的"infra"是物理实验装置（机器人 + 自驱动实验室 + 干湿闭环），不是 prompt/context/state

核心金句¶

"尹希把整个职业生涯押上去，我挺理解他"
"一种'重工具调用'场景"（deep research 本质）
"5% 命中率的价值恰恰是没吹"
"Anthropic 在 agentic infra 工程化上领先国内一个版本"（与 S-Agent 互证）
"AI 可以无限扩张'生成'，但'验证'和'负责'这一端，目前还非人类不可"
"过去要十年的事现在几周做完"