所有实验室都怕字节,所有人都在夸DeepSeek!美国研究员36小时中国AI行¶
Ch01.317 所有实验室都怕字节,所有人都在夸DeepSeek!美国研究员36小时中国AI行¶
📊 Level ⭐⭐ | 11.6KB |
entities/chinese-ai-lab-insights-nathan.md
核心要点¶
- Nathan Lambert(Allen Institute for AI)36小时密集访问中国AI实验室:月之暗面、智谱、清华、美团、小米、零一万物
- 核心发现:中国AI生态是"合作共赢"而非"部落竞争";字节跳动是所有实验室警惕的竞争对手;DeepSeek是公认研究品味最好的实验室
- 文化差异洞察:过强的 Ego 和野心会妨碍做出最好的模型;中国实验室大量在读学生直接参与核心研发
- 产业特点:开源是实用主义而非信仰;自研+开源是标准路径;数据产业质量参差不齐导致自建 RL 环境成为普遍选择
- Nathan 的焦虑:硅谷能否在开源模型领域保持领导地位?
相关实体¶
- Deepseek Code Harness
- Nathan Lambert Claude Mythos Open Weights
- Deepseek V4 Pro Vs Claude
- Deepseek Moe Parallel Strategy
- Deepseek V4 Training Methodology
→ 原文存档
文化背景:为什么中国实验室擅长追赶前沿¶
Ego 与全栈优化的矛盾¶
Nathan 在报告中花大量篇幅探讨的核心问题是:为什么中国实验室如此擅长追赶前沿?他的核心判断指向文化因素 。当代 LLM 的竞争已经从单一突破转向全栈优化——从数据到架构到 RL 算法,每个环节都能榨出一些提升,但如何将这些提升整合成一个协调优化的系统,是极其复杂的多目标优化问题 。在这种情况下,有时某个天才研究员的工作需要为模型整体让路。 这在美国环境下经常引爆冲突 。Nathan 透露了一个"瓜":LLaMA 团队据传就是因为内部政治斗争过重而崩盘的,大家都想让别人按自己的想法做事,有实验室需要花钱安抚顶级研究员才能让他们别再抱怨 。据此他得出结论:过强的 Ego 和野心会妨碍做出最好的模型 。
学生作为核心研发力量¶
中国实验室的核心贡献者中有大量是在读学生,他们被当成同事直接参与核心研发 。这些学生愿意做那些不那么"性感"的工作,只要能让模型变好就行。而美国顶级公司(如 OpenAI、Anthropic、Cursor)干脆不开设实习岗位,Google 名义上有实习但实习生往往被隔离在边缘区域 。 学生的另一个意外优势是带来了全新视角——过去几年 LLM 关键范式从 Scaling MoE 到 Scaling RL 再到 Agent,每次转换都需要疯狂吸收新上下文,而学生恰恰最擅长快速学习并放下预设 。
中美研究员对"职责边界"的不同理解¶
Nathan 注意到一个有意思的现象:当他问中国研究员对 AI 经济影响或长远社会风险的看法时,很多人的反应是愣住——不是不想回答,而是真的觉得不关他们的事 。他们的任务就是做出最好的模型,其他的不在操心范围内。而美国文化强调科学家要为自己的工作发声,硅谷文化也在推动"成为明星 AI 科学家"的成名路径 。 一位研究员引用了 Dan Wang 的经典说法:"中国是工程师治国,美国是律师治国" 。工程师考虑的是解决问题,律师考虑的是定义问题。
北京的 AI 生态:不是部落是生态¶
36 小时跑了 6 家 AI 公司¶
Nathan 形容北京"简直像湾区",随便走两步就是一个竞争对手的办公室 。他下了飞机去酒店的路上顺便拐进了阿里巴巴北京园区,36 小时内依次访问了智谱、月之暗面、清华、美团、小米、零一万物 。 中国 AI 圈给他最深刻的印象是:实验室之间更像是一个生态,而不是互相厮杀的部落 。私下交流中,大家对同行都是尊重的。所有实验室都对字节跳动和豆包保持高度关注——字节是中国少数走闭源路线推进的大模型玩家 。但所有人都敬佩 DeepSeek,认为它是研究品味最好的实验室 。
中国 AI 产业的真实样貌¶
AI 商业化路径:云而非 SaaS¶
关于"中国公司不愿为软件付费"的刻板印象,Nathan 认为只对了一半。不愿花钱的部分对应的是 SaaS 生态,但这在中国确实很小;中国有一个庞大的云计算市场 。关键问题是:企业在 AI 上的花费最终会走 SaaS 路线还是云的路线?Nathan 的感受是 AI 更接近云,而且没有人在担心新工具能否长出市场 。
自研执念与开源实用主义¶
为什么美团、蚂蚁集团这种公司也在自己做大模型?在 Nathan 看来,中国人的逻辑是:LLM 显然会成为未来科技产品的核心,所以必须自己掌握 。不过虽然自研,但也开源:先训一个通用底座开源给社区帮忙打磨,内部再微调一个版本用到自己的产品里 。 这里的关键洞察是:开源不是信仰,是实用主义——它能获得社区反馈,能回馈开源生态,也能帮助他们更好地理解自己的模型 。
算力不足与数据产业现状¶
英伟达仍是训练的黄金标准,每个实验室都因为芯片不够而受限 。数据产业质量参差不齐 。所以自己做更靠谱——研究员们会亲自花大量时间搭 RL 训练环境,字节和阿里这类大公司则有内部数据标注团队 。
深度分析¶
1. "工程师治国 vs 律师治国"揭示了中美 AI 研发文化的根本性差异 工程师文化更注重问题解决和模型效果,愿意让个人ego为整体目标让路;律师文化(注:此处指美国模式)更注重定义问题和为自己的工作发声 。这一差异在 LLM 全栈优化的当下变得尤为重要——当竞争从单点突破转向系统工程时,前者的协作效率优势会被放大。 2. 学生直接参与核心研发是中国 AI 追赶速度的关键制度创新 这一模式有三个隐性优势:学生愿意做不性感的工作(标注、评测、环境搭建);学生的认知负担轻能更快吸收新范式;学生的视角不受上一轮 AI 炒作周期路径依赖 。这是美国公司关闭实习岗位的结构性损失。 3. 字节跳动是中国 AI 生态的"鲶鱼"而非领导者——闭源路线与生态共识形成张力 所有实验室都高度关注字节,但 DeepSeek 才是研究标杆 。这说明中国 AI 圈的价值判断标准是研究品味和技术深度,而非商业规模。但字节的闭源路线与其说是竞争策略,不如说是给整个生态提供了一种"现实检验"——当开源社区的力量足够强大时,闭源的边际优势会持续收窄。 4. 开源实用主义揭示了中国 AI 的长期技术主权战略 Nathan 反复追问为什么中国公司愿意开源好容易训练出来的模型 。这些公司构建 LLM 并不是因为追逐热点,而是有一种深层愿望:把技术栈掌控在自己手中 。开源是实现这一目标的手段之一——通过社区反馈加速迭代、通过生态建设形成标准依赖、通过社区力量对冲闭源模型的风险。 5. 中国 AI 研究员对"AI 风险不感兴趣"是一种专注策略而非天真 当被问及 AI 风险时愣住,并不代表他们不关心,而是代表他们认为那不是自己的职责范围 。这种分工明确的工程师思维,与美国研究员热衷于在播客上讨论 AI 风险形成鲜明对比。Nathan 最终的焦虑("硅谷能否保住开源领导地位") 恰恰反映了这种文化差异下的竞争态势。
实践启示¶
1. 在评估中国 AI 投资价值时,优先关注"自研+开源"路径的公司 这类公司的模型往往经过内部产品验证,同时享有社区反馈的迭代加速 。对于投资人和合作伙伴,这意味着 DeepSeek 路线(研究驱动+社区赋能)可能比纯闭源路线更值得长期关注。 2. RL 训练环境自建能力是判断中国 AI 实验室成熟度的核心指标 数据产业质量参差不齐意味着能亲自花时间搭建 RL 训练环境的实验室有更强的系统优化能力 。在评估技术合作或算力投资时,RL 自建能力是比单纯 GPU 数量更实质的差异化指标。 3. 利用中国 AI 生态的"合作共赢"特性寻找技术合作机会 与西方生态不同,中国 AI 实验室之间存在尊重和协作的基础设施意识 。对于海外公司或研究者,可以通过学术交流、项目合作获得比在西方生态中更开放的技术对话,前提是展现出对技术本身的尊重而非商业目的优先。 4. 关注中国 AI 实习生培养模式对全球 AI 人才格局的影响 如果你是 AI 领域招聘方,美国顶级公司关闭实习岗位的现状意味着有大量高质量学生无处可去,这是招募具有最新范式适应能力的年轻研究员的窗口期 。同时,如果你的公司愿意建立有效的实习生带教机制,可以以更低成本获取这类人才。 5. "地平线上的起重机"作为中国 AI 发展速度的隐喻,对技术路线图规划有参考价值 Nathan 的这句话 描绘了一个持续建设、永不停歇的图景。对于制定技术路线图的公司,这意味着需要预留足够的缓冲时间——当你的团队在规划某个技术方向 6 个月后的目标时,中国团队可能已经在同一方向推进了 3 个迭代。