AI for Science 会有 “ChatGPT 时刻” 吗？年轻人该如何下注？

编者按

当 AI 正在重构科研与产业的底层逻辑，AI for Science 早已不是纸上概念。4月28日，未来光锥联合北京中关村学院AI商学院，共同推出「AI for Science 创变者说：学界 × 产业先锋对话系列沙龙」。首期活动邀请了3 位一线嘉宾。北京中关村学院副教授、中关村学院AI商学院联席院长郑书新，用扎实的数据和一线洞察，回答了三个所有人都关心的问题：AI4S 的 “ChatGPT 时刻” 会来吗？创业者的壁垒在哪？年轻人该如何下注？

大模型的本质：压缩产生智能

这一波大模型的通用智能性，到底从哪来？OpenAI前首席科学家Ilya一句话道破本质：压缩产生智能——模型的智能性，来自于它用相对小的参数空间，去压缩了人类语言产生的海量数据。在这个过程中，模型被逼着提炼数据里的共性结构和内在表征，智能就此涌现。

举个例子，GPT-3 第一个版本 175B（约 1750 亿）参数，要把全人类写下来过的几乎所有文本都装进去。如果它纯靠记忆，那本质上就是一个硬盘，硬盘是不会产生智能的。但当我们要求它用越来越小的参数量、越来越小的体积去把这些数据“记下来”的时候，它就被逼着去提炼共性的结构和内在的表征——智能就是在这个压缩过程中涌现出来的。

这背后还有一个更严格的理论支点，叫 Kolmogorov 复杂度——一段数据的复杂度可以用最短能描述它的程序长度来衡量。比如一段全是数字 0 的数据，用一行 Python 就能压缩它，因为它内在结构极其简单。大语言模型“预测下一个词”的范式，其实就是对 Kolmogorov 程序的一种很好的近似。

但这也注定了它的天花板：人类已知。你跟人学，终究不可能超过人。而AI for Science，走的是一条完全不同的路。

AI4S的两条核心路径

AI4S不碰人类语言，它直接研究物理规律、生物过程、分子构象，它压缩的是自然界本身的数据，而不是“人类如何描述自然界”。

最有代表性的就是 AlphaFold——它是诺贝尔奖级别的工作。它在做什么？也很简单：在自然界数据中找相关性。当 PDB（Protein Data Bank）里积累了几十万条蛋白结构数据时，模型就能从中找到从序列到三维结构的映射，把蛋白结构这件事“求解”出来。

这里有一个核心分析框架，AI4S的两条腿：

- Scientist（科学家）：读文献、提假设、设计实验，本质是语言智能+知识整合+逻辑推理。强项是推理与知识，短板是对物理世界没有“直接理解”。代表是 OpenAI、Anthropic、DeepMind 这些 Frontier Labs 的科研模型。

- Simulator（模拟器）：用AI数据驱动地拟合物理世界规律，强项是对世界本身建模，不是堆参数能堆出来的，短板是没有显式的知识链条与推理能力。代表是AlphaFold、各类气象大模型。

大模型的终点是AGI，而AI4S的星辰大海，是突破人类认知的边界——宇宙是未知的，只有Simulator这条路，理论上能让AI探索人类还没发现的东西。

但今天 Simulator 自己解决不了所有问题——它没有逻辑、没有推理。单靠任何一条路都走不通。真正的AI4S终局，是两条路的汇合：既能像顶尖科学家那样做推理、提假设，又能直接理解物理世界本身。

这也是我反复强调的：AI for Science，不止需要更大的模型。你把GPT再放大100倍，它也不会自动懂得一个蛋白怎么折叠、一团云怎么演化。

今天没有任何一个团队同时拥有这两端，这恰恰是机会。

AI4S不会有统一的“ChatGPT时刻”

我的核心判断是：AI4S会有持续的突破，但不会是一个全民狂欢的统一瞬间，它的进展更像一张高度不均匀的地图。

一个领域，满足「问题结构清晰+数据充足+验证闭环短」这三个要素越多，AI4S在那里跑得就越快。

- 蛋白折叠：蛋白这一仗，最有意思的地方在于：Scientist 和 Simulator 两条路都拿出了标志性成果。AlphaFold 回答“蛋白长什么样”，DiG 和 BioEmu 回答“蛋白怎么运动”，一个是拍照片，一个是拍电影。把电影拍出来，蛋白质的功能机理才真正可解释。

- AI药物：已经跨过临界点。AI药物临床管线超200条，I期成功率80%-90%，是传统方法的2倍；首个AI药物已在II期临床显示疗效，2026-2027年将迎来关键管线的数据读出窗口期。

- AI气象：中国选手全球领跑。华为盘古、复旦伏羲、风乌模型持续突破，其中风乌做到11.25天准确预报，全球首次突破10天精度壁垒。

- 材料科学：材料是另一种状态：刚刚从“筛选已知化合物”，进化到“从头设计前所未有的分子”。2025-2026年最核心的信号，是一线做模型的人，开始真正相信自己手里的工具。这个领域虽在早期，元素组合空间近乎无限，但一旦突破，价值也最大。

大模型巨头全员入局，创业者的壁垒到底在哪？

一个不争的事实是：OpenAI、Anthropic、Google DeepMind、微软、NVIDIA、Meta，六大AI巨头，已经全员下场AI4S。

连OpenAI都要单独做生命科学专项模型GPT-Rosalind，Anthropic全力布局Claude for Life Sciences，这已经说明：“一个通用模型解决一切”的叙事，正在被这些公司自己悄悄放弃。

巨头入局后，创业者的壁垒在哪？我的答案很明确：门槛不在prompt和workflow，而在科学能力、数据闭环、行业嵌入深度。

这里一定要先想清楚，你打的是哪一局：

- 产品型：拼快速迭代、用户粘性，验证周期天到周，代表是Manus、Cursor;；

- 资源型：拼行业嵌入深度、客户资源，验证周期季度到年，代表是代表：传统 SaaS、行业解决方案；

- 科学故事型：拼科学能力+数据飞轮，代表是Isomorphic Labs，验证周期年到十年。

AI4S 公司其实可以分两类：科学公司（科学故事型）和科学服务公司（资源型）。两种路都能走，但最怕的，是把自己当成“科学公司”，最后做成了“科学服务公司”。

如果你对自己的技术足够自信，真的能挖到金子，就理所应当去讲科学故事；如果还差一些，就要重交付、重客户资源，老老实实做深行业。

现在就是AI4S的黄金窗口期

为什么我说现在是窗口期？因为钱已经在动。单家AI4S企业年融资额可达5.5亿美元，全球VC流向AI的资金里，大量资金正在向AI4S倾斜。美国能源部投入 3.2 亿美元启动了 Genesis 创世纪计划，中国也在跟进。

资金为什么集中冲 AI4S？因为技术临界突破+传统 R&D 效率太低+数据基础设施刚起步+国家战略加持，四重共振已经形成。

哪怕过程中会有泡沫破裂，也和五六年前的行业热潮完全不同——这一次，技术真的到了临界点。

未来最值得长期关注的两个趋势：

1. 自驱动实验室（Self-Driving Labs）：实现“假设→实验→数据→模型更新→新假设”的完整闭环，实验越多，模型越好，实验越聪明，形成真正的飞轮，代表玩家有Lila Sciences、Recursion、Atinary。

2. 国家级AI4S基础设施：AI4S正在从“学术研究”，走向“产业基础设施”，这是国家竞争力的核心布局。

给年轻人的5条硬核建议

选领域比选技术重要。真正的护城河是领域知识，不是模型架构，选一个你愿意沉浸5年的科学问题。

学会跟实验对话。纯计算背景的人，最大的短板是不懂实验。去实验室待三个月，比多读十篇论文有用。

数据能力是核心杠杆。模型的性能上限，终究是训练数据的信息上限。能搭起数据飞轮的人，远比会调模型的人有价值，会获取、清洗、标注科学数据，是硬通货。

想清楚你打什么局。科学故事局需要长期耐心，资源局需要行业嵌入，产品局拼快迭代，别混着打。

现在就是窗口期。技术、资本、国家战略三重共振，但窗口不会永远开着。

三个核心结论

回到开场的三个问题，答案已经非常清晰：

AI4S的突破已经在发生，但不会有统一的“ChatGPT时刻”，各领域进展高度不均，突破速度取决于问题结构、数据基础与验证闭环；

2. 创业者的核心壁垒，是“科学能力+数据闭环”，从来不是模型大小；

3. 选对方向，本质就是选一个你愿意深耕五年的科学问题。

最后送给大家一句话——窗口属于愿意做重活、敢在不确定性里下注的人。

作者简介

郑书新，北京中关村学院副教授，中关村学院AI商学院联席院长，《AI for Science》期刊副主编。前微软研究院首席研究员，微软科学基础模型负责人，多项人工智能世界冠军，训练了迄今最大的科学大模型。

想要了解更多AI for Science创业项目？有BP想要投送？或者想来分享你的真知灼见？添加果壳硬科技企业微信，私信沟通。

未来光锥

部分已投项目

华天航空动力

丨天璇新材料

关注话题

闭门活动