编者按

当 AI 正在重构科研与产业的底层逻辑,AI for Science 早已不是纸上概念。4月28日,未来光锥联合北京中关村学院AI商学院,共同推出「AI for Science 创变者说:学界 × 产业先锋对话系列沙龙」。首期活动邀请了3 位一线嘉宾。北京中关村学院副教授、中关村学院AI商学院联席院长郑书新,用扎实的数据和一线洞察,回答了三个所有人都关心的问题:AI4S 的 “ChatGPT 时刻” 会来吗?创业者的壁垒在哪?年轻人该如何下注?

大模型的本质:压缩产生智能

这一波大模型的通用智能性,到底从哪来?OpenAI前首席科学家Ilya一句话道破本质:压缩产生智能——模型的智能性,来自于它用相对小的参数空间,去压缩了人类语言产生的海量数据。在这个过程中,模型被逼着提炼数据里的共性结构和内在表征,智能就此涌现。

举个例子,GPT-3 第一个版本 175B(约 1750 亿)参数,要把全人类写下来过的几乎所有文本都装进去。如果它纯靠记忆,那本质上就是一个硬盘,硬盘是不会产生智能的。但当我们要求它用越来越小的参数量、越来越小的体积去把这些数据“记下来”的时候,它就被逼着去提炼共性的结构和内在的表征——智能就是在这个压缩过程中涌现出来的。

这背后还有一个更严格的理论支点,叫 Kolmogorov 复杂度——一段数据的复杂度可以用最短能描述它的程序长度来衡量。比如一段全是数字 0 的数据,用一行 Python 就能压缩它,因为它内在结构极其简单。大语言模型“预测下一个词”的范式,其实就是对 Kolmogorov 程序的一种很好的近似。

但这也注定了它的天花板:人类已知。你跟人学,终究不可能超过人。而AI for Science,走的是一条完全不同的路。

AI4S的两条核心路径

AI4S不碰人类语言,它直接研究物理规律、生物过程、分子构象,它压缩的是自然界本身的数据,而不是“人类如何描述自然界”。

最有代表性的就是 AlphaFold——它是诺贝尔奖级别的工作。它在做什么?也很简单:在自然界数据中找相关性。当 PDB(Protein Data Bank)里积累了几十万条蛋白结构数据时,模型就能从中找到从序列到三维结构的映射,把蛋白结构这件事“求解”出来。

这里有一个核心分析框架,AI4S的两条腿:

- Scientist(科学家):读文献、提假设、设计实验,本质是语言智能+知识整合+逻辑推理。强项是推理与知识,短板是对物理世界没有“直接理解”。代表是 OpenAI、Anthropic、DeepMind 这些 Frontier Labs 的科研模型。

- Simulator(模拟器):用AI数据驱动地拟合物理世界规律,强项是对世界本身建模,不是堆参数能堆出来的,短板是没有显式的知识链条与推理能力。代表是AlphaFold、各类气象大模型。

大模型的终点是AGI,而AI4S的星辰大海,是突破人类认知的边界——宇宙是未知的,只有Simulator这条路,理论上能让AI探索人类还没发现的东西。


但今天 Simulator 自己解决不了所有问题——它没有逻辑、没有推理。单靠任何一条路都走不通。真正的AI4S终局,是两条路的汇合:既能像顶尖科学家那样做推理、提假设,又能直接理解物理世界本身。

这也是我反复强调的:AI for Science,不止需要更大的模型。你把GPT再放大100倍,它也不会自动懂得一个蛋白怎么折叠、一团云怎么演化。

今天没有任何一个团队同时拥有这两端,这恰恰是机会。

AI4S不会有统一的“ChatGPT时刻”

我的核心判断是:AI4S会有持续的突破,但不会是一个全民狂欢的统一瞬间,它的进展更像一张高度不均匀的地图。

一个领域,满足「问题结构清晰+数据充足+验证闭环短」这三个要素越多,AI4S在那里跑得就越快。

- 蛋白折叠:蛋白这一仗,最有意思的地方在于:Scientist 和 Simulator 两条路都拿出了标志性成果。AlphaFold 回答“蛋白长什么样”,DiG 和 BioEmu 回答“蛋白怎么运动”,一个是拍照片,一个是拍电影。 把电影拍出来,蛋白质的功能机理才真正可解释。

- AI药物:已经跨过临界点。AI药物临床管线超200条,I期成功率80%-90%,是传统方法的2倍;首个AI药物已在II期临床显示疗效,2026-2027年将迎来关键管线的数据读出窗口期。

- AI气象:中国选手全球领跑。华为盘古、复旦伏羲、风乌模型持续突破,其中风乌做到11.25天准确预报,全球首次突破10天精度壁垒。

- 材料科学:材料是另一种状态:刚刚从“筛选已知化合物”,进化到“从头设计前所未有的分子”。2025-2026年最核心的信号,是一线做模型的人,开始真正相信自己手里的工具。这个领域虽在早期,元素组合空间近乎无限,但一旦突破,价值也最大。


大模型巨头全员入局,创业者的壁垒到底在哪?

一个不争的事实是:OpenAI、Anthropic、Google DeepMind、微软、NVIDIA、Meta,六大AI巨头,已经全员下场AI4S。

连OpenAI都要单独做生命科学专项模型GPT-Rosalind,Anthropic全力布局Claude for Life Sciences,这已经说明:“一个通用模型解决一切”的叙事,正在被这些公司自己悄悄放弃。

巨头入局后,创业者的壁垒在哪?我的答案很明确:门槛不在prompt和workflow,而在科学能力、数据闭环、行业嵌入深度。

这里一定要先想清楚,你打的是哪一局

- 产品型:拼快速迭代、用户粘性,验证周期天到周,代表是Manus、Cursor;;

- 资源型:拼行业嵌入深度、客户资源,验证周期季度到年,代表是代表:传统 SaaS、行业解决方案;

- 科学故事型:拼科学能力+数据飞轮,代表是Isomorphic Labs,验证周期年到十年。


AI4S 公司其实可以分两类:科学公司(科学故事型)和科学服务公司(资源型)。两种路都能走,但最怕的,是把自己当成“科学公司”,最后做成了“科学服务公司”。

如果你对自己的技术足够自信,真的能挖到金子,就理所应当去讲科学故事;如果还差一些,就要重交付、重客户资源,老老实实做深行业。

现在就是AI4S的黄金窗口期

为什么我说现在是窗口期?因为钱已经在动。单家AI4S企业年融资额可达5.5亿美元,全球VC流向AI的资金里,大量资金正在向AI4S倾斜。美国能源部投入 3.2 亿美元启动了 Genesis 创世纪计划,中国也在跟进。

资金为什么集中冲 AI4S?因为技术临界突破+传统 R&D 效率太低+数据基础设施刚起步+国家战略加持,四重共振已经形成。

哪怕过程中会有泡沫破裂,也和五六年前的行业热潮完全不同——这一次,技术真的到了临界点

未来最值得长期关注的两个趋势:

1. 自驱动实验室(Self-Driving Labs):实现“假设→实验→数据→模型更新→新假设”的完整闭环,实验越多,模型越好,实验越聪明,形成真正的飞轮,代表玩家有Lila Sciences、Recursion、Atinary。

2. 国家级AI4S基础设施:AI4S正在从“学术研究”,走向“产业基础设施”,这是国家竞争力的核心布局。

给年轻人的5条硬核建议

选领域比选技术重要。真正的护城河是领域知识,不是模型架构,选一个你愿意沉浸5年的科学问题。

学会跟实验对话。纯计算背景的人,最大的短板是不懂实验。去实验室待三个月,比多读十篇论文有用。

数据能力是核心杠杆。模型的性能上限,终究是训练数据的信息上限。能搭起数据飞轮的人,远比会调模型的人有价值,会获取、清洗、标注科学数据,是硬通货。

想清楚你打什么局。科学故事局需要长期耐心,资源局需要行业嵌入,产品局拼快迭代,别混着打。

现在就是窗口期。技术、资本、国家战略三重共振,但窗口不会永远开着。

三个核心结论

回到开场的三个问题,答案已经非常清晰:

    AI4S的突破已经在发生,但不会有统一的“ChatGPT时刻”,各领域进展高度不均,突破速度取决于问题结构、数据基础与验证闭环;

2. 创业者的核心壁垒,是“科学能力+数据闭环”,从来不是模型大小;

3. 选对方向,本质就是选一个你愿意深耕五年的科学问题。

最后送给大家一句话——窗口属于愿意做重活、敢在不确定性里下注的人

作者简介

郑书新,北京中关村学院副教授,中关村学院AI商学院联席院长,《AI for Science》期刊副主编。前微软研究院首席研究员,微软科学基础模型负责人,多项人工智能世界冠军,训练了迄今最大的科学大模型。

想要了解更多AI for Science创业项目?有BP想要投送?或者想来分享你的真知灼见?添加果壳硬科技企业微信,私信沟通。

未来光锥

部分已投项目

华天航空动力

丨天璇新材料

关注话题

闭门活动