编者按:刘海广是一位典型的跨学科研究者,他的学术足迹遍布物理、生物、计算机科学和人工智能等多个领域,在跨学科的学习与研究中不断探索和突破。如今,作为微软研究院科学智能中心(Microsoft Research AI for Science)的首席研究员,刘海广在跨学科研究中取得了哪些成果?他和团队又将如何利用人工智能技术来加速科学研究进程,并推动科研成果向实际应用转化?
从清华大学转学至香港浸会大学,为什么会做出这个选择?熟悉刘海广的人都会对此感到好奇。“性格所致。我一直渴望探索未知,见识不同的世界。人生本来就很短暂,我们应该坚定地追随内心的信念。特别是当你对某件事充满热情时,无论选择哪条路,最终都会朝着内心的目标前进。所以无论是留在清华大学还是浸会大学,我最终依然会投身于科学研究,现在看来都是殊途同归的。”刘海广说道。
刘海广始终坚持“心之所想,力之所及”的做事准则,他坚信科学研究的目标是造福于人。2022年,带着“让科学研究成果在现实世界落地实用”的想法,刘海广从纯学术研究领域来到了微软研究院。在加入微软之前,他在学术道路上不断探索跨学科研究的深度与广度,而微软研究院则为他提供了一个更具创新性和影响力的平台。如今,作为微软研究院科学智能中心(Microsoft Research AI for Science)的首席研究员,刘海广正借助前沿的人工智能技术,加速科学研究进程,推动科研成果向实际应用转化,逐步将自己的愿景变为现实。
探索科学领域的隐藏角落
刘海广可谓是跨学科研究的资深探索者。1999年,刘海广被清华大学录取,由此开启了他以物理学为起点的学术生涯。在清华的学习生涯刚刚开始,一次转变的机会就出现在了刘海广的面前——香港浸会大学面向内地高校招生。渴望“拓宽视野”的刘海广抓住了这次机会,转而在香港浸会大学继续他的物理专业学习,师从著名统计物理学家汤雷翰教授。
但不同的是,这一次他选择了一个融合了物理学与计算机科学的交叉专业,同时学习物理系和计算机系两个学科的核心课程。最后的毕业论文研究则将计算方法应用于了生物物理体系中,特别是针对蛋白质结构与动力学的研究。“这一专业融合了计算机、物理、生物学三个学科,让我自然而然地跨越了物理学,进入了计算机科学与生物学的交叉领域。”刘海广说。
大学毕业后,刘海广选择出国深造,在美国加州大学戴维斯分校获得了博士学位。在这一时期,他的研究侧重于运用物理思维来抽象生物学机制,并通过计算的方法模拟生物分子的动力学变化过程。随着对交叉学科研究的深入,刘海广发现这种跨学科研究存在一些局限性。
首先,受当时计算能力的限制,即使是用当时最先进的超级计算机也无法精确描述上万个原子组成的蛋白质分子体系,所以只能将其重要特征抽象为物理模型,但这在科学研究中不够严谨;其次,从计算物理角度出发的跨生物学科研究,对生物体系的抽象描述由于模型自身的缺陷,即便拥有强大的计算资源能够进行模拟,获得的结果的置信度和可靠性也不能替代实验测量。
因此,在博士毕业后的职业选择上,刘海广明确了目标:致力于跨学科研究。彼时,美国劳伦斯伯克利国家实验室正在研发一种方法利用 X 光探测生物分子结构和动力学变化,急需相应的计算方法解读数据,这正是刘海广能够发挥专长的机会。在伯克利国家实验室,他不仅运用计算方法将复杂的生物数据转化为有意义、有价值的模型,而且实验室的生物实验也加深了他对跨学科知识的理解。在这里,刘海广真正实现了从纯粹的计算研究向与实验相结合的交叉领域研究的转变。
沿着这一研究方向,刘海广又在亚利桑那州立大学物理系/BioXFEL 中心完成了博士后工作。在取得了一系列成果之后,他选择了回国发展,加入北京计算科学研究中心,组建了自己的科研团队,与国内外大学和研究机构合作,通过整合多种实验手段和计算方法,深入探索生物分子的结构、动力学和功能,持续在计算机与生物学领域进行跨学科的研究与创新。
做实用主义的科学研究
随着计算能力的提升和人工智能技术的发展,计算方法与跨领域研究的结合日益紧密,显著加快了科学发现的步伐。在2015至2022年的七年时间里,刘海广带领团队取得了一系列突破性成果。然而,这些成果往往只停留在论文阶段。“我更希望将这些研究成果转化为实用工具,让更多人受益。但在纯粹的学术界,这些研究很难直接应用于实践。”刘海广说。
“微软研究院提供了一个既能进行科学技术研究,又能紧密对接工业需求的绝佳平台,让我们可以专注于科学研究的探索、技术产品的转化及其实际应用。例如,科学智能中心的一些研究成果已经转化为工具,并在微软 Azure 云平台上部署,使更多人能够受益于创新技术。”这便是刘海广眼中的微软研究院,也是他选择加入的原因。
目前,微软研究院科学智能中心的研究方向涵盖了面向自然科学的人工智能模型、基于人工智能的科学计算和科学发现等多个领域,具体包括药物研发、生命科学、材料科学等。刘海广的研究重点集中在与人类健康紧密相关的药物研发领域:基于靶点蛋白质的化合物设计以及对蛋白质本身的深入研究。
针对特定靶点蛋白的化合物设计,刘海广及团队开发了化合物研究工具 TamGen,相关论文已被《自然-通讯》(Nature Communications)杂志接收。与通过计算筛选预定义化合物库的虚拟筛选方法相比,基于靶点蛋白结构的从头药物设计能够提供新的候选药物。TamGen 是集成了 Transformer 靶标感知分子生成器的生成解决方案,能够直接从零开始为特定靶点生成候选药物,扩大了现有化合物的筛选范围,为新药发现提供了更多可能性。
对于蛋白质本身的研究,刘海广及团队专注于蛋白质结构及其动力学性质,以及氨基酸突变性质的探索。在药物研发中,对靶点蛋白的深入理解至关重要,因为一旦靶点蛋白发生突变,可能导致药物效果降低甚至完全失效。传统的分子动力学模拟方法在分子结构采样分析时存在局限,往往只能捕捉到分子的初始状态,无法全面描述其在不同条件下的行为。
针对这一问题,刘海广和同事们开发了用于分子结构平衡分布预测的深度学习框架 Distributional Graphormer(DiG)。这项创新技术能够快速生成多样化的分子构象,为从单一结构预测到平衡分布预测的突破奠定了基础。DiG 的开发不仅为分子科学开辟了新的研究方向,也为药物设计和材料科学领域提供了新的工具。相关研究成果已发表在《自然-机器智能》(Nature Machine Intelligence)杂志上。
此外,作为一名拥有丰富跨学科研究经验的研究员,刘海广积极致力于推动不同领域间的合作。微软研究院科学智能中心会定期举办科学论坛,邀请全球的专家学者分享领域知识和前沿研究成果,促进学术界与工业界的交流与合作,加速科技成果的落地应用。
今年5月,科学智能中心与西湖大学联合举办了一场学术研讨会,双方分享了在药物研发、生命科学和材料科学领域的最新成果。“我们还与全球健康药物研发中心(GHDDI)合作,利用 TamGen 平台为肺结核和冠状病毒等全球性传染病设计了高效的新候选药物,为治疗这些疾病提供了新的希望。”刘海广介绍道。
AI for Science:加速跨学科研究的智能引擎
在 AI for Science 的研究中,人工智能的最大优势在于其提升效率和知识提取的能力。微软研究院科学智能中心运用机器学习技术,显著加快了药物研究和材料发现的计算速度,实现了数十甚至数百倍的提升。“在我读博期间,一次仿真模拟需要两三个月才能完成,现在一两天就能得出结果。”刘海广说,“在信息爆炸的今天,人工智能和大语言模型还能帮助我们更快地发现和理解其他领域的知识,并定期更新我们的知识库。人工智能像一位博学多才的助手,能够触类旁通,这对于跨学科和跨领域的研究至关重要。”
刘海广认为,人工智能技术在生物研究的各个环节都能发挥重要作用,促进我们对分子结构和相关数据的深入解读。以眼睛感光蛋白——视黄素蛋白的研究为例,这种蛋白位于细胞膜上,能在光照下利用光能完成对离子或者信号的传输。研究视黄素蛋白的工作原理需要依赖多种实验方法,包括结构生物学、光谱学、分子动力学模拟和高精度超快的显微拍摄技术等。而现在,人工智能可以应用于这些研究的每个环节,提升计算效率,加速科学发现的进程。
与此同时,人工智能作为一项融合了多学科和多领域知识的技术,无论是在其自身发展过程中,还是在与各行各业的跨界融合中,都迫切需要跨领域人才的支持。微软研究院汇聚了来自不同领域和背景的顶尖人才,并与众多高校和企业保持深入合作,不仅推动了创新技术在现实世界中的应用,更有助于推动跨领域的科学研究。
“这里的研究员充满活力且富有个性,我们可以随时交流和辩论,这种多样性和包容性是一个优秀研究机构不可或缺的特质。这就如同细菌群落需要保持多样性一样,如果群落仅由单一类型的细菌构成,当环境变得不利时,很容易导致整个群落的消亡。相反,生物多样性的存在意味着只有部分类型的细菌会受到影响,而细菌群落整体仍能存续。正是具备这种韧性和多样性,微软研究院才得以在过去的三十多年中一直稳步发展,并始终保持着创新的活力。”刘海广说。
相关链接: