作者:科学智能中心
编者按:近期,科学杂志《自然》(《Nature》)正刊发表了微软研究院科学智能中心(AI for Science)团队的研发成果——首个基于人工智能的生物分子量子级精度动力学模拟系统 AI2BMD。该系统不仅突破了传统生物动态研究方法的瓶颈,同时也极大地促进了人工智能在生物分子模拟领域的应用,推动了药物设计、酶工程和疫苗研发等领域的创新进展。
AI2BMD 研究过程中面临了哪些挑战?研究团队又是如何在四年内攻克生物分子模拟领域的长期难题的?来自 AI2BMD 研究团队的微软研究院高级研究员王童、首席研究员刘海广、高级工程师毕然向大家分享了研究背后的故事。
Q:微软研究院是最早开始利用人工智能进行生物大分子模拟研究的机构之一。当时你们为什么会选择这个方向,最初期望解决什么问题?
王童:一切生物体的行为都可以通过原子的颤动和摆动来理解。为了研究生物过程背后的机制并开发生物材料和药物,我们需要一种能够准确表征生物分子动态运动的计算方法。
当我们回顾生物分子结构计算研究的发展过程时,可以得到两个关键信息。首先,利用人工智能预测静态蛋白质结构近年来取得了巨大成功,并在上个月获得了诺贝尔化学奖。但表征蛋白质的动态结构对生物学、药物和医学领域更有意义,也更具挑战性。其次,分子动力学模拟是研究蛋白质动态最广泛使用的方法之一,可以大致分为经典动力学模拟和量子模拟两大类相互作用的描述。这两种方法都历经了半个多世纪的发展,并各自获得了诺贝尔奖。其中,经典动力学模拟采用的是牛顿力学,计算速度快但精度低,量子模拟采用的量子力学非常精确但计算成本高。然而,对于生物机制的检测需要同时具备高精度和高效率两大性能。因此,将人工智能应用于生物分子模拟是实现高精度和高效率的第三种方法。
在2020年冬天,我们充分意识到了人工智能也可以在生物分子模拟中发挥作用,自此就选择了这个方向,并开启了四年的研究之旅。
Q:与之前的研究相比,AI2BMD 有何不同?从构想到发布,这四年的研究旅程中,有哪些关键时刻?你们面临了怎样的挑战?
王童:将人工智能应用于生物分子模拟是一个十分新颖的研究领域。对于大分子 AI 驱动的分子动力学模拟,没有现成的数据集,没有设计优良的机器学习力场,没有明确的技术路线图,也没有成熟的 AI 模拟系统。我们每天都在面临各种全新的挑战。
与其他探索这个领域的工作相比,AI2BMD 的特点在于它无需为每种新蛋白质生成新的数据并训练深度学习模型,所以 AI2BMD 是一种蛋白质特定的解决方案,而且是一种适用于广泛蛋白质的通用解决方案。
为了实现这一目标,我们首先提出了通用的蛋白质分段描述方法,将蛋白质分为常用的20种二肽作为基本单元。这样我们就不需要为各种蛋白质生成数据,而只需对这些二肽的构象空间进行采样即可。因此,我们建立了包含约2000万个样本的蛋白质单元数据集,使其具有量子力学计算的精度。
然后我们又提出了可用于分子几何建模的图神经网络 ViSNet,以此来作为 AI2BMD 的机器学习力场。此外,通过同时高效利用 CPU 和 GPU,我们还设计了 AI2BMD 的模拟系统,实现了比一年前提速百倍的模拟速度,并将 AI 驱动的模拟加速至每步仅需十到一百毫秒。
最终我们将 AI2BMD 在能量、力、自由能、J-耦合和多种性质计算中,对数十种蛋白质进行了验证,并在药物开发竞赛中应用了 AI2BMD,均获得了理想的结果。
Q:进行这项研究的方法论是什么?
王童:不同专业知识的融合协作是 AI2BMD 研究成功的关键。我们的团队由具有生物学、化学、物理学、数学、计算机科学和工程学背景的科研人员组成。此外,我们还与许多分子动力学模拟领域的资深专家进行了交流与合作,他们提供了很多非常有建设性的建议。
另外一个我想强调的关键是,要从非预期的结果中不断学习。在科学研究的过程中,失败是不可避免的。对此我们要做的是积极面对,不断分析失败原因,并相应地调整我们的算法和模型。对于一个研究课题来说,没有完美的解决方案,我们总是在路上。
Q:从去年的预印本到今年发表在《自然》杂志上,我们看到 AI2BMD 的技术设计和实验结果有了很多的升级,请大概介绍一下最新版的功能特点以及创新之处。
王童:2023年夏天我们在预印本平台 bioRxiv 上发布了 AI2BMD 手稿的初步版本。在近一年半的时间中 AI2BMD 取得了两个重要的升级。第一个是 AI2BMD 的模拟速度提升了数百倍,成为目前最快的 AI 驱动分子动力学模拟系统之一,并能够进行比以前更长时间的模拟。第二个是 AI2BMD 被应用于许多蛋白质性质的计算,如焓、热容量、折叠自由能、pKa 等指标上。
Q:AI2BMD 是如何实现如此显著的加速效果的?在系统设计上有哪些独特之处?
毕然:AI2BMD 的模拟系统有多个模块。除了优化代码来提升各个模块的运算速度,我们还需要考虑如何在满足各个模块依赖关系的前提下,把有限的计算资源合理分配给各个模块,从而使得整体模拟速度在不同蛋白大小、计算单元配比下都能够再次得到提升。
Q:作为一个基于人工智能的生物分子量子级精度动力学模拟系统,AI2BMD 对生物学和 AI 研究有何意义?它又将对现实世界带来哪些影响?
王童:对于生物学,AI2BMD 提供了一种比过去几十年使用的方法都更加准确的方法,来模拟蛋白质动态运动,并研究生物活性。对于人工智能,AI2BMD 证明了 AI 可以在动态蛋白质结构研究中发挥重大作用,这甚至超越了 AI 在蛋白质静态结构预测中的应用。
这将为药物和靶蛋白复合物提供具有量子级模拟精度的结合自由能计算,检测经典力学模拟无法达到的更灵活的生物分子构象变化,并为酶工程、疫苗和抗体设计创造更多机会。
Q:与 GHDDI 的合作可以说是在实际应用中的一种尝试,那么双方的契机以及合作愿景是什么?
刘海广:药物通常作用在生物大分子上,也就是常说的靶点。蛋白质分子是目前最重要的药物靶点,AI2BMD 对此有两个方面的主要应用:一个是,对蛋白质的结构有动态描述,尤其是发现更多有价值的结构,从而可以更全面地认识靶点;另外一个就是更加准确地计算靶点蛋白与药物分子(或者备选分子)的物理化学相互作用。在与 GHDDI 的交流过程中,大家都对这个方法寄予厚望。我们希望能够通过计算的方法对靶点与药物分子的相互作用获得更准确的定量信息,从而加速药物研发。
Q:在整个研究过程中,大家有哪些感悟?对于 AI for Science 领域或者从事跨学科研究的科研人员来说,最想要分享的经验是什么?
王童:我想从三个方面分享一点研究过程中的体会。首先是目标高远。探索一个颠覆性的研究主题虽然困难重重,但它的意义比做十个渐进的工作都更大。在多年的研究中,微软研究院始终鼓励我们做有影响力的“大事”。
其次是坚持。我记得一位计算机科学家曾说过,研究过程中约90%的时间是经历失败与挫折。当对一个全新的方向进行研究时,这个比例甚至更高。在 AI2BMD 研究中,当我们遇到无法解决的研究瓶颈数月之久,当我们收到审稿人的批评意见,当有团队成员想要放弃时,我总是鼓励大家再坚持一下,我们会成功的。当然,坚持的基础是要确保你的研究方向有意义,并且能够不断从失败和批评反馈中调整你的方法。
第三是现实世界的应用。我们的目标是利用人工智能推动科学进步。提出科学问题是第一步,然后开发 AI 工具并在基准上进行评估,更重要的是,检验其在实际应用中的有用性,并进一步开发你的 AI 算法。通过这种方式,你就完成了 AI 科学研究的闭环。
刘海广:如今人工智能已经开始改变我们日常生活的方方面面。大家也意识到,在科学研究领域,AI 也有巨大的潜力,能够帮助我们加速科学发现和拓展科学前沿。AI for Science 这个命题已经不是口号,而是真实的应用,而且其范围正在扩大,以更快的速度扩大。作为一个新的研究范式,AI for Science 也面临很多不确定和挑战。其中一个就是如何进行跨学科合作,这也是我们团队积极探索、学习的一个重要课题。
Q:在这个领域还有哪些未解的问题?AI2BMD 团队接下来的研究计划是什么?
王童:我认为 AI2BMD 是 AI 驱动生物分子动力学时代的起点。在这个新领域中有许多新的科学问题和挑战。例如,如何将模拟的分子从蛋白质扩展到其他类型的生物分子;如何在模拟过程中描述生化反应;如何进一步提高模拟效率和鲁棒性;以及如何将其应用于更多的现实世界场景。我们期待与更多学术界和工业界的同仁合作,共同推动这个新领域的前沿发展。