生成人工智能想象新的蛋白质结构 |麻省理工学院新闻



麻省理工学院新闻 FrameDiff 0

生物学是一幅奇妙而又精致的挂毯。核心是DNA,它是编码蛋白质的主要编织者,负责协调维持人体内生命的许多生物功能。然而,我们的身体就像一架精密调音的乐器,很容易失去和谐。毕竟,我们面临着不断变化、无情的自然世界:病原体、病毒、疾病和癌症。 

想象一下,如果我们能够加快为新出现的病原体研制疫苗或药物的过程。如果我们拥有能够自动产生蛋白质来纠正导致癌症的 DNA 错误的基因编辑技术会怎样?寻找能够与靶标牢固结合或加速化学反应的蛋白质对于药物开发、诊断和众多工业应用至关重要,但这往往是一项旷日持久且成本高昂的工作。

为了提高我们在蛋白质工程方面的能力,麻省理工学院 CSAIL 研究人员提出了“FrameDiff”,这是一种计算工具,用于创建超越自然产生的新蛋白质结构。机器学习方法生成与蛋白质结构的固有特性相一致的“框架”,使其能够独立于预先存在的设计构建新的蛋白质,从而促进前所未有的蛋白质结构。

“本质上,蛋白质设计是一个缓慢燃烧的过程,需要数百万年的时间。我们的技术旨在为解决比自然发展速度快得多的人为问题提供答案,”麻省理工学院 CSAIL 博士生 Jason Yim 说道,他是一篇有关这项工作的新论文的主要作者。 “关于生成合成蛋白质结构的新能力,我们的目标是开启无数增强的功能,例如更好的结合剂。这意味着工程蛋白质可以更有效、更有选择性地附着到其他分子上,这对靶向药物输送和生物技术具有广泛的影响,可能会导致更好的生物传感器的开发。它还可能对生物医学及其他领域产生影响,提供诸如开发更有效的光合作用蛋白质、创造更有效的抗体以及用于基因治疗的工程纳米颗粒等可能性。” 

帧帧差异

蛋白质具有复杂的结构,由许多通过化学键连接的原子组成。决定蛋白质 3D 形状的最重要原子称为“主链”,有点像蛋白质的脊柱。主链上的每个三联体原子共享相同的键模式和原子类型。研究人员注意到,这种模式可以利用微分几何和概率的思想来构建机器学习算法。这就是框架的用武之地:从数学上讲,这些三元组可以建模为称为“框架”(物理中常见)的刚体,它们在 3D 中具有位置和旋转。 

这些框架为每个三元组提供了足够的信息来了解其空间环境。然后,机器学习算法的任务是学习如何移动每个框架来构建蛋白质主干。通过学习构建现有蛋白质,该算法有望泛化并能够创建自然界中从未见过的新蛋白质。

训练模型通过“扩散”构建蛋白质涉及注入噪声,随机移动所有帧并模糊原始蛋白质的外观。该算法的工作是移动和旋转每一帧,直到它看起来像原始蛋白质。虽然很简单,但框架上扩散的发展需要黎曼流形上的随机微积分技术。在理论方面,研究人员开发了“SE(3)扩散”来学习概率分布,该概率分布将每个框架的平移和旋转分量非平凡地连接起来。

扩散的微妙艺术

2021 年,DeepMind 推出了 AlphaFold2,这是一种深度学习算法,用于根据序列预测 3D 蛋白质结构。创建合成蛋白质时,有两个基本步骤:生成和预测。生成意味着创建新的蛋白质结构和序列,而“预测”意味着弄清楚序列的 3D 结构是什么。 AlphaFold2 也使用框架来模拟蛋白质并非巧合。 SE(3) 扩散和 FrameDiff 受到启发,通过将帧合并到扩散模型中来进一步采用帧的概念,扩散模型是一种生成人工智能技术,在图像生成中非常流行,例如 Midjourney。 

蛋白质结构生成和预测之间共享的框架和原理意味着两端的最佳模型是兼容的。与华盛顿大学蛋白质设计研究所合作,SE(3) 扩散已被用于创建和实验验证新型蛋白质。具体来说,他们将 SE(3) 扩散与 RosettaFold2(一种与 AlphaFold2 非常相似的蛋白质结构预测工具)结合起来,从而产生了“RFdiffusion”。这种新工具使蛋白质设计者更接近解决生物技术中的关键问题,包括开发用于加速疫苗设计的高度特异性蛋白质结合剂、用于基因传递的对称蛋白质工程以及用于精确酶设计的强大基序支架。 

FrameDiff 未来的努力包括提高结合了药物等生物制品多种要求的问题的通用性。另一个扩展是将模型推广到所有生物形态,包括 DNA 和小分子。该团队认为,通过扩展 FrameDiff 对更大量数据的训练并增强其优化过程,它可以生成具有与 RFdiffusion 同等设计能力的基础结构,同时保留 FrameDiff 固有的简单性。 

哈佛大学计算生物学家 Sergey Ovchinnikov 表示:“放弃 [FrameDiff] 中的预训练结构预测模型,为快速生成大长度结构提供了可能性。”研究人员的创新方法为克服当前结构预测模型的局限性迈出了有希望的一步。尽管这仍是初步工作,但这是朝着正确方向迈出的令人鼓舞的一步。因此,由于麻省理工学院研究团队的开创性工作,蛋白质设计在解决人类最紧迫的挑战中发挥着关键作用,这一愿景似乎越来越触手可及。” 

Yim 与哥伦比亚大学博士后 Brian Trippe、法国国家科学研究中心巴黎数据科学中心研究员 Valentin De Bortoli、剑桥大学博士后 Emile Mathieu、牛津大学统计学教授兼 DeepMind 高级研究科学家 Arnaud Doucet 一起撰写了这篇论文。麻省理工学院教授 Regina Barzilay 和 Tommi Jaakkola 为这项研究提供了建议。 

该团队的工作部分得到了麻省理工学院安利捷健康机器学习诊所、EPSRC 拨款以及微软研究院与剑桥大学之间的繁荣合作伙伴关系、国家科学基金会研究生研究奖学金计划、NSF 探险拨款、机器学习的支持药物发现和合成联盟、DTRA 针对新威胁和新兴威胁的医学对策发现计划、DARPA 加速分子发现计划和赛诺菲计算抗体设计赠款。这项研究将于七月在国际机器学习会议上发表。



来源链接

发表评论

您的电子邮件地址不会被公开。 必需的地方已做标记 *

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

zh_CNChinese