蛋白质设计的下一步是什么?微软研究人员推出 EvoDiff:用于序列优先蛋白质工程的突破性人工智能框架


当涉及到新型蛋白质的计算机创建时,深度生成模型正在成为越来越有效的工具。扩散模型是一类生成模型,最近被证明可以生成与自然界中看到的任何实际蛋白质不同的生理上合理的蛋白质,它可以在从头蛋白质设计中提供无与伦比的能力和控制。然而,当前最先进的模型构建蛋白质结构,这严重限制了其训练数据的广度,并将世代限制在蛋白质设计空间的微小且有偏差的部分。微软研究人员开发了 EvoDiff,这是一种通用扩散框架,通过将进化规模数据与扩散模型的独特调节能力相结合,可以在序列空间中创建可调节的蛋白质。 EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。 EvoDiff 可以构建基于结构的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架,这一事实证明了基于序列的公式的普遍性。他们希望 EvoDiff 将为蛋白质工程中的可编程、序列优先设计铺平道路,使他们能够超越结构功能范式。 

EvoDiff 是一种新颖的生成模型系统,用于仅从序列数据创建可编程蛋白质,该系统是通过将进化规模数据集与扩散模型相结合而开发的。他们使用离散扩散框架,其中正向过程通过改变其氨基酸特性来迭代地破坏蛋白质序列,并且由神经网络参数化的学习反向过程利用自然框架来预测每次迭代时所做的变化。蛋白质作为氨基酸语言上离散标记的序列。

可以使用反向方法从头开始创建蛋白质序列。与蛋白质结构设计中传统使用的连续扩散公式相比,EvoDiff 中使用的离散扩散公式在数学上取得了显着的改进。多重序列比对 (MSA) 突出显示相关蛋白质组的氨基酸序列的保守模式和变异,从而捕获单个蛋白质序列进化规模数据集之外的进化联系。为了利用这种额外深度的进化信息,他们构建了在 MSA 上训练的离散扩散模型,以产生新颖的单系。

为了说明其在可调谐蛋白质设计方面的功效,研究人员在一系列生成活动中检查了序列和 MSA 模型(分别为 EvoDiff-Seq 和 EvoDiff-MSA)。他们首先证明 EvoDiff-Seq 能够可靠地产生高质量、多样化的蛋白质,准确反映自然界蛋白质的组成和功能。 EvoDiff-MSA 通过比对具有相似但独特进化历史的蛋白质来引导新序列的开发。最后,他们表明 EvoDiff 可以可靠地生成具有 IDR 的蛋白质,直接克服基于结构的生成模型的关键限制,并且可以通过利用基于扩散的建模框架的调节功能,在没有任何显式结构信息的情况下生成功能结构基序的支架及其在通用设计空间中的基础。

为了生成具有基于序列限制条件调节的可能性的多样化新蛋白质,研究人员提出了 EvoDiff,一种扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff 可以通过从序列数据生成本质上无序的区域和支架结构基序,无条件地采样结构合理的蛋白质多样性。在蛋白质序列进化中,EvoDiff 是第一个展示扩散生成模型功效的深度学习框架。

在未来的研究中,可以将通过指导进行的调节(其中创建的序列可以迭代调整以满足所需的质量)添加到这些功能中。 EvoDiff-D3PM 框架很适合通过指导进行条件调节,因为序列中每个残基的身份都可以在每个解码步骤中进行编辑。然而,研究人员观察到,OADM 在无条件生成方面通常优于 D3PM,这可能是因为 OADM 去噪任务比 D3PM 更容易学习。不幸的是,OADM 和其他现有的条件 LRAR 模型(如 ProGen)降低了指导的有效性(54)。预计新的蛋白质序列将通过调节 EvoDiff-D3PM 的功能目标(例如序列功能分类器描述的目标)来生成。

EvoDiff 的数据要求极低,这意味着它可以轻松适应后续用途,而这只有通过基于结构的方法才能实现。研究人员表明,EvoDiff 可以通过修复来创建 IDR,无需微调,从而避免了基于结构的预测和生成模型的经典陷阱。获取大型测序数据集结构的高昂成本可能会阻止研究人员使用新的生物、医学或科学设计选项,这些选项可以通过在特定于应用程序的数据集(例如来自显示库或大型屏幕的数据集)上微调 EvoDiff 来解锁。尽管 AlphaFold 和相关算法可以预测许多序列的结构,但它们在点突变方面遇到困难,并且在指示虚假蛋白质的结构时可能过于自信。

研究人员展示了几种通过脚手架和修复来调节生产的粗粒度方法;然而,EvoDiff 可能以文本、化学信息或其他方式为条件,以提供对蛋白质功能更细粒度的控制。未来,这种可调节蛋白质序列设计的概念将以各种方式得到应用。例如,有条件设计的转录因子或核酸内切酶可用于以编程方式调节核酸;生物制剂可以针对体内递送和运输进行优化;酶底物特异性的零次调整可以开辟全新的催化途径。

数据集

Uniref50 是一个包含研究人员使用的约 4200 万个蛋白质序列的数据集。 MSA 来自 OpenFold 数据集,其中包括 16,000,000 个 UniClust30 集群和 401,381 个 MSA,涵盖 140,000 个不同的 PDB 链。有关 IDR(本质无序区域)的信息来自反向同源 GitHub。

研究人员采用 RFDiffusion 基线来应对支架结构图案挑战。在 example/scaffolding-pdbs 文件夹中,您将找到可用于有条件生成序列的 pdb 和 fasta 文件。 example/scaffolding-msas 文件夹还包含可用于根据特定条件创建 MSA 的 pdb 文件。

当前型号

研究人员对两者进行了研究,以确定哪种离散数据模式的前向传播技术最有效。在顺序无关的自回归分布 OADM 的每个大胆步骤中,一个氨基酸都会转化为唯一的掩码标记。完整的序列在一定数量的阶段后被隐藏。该小组还开发了离散去噪扩散概率模型(D3PM),专门针对蛋白质序列。在 EvoDiff-D3PM 的前向阶段,根据转换矩阵采样突变会破坏线。这种情况一直持续到序列无法再与氨基酸上的统一样本区分开来为止,这会在几个步骤之后发生。在所有情况下,恢复阶段都涉及重新训练神经网络模型以消除损坏。对于 EvoDiff-OADM 和 EvoDiff-D3PM,训练后的模型可以从屏蔽标记序列或均匀采样的氨基酸序列中生成新序列。他们使用首次在 CARP 蛋白掩码语言模型中看到的扩张卷积神经网络架构,在 UniRef50 的 42M 序列上训练所有 EvoDiff 序列模型。对于每个前向损坏方案和 LRAR 解码,他们开发了具有 38M 和 640M 训练参数的版本。

主要特征

  • 为了生成可管理的蛋白质序列,EvoDiff 将进化规模数据与扩散模型相结合。 
  • EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。
  • 除了生成具有无序部分和基于结构的模型无法获得的其他特征的蛋白质外,EvoDiff 还可以生成功能性结构基序的支架,证明了基于序列的配方的普遍适用性。

总之,微软科学家发布了一套离散扩散模型,可用于进行基于序列的蛋白质工程和设计。可以扩展 EvoDiff 模型以进行基于结构或功能的引导设计,并且它们可以立即用于无条件、进化引导和条件创建蛋白质序列。他们希望通过直接用蛋白质语言读取和写入过程,EvoDiff 将为可编程蛋白质创造开辟新的可能性。


查看 预印纸GitHub这项研究的所有功劳都归功于该项目的研究人员。另外,别忘了加入 我们的 30k+ ML SubReddit, 40k+ Facebook 社区, 不和谐频道, 和 电子邮件通讯,我们在这里分享最新的人工智能研究新闻、酷炫的人工智能项目等等。

如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。


20221028 101632 丹斯里神外

Dhanshree Shenwai 是一名计算机科学工程师,在金融、卡与支付以及银行领域的金融科技公司拥有丰富的经验,对人工智能的应用有着浓厚的兴趣。她热衷于在当今不断发展的世界中探索新技术和进步,让每个人的生活变得轻松。




来源链接

发表评论

您的电子邮件地址不会被公开。 必需的地方已做标记 *

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

zh_CNChinese