新的深度学习工具以高精度设计新型蛋白质

贝克实验室的这款新软件设计了在湿实验室中实际工作的蛋白质。你也可以用它来设计你自己的蛋白质,就在网上。 ——这将会发生,我预计贝克实验室会是第一个报告它的小组。但老实说,我没想到它会这么快发生:反转一个类似 AlphaFold 的神经网络,为其提供 3D 结构,并从中获取相应折叠的蛋白质序列。这由…

A new era for protein design

新的深度学习工具以高精度设计新型蛋白质

贝克实验室的这款新软件设计了在湿实验室中实际工作的蛋白质。你也可以用它来设计你自己的蛋白质,就在网上。

这将会发生,我预计贝克实验室会是第一个报告它的小组。但老实说,我没想到它会这么快发生:

反转类似 AlphaFold 的神经网络,为其提供 3D 结构并从中获取相应折叠的蛋白质序列。这本身并没有很好地工作,但它激发了基于机器学习的蛋白质设计的进一步策略。最终,这个名为 ProteinMPNN 的工具问世了,科学家们现在可以使用它来设计可以根据需要折叠(并因此起作用)的蛋白质。

ColabFold 甚至是 ProteinMPNN 的网络应用程序版本已经上线供所有人使用。

蛋白质结构和蛋白质设计

正如我在之前关于 AlphaFold 和蛋白质建模的文章(请参阅此处的索引)中所述,蛋白质序列决定了蛋白质如何获得 3D 结构(折叠),这反过来又决定了它可以发挥什么功能,以及它的稳定性、溶解度等(对生物学家来说:我将抛开整个其他的内在无序蛋白质世界。)[0]

解决相反的问题通常很有趣:给定一个应该通过给定 3D 结构实现的功能(或给定任何其他想要优化的特性,例如稳定性),我们需要什么蛋白质序列(或什么突变在起始序列上)?

这个问题通常是创造蛋白质设计;它有几个特定于目标的子问题,其中从头开始创建整个蛋白质是最困难的。

到目前为止,虽然稳定现有蛋白质等子问题越来越多地通过机器学习解决,但从头开始创建全新蛋白质序列的问题主要通过基于物理的方法来处理。毫无疑问,该领域的领导小组是西雅图华盛顿大学的贝克实验室,它实际上正在运行一个完整的蛋白质设计研究所。

这个小组也是蛋白质建模程序(如 RoseTTAFold)的开发者(比 AlphaFold 鲜为人知,但显然几乎一样准确)很快看到了旨在预测蛋白质结构的新机器学习技术如何被逆转以预测哪些序列会按照需要折叠。这个问题看似微不足道,但涉及到几个计算机工程挑战,然后是蛋白质设计活动通常遇到的终极障碍:通过实验合成预测的蛋白质并验证它们是否真正按预期折叠,如果它们执行预期的功能甚至更好。

到目前为止,贝克实验室最好的工具是 Rosetta 工具箱,它是一种基于主要基于物理模型的蛋白质结构预测和设计的多元工具。尽管在高影响力期刊上发表了一些令人惊叹的蛋白质设计,但事实是成功率非常低:只有一小部分 Rosetta 设计实际上可以折叠并按预期工作。

用于蛋白质设计的机器学习

现在,贝克实验室创建了一个名为 ProteinMPNN 的全新工具,它建立在机器学习的基础上,可以从预期的结构中生成蛋白质序列。尽管许多工作已经对此进行了理论化,但 ProteinMPNN 是第一个通过实验手段证明可以实际产生蛋白质序列的方法,该序列很有可能按预期折叠。换句话说,这意味着当小组的实验部分拿了程序产生的设计序列,并试图在湿实验室中产生编码的蛋白质时,他们实际上得到了它们;此外,当他们解决了他们的结构时,他们匹配了预期的结构,在许多情况下还具有预期的功能。

顾名思义,ProteinMPNN 是围绕消息传递神经网络 (MPNN) 构建的。这项工作中使用的核心 MPNN 建立在以前的工作之上,甚至是 pre-AlphaFold2 !

起始网络由 3 个编码器层和 3 个解码器层以及 128 个隐藏维度组成,并使用从 CA 位置构建的蛋白质骨架几何特征(CA 是氨基酸的中心碳原子)以自回归方式从 N 到 C 末端预测蛋白质序列.新工作通过结合 N、C 和 O 主链原子的位置以及虚拟 CB 原子,以及改进网络的传播方式,对此进行了改进。

ProteinMPNN 网络通过编码器模块传递 N、CA、C、O 和虚拟 CB 原子之间的距离来获取图形节点和边。然后,这些特征通过解码器模块转换为蛋白质序列每个位点的氨基酸概率,该解码器模块从一组所有可能的排列中随机采样氨基酸。最后,可以将最高概率转换为精确的蛋白质序列,然后尝试在湿实验室中生产这些候选蛋白质。 (通常会通过实验测试一组可能的序列,以最大限度地提高其中一个工作的机会,甚至在此之前,通常会对候选设计进行深入的人工专家检查——但这超出了本文的范围和重点。)

新的深度学习工具以高精度设计新型蛋白质

非常重要的是,当原始 MPNN 解码从 N 到 C 末端的序列时,ProteinMPNN 随机执行此操作并允许用户预设(和固定)某些氨基酸。这样,蛋白质序列围绕固定部分构建,这些固定部分通常包括想要固定以实现功能的区域。例如,如果一个人想要设计一种将其展示在其表面上以用作疫苗的蛋白质,则一个表位,或者如果一个人打算设计一种与其结合的蛋白质,甚至是一个完整的蛋白质。

主要测试和应用

首先,通过在蛋白质数据库中的数千个高分辨率结构上训练 ProteinMPNN 模型,作者发现扩展的几何描述确实有助于更好地恢复已知序列,其性能明显优于仅使用 CA 位置。此外,经过充分训练的模型比标准的基于 Rosetta 的方法更好地恢复序列。

接下来,通过优化骨架几何形状影响氨基酸同一性的范围,作者得出结论,性能“仅”在 32-48 个邻居处达到饱和。这意味着模型相对较小,因此运行速度非常快。事实上,正如他们报告的那样,ProteinMPNN 的运行速度比他们的 Rosetta 协议快 200 倍以上——除了产生更好的设计。

最后,作者验证了通过 AlphaFold 2 运行设计的序列会导致设计的反向预测——这是一个独立的迹象,表明该序列很有可能正确折叠。

Applications

如果设计的蛋白质实际上不起作用,或者至少它们按预期折叠,那么这些都不会在炒作中幸存下来。嗯,正如预印本所显示的,大部分设计的序列都非常可溶,具有高表达水平,并且结晶良好。如此之多,以至于作者提出了一些案例,他们挽救了他们曾与 Rosetta 一起尝试过的失败设计。

作者还表明,与基于 AlphaFold 2 的蛋白质序列幻觉的替代方法相比,ProteinMPNN 产生更逼真的蛋白质。AlphaFold 提出的蛋白质包含太多疏水簇,导致不溶性,而 ProteinMPNN 的设计在很大程度上更易溶解 – 也稳定,并且在确定结构的情况下,也非常接近设计。

此外,ProteinMPNN 的蛋白质被证明实际上可以按设计折叠,包括单体、环状同源寡聚体、四面体纳米颗粒和靶结合蛋白,后者对于生产新型疫苗、蛋白质开关和其他具有由结合介导的生物技术应用的蛋白质至关重要。

在我结束这篇文章时,Baker 实验室发布了第二份预印本,它展示了 ProteinMPNN 在设计各种对称蛋白质同源寡聚体中的具体应用,仅给出了蛋白质拷贝数和氨基数的规范。蛋白质中的酸。当然,通过实验证明蛋白质按预期折叠。

在亮点中,作者描述了具有超过 1500 个氨基酸、复杂对称性和宽(10 纳米)开口的巨型环的设计。这些例子与蛋白质数据库中可用的结构有很大不同,强调可以创建的新蛋白质结构的丰富多样性并不局限于已知的结构。总体而言,这项工作可以为设计更复杂的基于蛋白质的纳米机器铺平道路,例如用于 DNA 传感的纳米孔、纳米马达、抗病毒纳米粒子等。

您将在最后建议的阅读材料中找到两个预印本的链接。

结束语以及今天如何自己使用 ProteinMPNN

最新版本的结构预测关键评估 (CASP) 揭示的是,像 AlphaFold 这样的机器学习模型可以很好地预测蛋白质结构。现在,它们的逆转开辟了一个新领域:创造出我们想要折叠的新蛋白质。事实上,正如该工作的第一作者在推特上所说,ProteinMPNN 已成为“蛋白质设计研究所的标准方法”,因为“实验成功率高且适用于几乎所有蛋白质序列设计问题”:[0]

该工具可作为“快速演示”笔记本使用,但可能很快会出现更多笔记本:

这已经被打包(来自 EPFL Tech4Impact 的 Simon Duerr 工作)到 HuggingFace 网络应用程序中,您现在可以立即使用它进行测试:[0]

这是一个示例运行,氨基酸概率和 10 个建议的蛋白质序列 – 结果在不到 5 秒内获得:

新的深度学习工具以高精度设计新型蛋白质

阅读资料和相关资源

  • Dauparas 等人的方法的完整介绍的预印本:
  • Wicky 等人在创新蛋白质组装方面的应用预印本:
  • 另一个最近的预印本,只是理论上的,它还展示了一个模型,该模型对蛋白质序列和结构进行采样以适应给定的基序——本质上是一项设计任务:

(并在其第一作者的 Twitter 线程中查看此预印本摘要)[0]

  • 华盛顿大学贝克实验室:
  • Related blog entries:

www.lucianoabriata.com 我撰写和拍摄我广泛兴趣范围内的所有内容:自然、科学、技术、编程等。成为 Medium 会员以访问其所有故事(平台的附属链接)没有成本的收入)并订阅以通过电子邮件获取我的新故事。要咨询小型工作,请在此处查看我的服务页面。你可以在这里联系我。[0][1][2][3][4]

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2022年6月14日 上午11:35
下一篇 2022年6月14日

相关推荐