蛋白质是在体内执行关键细胞功能的天然分子,是所有疾病的组成部分。表征蛋白质可以揭示疾病的机制,包括减缓或逆转疾病的方法,而创造蛋白质可以带来全新类别的药物和疗法。
但从计算和人力资源的角度来看,目前在实验室中设计蛋白质的过程成本高昂。它需要提出一种可以在体内执行特定任务的蛋白质结构,然后找到可能“折叠”到该结构中的蛋白质序列(构成蛋白质的氨基酸序列)。 (蛋白质必须正确折叠成三维形状才能发挥其预期功能。)
它不一定非得这么复杂。
本周,微软推出了一个通用框架EvoDiff,该公司声称可以根据给定的蛋白质序列生成“高保真”、“多样化”的蛋白质。与其他蛋白质生成框架不同,EvoDiff 不需要任何有关目标蛋白质的结构信息,省去了通常最费力的步骤。
微软高级研究员 Kevin Yang 表示,EvoDiff 是开源的,可用于创建用于新疗法和药物输送方法的酶,以及用于工业化学反应的新酶。
“我们设想 EvoDiff 将扩展蛋白质工程的能力,超越结构-功能范式,转向可编程、序列优先的设计,”EvoDiff 的联合创始人之一杨在电子邮件采访中告诉 TechCrunch。“通过 EvoDiff,我们证明我们实际上可能不需要结构,而是‘蛋白质序列就是你所需要的’来可控地设计新蛋白质。”
EvoDiff 框架的核心是一个包含 6.4 亿个参数的模型,该模型根据来自所有不同物种和蛋白质功能类别的数据进行训练。(“参数”是从训练数据中学习的 AI 模型的一部分,本质上定义了模型解决问题的技能 - 在本例中生成蛋白质。)训练模型的数据来源于用于序列比对的 OpenFold 数据集UniRef50,UniProt 数据的子集,UniProt 联盟维护的蛋白质序列和功能信息数据库。
EvoDiff 是一种扩散模型,其架构类似于许多现代图像生成模型,例如稳定扩散和DALL-E 2。EvoDiff 学习如何逐渐从几乎完全由噪音组成的起始蛋白质中减去噪音,使其慢慢地、一步一步地接近蛋白质序列。
EvoDiff 生成蛋白质的过程
扩散模型已越来越多地应用于图像生成之外的领域,从设计新型蛋白质(如 EvoDiff)到创作音乐甚至合成语音。
“如果要从 EvoDiff 中汲取一件事,我认为我们可以而且应该通过序列进行蛋白质生成,因为我们能够实现通用性、规模化和模块化,” EvoDiff 的另一位共同贡献者、微软高级研究员 Ava Amini 通过电子邮件表示。“我们的扩散框架使我们有能力做到这一点,并控制我们如何设计这些蛋白质以满足特定的功能目标。”
Amini 认为,EvoDiff 不仅可以创造新的蛋白质,还可以填补现有蛋白质设计中的“空白”。例如,如果蛋白质的一部分与另一种蛋白质结合,模型可以围绕该部分生成满足一组标准的蛋白质氨基酸序列。
由于 EvoDiff 在“序列空间”而不是蛋白质结构中设计蛋白质,因此它还可以合成最终不会折叠成最终三维结构的“无序蛋白质”。与正常功能蛋白质一样,无序蛋白质在生物学和疾病中发挥着重要作用,例如增强或降低其他蛋白质活性。
现在,应该指出的是,EvoDiff 背后的研究尚未经过同行评审——至少还没有。为该项目做出贡献的微软数据科学家 Sarah Alamdari 承认,在该框架投入商业使用之前,还有“更多的扩展工作”要做。
“这只是一个包含 6.4 亿参数的模型,如果我们扩展到数十亿个参数,我们可能会看到生成质量的提高,”Alamdari 通过电子邮件说道。“虽然我们演示了一些粗粒度的策略,但为了实现更细粒度的控制,我们希望根据文本、化学信息或其他方式来调节 EvoDiff 来指定所需的功能。”
下一步,EvoDiff 团队计划测试模型在实验室生成的蛋白质,以确定它们是否可行。如果事实证明是这样,他们将开始开发下一代框架。