谷歌DeepMind发布AlphaGenome:一种使用混合Transformer和U-Nets进行人基因组解码的统一序列到功能模型。
Google DeepMind正在将其生物工具包扩展到蛋白质折叠世界之外。在AlphaFold取得成功之后,谷歌的研究团队推出了AlphaGenome。这是一个针对序列到功能基因组学设计的统一深度学习模型。这代表着我们在模拟人类基因组方面的重大转变。AlphaGenome不将DNA视为简单的文本。相反,它处理100万个碱基对窗口的原始DNA来预测细胞的功能状态。
使用混合架构弥合规模差距
人类基因组的复杂性源于其规模。大多数现有模型在保持对细节的关注的同时,难以看清全局图景。AlphaGenome通过使用混合架构解决了这个问题。它结合了U-Net骨干网和Transformer块。这使得模型能够捕捉跨越1百万碱基序列的远程相互作用,同时保持碱基对分辨率。这就像是构建一个能够阅读一千页书籍并同时记住一个逗号的确切位置的系统。
将序列映射到功能生物模式
AlphaGenome是一个序列到功能模型。这意味着它的主要目标是直接将DNA序列映射到生物活性。这些活动通过基因组轨迹进行衡量。研究团队训练了AlphaGenome来预测11种不同的基因组模式。这些模式包括RNA-seq、CAGE和ATAC-seq。它们还包括针对不同转录因子的ChIP-seq和染色质接触图谱。通过同时预测所有这些轨迹,模型获得了对DNA如何调节细胞的整体理解。
基因组学的多任务学习力量
AlphaGenome的技术进步在于它能够同时处理11种不同的数据。在过去,研究人员通常为每个任务构建独立的模型。AlphaGenome使用多任务学习方法。这有助于模型学习不同生物过程中的共享特征。如果模型理解蛋白质如何与DNA结合,它可以更好地预测DNA将如何被表达为RNA。这种统一的方法减少了需要多个专业模型的需求。
通过蒸馏推进变异效应预测
AlphaGenome最重要的应用之一是变异效应预测(VEP)。这个过程确定DNA中单个突变如何影响身体。突变可能导致癌症或心脏病等疾病。AlphaGenome通过使用称为教师-学生蒸馏的特殊训练方法在这一点上表现出色。研究团队首先创建了一组“所有折叠”的教师模型。这些教师在大量基因组数据上进行训练。然后,他们将知识蒸馏到单个学生模型中。
为精准医疗压缩知识
这种蒸馏过程使模型既更快又更稳健。这是一种压缩知识的标准方法。然而,将其应用于这种规模的基因组学是新的里程碑。学生模型学会复制教师集成的高质量预测。这使得它可以以高精度识别有害突变。该模型甚至可以预测一个遥远的调控元件的突变如何影响DNA链上遥远的基因。
使用JAX和TPUs进行高性能计算
该架构使用JAX实现。JAX是一个高性能数值计算库。它通常用于谷歌的高规模机器学习。使用JAX允许AlphaGenome在TPU(张量处理单元)上高效运行。研究团队使用序列并行性来处理大量1百万碱基输入窗口。这确保了当序列长度增加时,内存需求不会爆炸。这显示了选择正确框架处理大规模生物数据的重要性。
为数据稀缺的细胞类型进行迁移学习
AlphaGenome也解决了某些细胞类型数据稀缺的挑战。因为它是一个基础模型,所以它可以针对特定任务进行微调。模型从大型公共数据集中学到一般的生物规则。然后,可以将这些规则应用于数据难以找到的罕见疾病或特定组织。这种迁移学习方法是AlphaGenome如此通用的原因之一。它甚至可以在主要针对肝细胞数据进行训练的情况下,预测基因在大脑细胞中的行为。
向个性化护理新时代迈进
在未来,AlphaGenome可能导致个性化医疗新时代的到来。医生可以使用该模型以1百万碱基对块的形式扫描患者的整个基因组。他们可以准确地识别出可能引起健康问题的变异。这将允许为个人特定的遗传代码量身定制的治疗方法。AlphaGenome通过提供一个清晰和准确的基因组功能图,使我们更接近这一现实。
为生物AI设定标准
AlphaGenome还标志着基因组学中AI的转折点。它证明我们可以使用与现代AI相同的原理来模拟最复杂的生物系统。通过结合U-Net结构和Transformer,并使用教师-学生蒸馏,Google DeepMind团队设立了一个新的标准。
关键要点
- 混合序列架构:AlphaGenome使用一种特殊的混合设计,结合了U-Net骨干网和Transformer块。这使得模型能够在处理1百万碱基对窗口的同时,保持识别单个突变所需的高分辨率。
- 多模态功能预测:该模型被训练同时预测11种不同的基因组模态,包括RNA-seq、CAGE和ATAC-seq。通过一起学习这些不同的生物轨迹,该系统获得了对DNA如何在不同组织中调节细胞活性的整体理解。
- 教师-学生蒸馏:为了在变异效应预测(VEP)中取得行业领先精度,研究人员使用了蒸馏方法。他们将高性能的教师模型集成的知识转移到单个更高效的学生模型中,这使得模型在识别致病突变方面更快、更稳健。
- 为高性能计算构建:该框架使用JAX实现并针对TPU进行了优化。通过使用序列并行性,AlphaGenome可以处理分析兆碱基序列的计算负荷,而不会超出内存限制,使其成为大规模研究的有力工具。