Lilian bio photo

Email

Github

Customics:一种基于深度学习的多组学集成策略。

PLOS COMPUTATIONAL BIOLOGY, March 6, 2023

Abstract

  • 具有几种类型组学数据的患者队列的可用性为探索疾病潜在的生物学过程和开发预测模型打开了新的视角。 它也给计算生物学带来了新的挑战,即以一种捕捉多个基因及其功能之间的相互关系的方式集成高维和异构数据
  • 本文中回顾了现有的基于自动编码器的集成策略,并提出一种新的可定制的集成策略,原理依赖于两阶段方法:第二阶段学习跨模态交互之前,对每个数据源进行独立的训练。 通过考虑每个源的奇异性,证明了该方法比其他策略更有效地利用了所有源数据
  • 通过适应Shapley加性解释的计算,提供可解释的结果。
  • 在几个任务的测试案例上证明了所提方法在癌症方面的性能,如肿瘤类型和乳腺癌亚型的分类,以及生存结果预测。 通过实验证明了我们的体系结构在七个不同大小的数据集上的良好性能
  • 原文代码:https://github.com/hakimbenkirane/customics

introduction

背景

  • 随着高通量技术的出现,多组学数据越来越多地用于描述患者的分子画像,尤其是在肿瘤学方面
  • 一些研究和项目已经提供了以几个分子来源为特征的队列数据。 例如,癌症基因组图谱(TCGA,https://portal.gdc.cancer.gov/)已经对数以千计的肿瘤样本进行了多种分子分析,并提供了几种类型的数据,如基因组测序、RNA测序、DNA甲基化、蛋白质组学等。
  • 数据的高度多样性带来了两个重大挑战
    • 与数据的高维度相关联的。 由于人类分子图谱的遗传复杂性,组学数据通常受到“维度诅咒”的困扰,这是一种由较少样本数而高样本数所导致的现象。 这种高维空间通常包含相关特征,导致高冗余,降低了算法的预测性能.
    • 数据的异质性:组学数据来源于不同的来源,表达了人类生物系统中不同的现象,因此组学数据非常多样化。 例如,转录组学和蛋白质组学与其他组学数据的归一化不同,在分析前使用不同的标度,导致不同的范围和数据分布;像代谢组学这样的组学数据也会产生稀疏性,因为一些变量可能低于检测极限,因此被分配为空值

Relative works

在过去的几年里,多组学整合已经成为健康科学和精准医学中非常活跃的研究课题,为研究与癌症相关的生物学过程提供了新的见解。

  • 为了研究癌症背后的各种复杂分子系统,人们提出了多种统计学习方法。 统计领域中最著名的方法之一是主成分分析(PCA)。 从这个标准模型的几个变化已经被探索,包括多因素分析,共识主成分分析,和多块主成分分析

所有这些方法都试图将主成分方法扩展到一个多源框架,将每个源视为一个不同的块。

  • 另一种与主成分分析相似的方法是张等人首先提出的非负矩阵分解。它使用了与PCA相同的原理,但考虑了非负约束而不是正交约束。这类方法可以分为几类,包括贝叶斯方法和基于网络的方法

贝叶斯方法使用关于数据分布和相关性的假设来建立统计模型,基于网络的方法依赖于网络表示,可以识别疾病相关机制的模块。节点代表基因,边代表这些基因之间的关联。 已经探索了其他更具体的方法,主要用于聚类。

  • 另一个用于集成聚类的多组学方法是ICLUSTER,它使用了与NMF相同的思想,但没有非负约束,并且允许数据分布的更多多样性。

卡斯皮等人通过开发多组学和单细胞图谱数据的多对比途径富集,探索了多组学数据的基因集富集分析,以快速准确的可视化,允许更直接的解释。

  • 随着深度学习在许多医学应用(如医学成像和诊断)中作为新的最先进的方法的兴起,一些研究已经探索了这些方法在多组学数据集成中的应用。 这些方法的主要用途是自动编码器。例如在生存预测的背景下,用于多组学集成的变分自动编码器框架Omivae为标准表示学习和用于多任务学习的Omiembed引入了新的改进。

到目前为止,还没有基准研究探索和比较多任务学习中多组学数据集成的不同深度学习方法和策略。

本文工作

  • 这项工作首先讨论了整合高维多源数据以从多组学数据集中学习低维潜在表示的策略。 然后引入了一种新的可定制的多组学集成体系结构,称为Customics,它结合了不同策略的优点,并减轻了它们的一些局限性。
  • 为了评估这种新方法在不同的测试案例中对分类和生存任务的影响:首先,作者将它应用于泛癌数据集,然后研究它如何处理更小的数据集,首先在一个乳腺癌数据集上进行亚型分类,然后在五个不同的数据集上进行生存结果预测。 文章还提供了一个新的包来帮助生物信息学家和计算生物学家构建DeepLearning架构,该架构可以在多种策略之间快速切换,以适应特定的用例。

Mixed-integration / custOmics

该集成策略将为构建多组学集成的可定制体系结构奠定基础。 所提出的方法是一个分层混合集成,由每个源的一个自动编码器组成,该自动编码器创建一个子表示,然后将被馈送到一个中心变分自动编码器。 这一新的整合战略得益于两个培训阶段。 第一阶段将作为一个标准化过程:每个源将单独训练,以学习一个更紧凑的表示,以更少的噪声综合其信息。 这将有助于集成,因为我们将失去所有的不平衡问题之间的来源,并避免失去焦点时,一个来源具有较低的维数或较弱的信号比其他。 第二阶段将构成学习的子表征之间的简单联合集成,同时仍然训练所有编码器微调这些表征,因为一些信号在其他源的存在下得到增强。

对于中心层的正则化损失,KL发散可能是推广的障碍。 如文[36]所述,KL散度存在各种问题。 首先,模型可能无法学习输入的有意义的表示。 事实上,KL散度有时可能限制太大,自然倾向于使潜在代码成为来自Pθ(z)的随机样本。 二是KL散度可以使模型过拟合,学习到一个方差趋于无穷大的潜在代码。 因此,我们将使用最大均值差异(MMD)来评估分布之间的距离。 这个距离建立在两个分布相同的基础上,只有当它们的矩相同时才是相同的。

此外,在第一个训练阶段,这个损失将被分配给每个OMIC特定的网络,以便在联合集成阶段之前创建足够的子表示。

Results

Classification results

我们首先对泛癌数据集执行分类任务。 每种结构都与一个人工神经网络分类器相耦合,该分类器由两个隐含层组成,分别含有256和128个神经元。 该网络采用分类交叉熵损失训练,隐层采用RELU激活函数,输出层采用Softmax激活函数。

图3和表1和表2显示了总体分类结果(更多细节可以在S3表中找到)。 在阶乘方法中,MFA取得了最好的效果,因此我们将该方法与人工神经网络分类器和深度学习表示方法相结合,作为比较的基础。 然而,它的性能不如大多数深度学习方法。 这是因为与深度学习架构不同,MFA无法揭示不同源之间的非线性关系。 此外,由于MFA是一个早期积分,它还存在与早期积分相关的信号不平衡问题。

我们还通过将自定义网络插入到与阶乘方法相同的ANN分类器中,评估了自定义网络给出的无监督表示的性能。 与其他类似的无监督方法(如阶乘方法)相比,这种无监督设置表现得相当好,即使不增加任务损失,也能显示定制学习的表示的鲁棒性。

此外,我们可以在表1中看到,总的来说,变分自动编码器比标准自动编码器性能更好,这让我们在为定制选择变分设置时感到欣慰。 正如前面所暗示的,我们可以看到,对于深度学习策略来说,早期集成在性能上落后于其他策略。 这可以解释为在确定肿瘤类型或亚型时,RNA-SEQ数据保留了更多的信号。 因此,在向VAE输入源之前将它们连接起来会使其他源黯然失色,学习的表示主要依赖于RNA-SEQ数据,而不是利用其他模式。

尤其值得注意的是,尽管转录组学数据表现出最高的性能,但其他组学来源也成功地提供了额外的信息。这是因为转录组学数据能够预测肿瘤类型和分子亚型等关键信息,而S1图表明,与其他数据类型相比,转录组学数据能够在较少的层级下收敛到最佳结果。计算成本方面,各种方法在可训练参数方面基本相当,定制化方法的轻微参数增加是为了阶段1中间网络的需求,类似于后续集成设置。