Lilian bio photo

Email

Github

iSOM-GSN:一种通过自组织图将多组学数据转化为基因相似性网络的综合方法

文献来源:bioinformatics/ 2020.8 /温莎大学计算机科学学院

Abstract&introduction

overview

在基因交互数据上应用图卷积神经网络 (CNN) 的主要挑战之一是缺乏对它们所属的向量空间的理解,以及在显着较低的维度上表示这些交互所涉及的固有困难,即欧几里得空间。在处理各种类型的异构数据时,挑战变得更加普遍。文章介绍了一种系统的、通用的方法,称为iSOM-GSN用于将具有更高维度的“多组学”数据转换到二维网格上。之后,应用 CNN 来预测各种类型的疾病状态。基于 Kohonen 的自组织图的思想,为代表基因相似性网络的一组给定基因的每个样本生成一个 2D 网格。

使用 SOM 和 CNN 的框架,用于同时进行数据集成、表示学习、降维、特征选择和分类,以充分利用集成的高维、大规模癌症基因组数据的潜力 用于整合其他类型的多组数据并预测疾病的任何临床方面或状态,例如肿瘤的侧向性、生存能力或癌症亚型……

introduction

由于使用高分辨率微阵列和下一代测序,诸如“癌症基因组图谱”(TCGA) 等大型项目已经产生了大量的多维数据。这导致了多样化的多维数据,其中需要设计降维和表示学习方法来集成和分析这些数据。

已有的一些方法:
  • 提出算法 iCluster 和 iCluster+,利用潜变量模型和多组学数据的主成分分析,旨在将癌症数据聚类为亚型;尽管该方法表现良好,但它没有利用多组学数据
  • 结合基因表达和 DNA 甲基化来识别共表达基因的模块
  • 应用有监督的深度机器学习来解决一个非常相关的问题,例如 deepDrive,它根据基于突变的特征和基因相似性预测候选驱动基因网络(GSN)
  • 自编码器
  • SOM:用自组织图 (SOM) 将基因表达数据嵌入到较低维度的图中、使用 SOM 针对不同目标的基因表达数据生成集群、用 SOM 创建广义回归神经网络、提出的模型使用 SOM 基于词到向量模型对文档进行分类
已有方法的缺点

尽管这些工作被设计为使用嵌入和传统的机器学习方法,但在多组学数据集成中使用深度神经网络仍处于起步阶段。此外,这些方法不足以概括它们的多组学数据以预测疾病状态。更具体地说,这些模型都没有像我们在这项工作中所做的那样,将 SOM 用于表示学习的优势与用于图像分类的卷积神经网络 (CNN) 结合起来。此外,这些工作中的大多数缺乏揭示每种类型或癌症或特定临床变量或疾病状态的基因相关性的目的

本文工作

在本文中,提出了一种基于深度学习的方法,并用于通过整合多组学数据来预测疾病状态。我们称之为 iSOM-GSN 的方法,利用 SOM 的强大功能,通过使用基因表达数据将多组学数据转换为 GSN。然后将这些数据与其他基因组特征相结合,以提高预测准确性并帮助可视化。据我们所知,这是第一个使用 SOM 将多组学数据转换为 GSN 进行表征学习,并使用 CNN 对疾病状态或其他临床特征进行分类的深度学习模型。

这项工作的主要贡献可以总结如下:

  1. 一种使用 iSOM-GSN 预测肿瘤侵袭性和进展的深度学习方法;
  2. 通过 SOM 获得 GSN 的新策略;
  3. 使用 iSOM-GSN 来识别相关的生物标志物,而无需手工制作的特征工程;
  4. 解释和可视化多维、多组学数据的增强方案;
  5. 图表示学习和降维的有效模型。

materials & methods

Data

考虑了两个数据集:TCGA 前列腺腺癌 (PRCA)和 TCGA 乳腺癌(BRCA),PRCA 和 BRCA 的样本总数分别为 499 和 570,数据集包含大量基因表达特征,约 60 000 个特征。

  1. 虽然有些特征的值全为零,但有些特征非常稀疏。通过删除方差低于 0.2% 的那些特征来应用过滤步骤。结果,具有至少 80% 零值的特征被删除,特征数量减少到 16 000 个。
  2. 然后将数据在所有组学的通用尺度上标准化,包括 DNA 甲基化和拷贝数改变 (CNA) 数据。基因名称以 HUGO 格式保存,并且删除了 HUGO 认为不相关的名称
  3. 然后根据患者 ID 组合所有三种类型的数据,分别产生 387 名和 392 名患者的 PRCA 和 BRCA 数据,包含所有三种所需的组学数据

MutsigCV 用于进一步预处理数据。MutsigCV 算法通过基于基因表达数据构建患者特异性突变模型来识别显着突变的基因。该方法将整个基因组或外显子组序列作为输入,并识别突变更频繁的基因。通过观察基因中的突变是否显着超过基于背景模型的预期计数来发现显着性水平(p值)。然后计算错误发现率(q值),并且基因与(q≤ 0.1q≤0.1)被分离为显着突变。从 MutsigCV 获得的前 14 个突变基因被考虑用于其余的实验。

methods

iSOM-GSN 遵循三步法:

  1. 通过从一种数据类型(本文是基因表达数据)中提取特征来创建 GSN。
  2. 对于每个样本,我们通过考虑从第一步中提取的特征来整合所有数据类型。
  3. 应用 CNN 进行分类训练和测试,以 70:30 的比例分割以测试模型。



假设输入是一组矩阵,i代表样本,j代表基因,o代表组学类型

n为样本总是,m为基因总数,p为组学数

对于文献理解点击此处:组会report:iSOM-GSN