文章目录
- 介绍
- 代码
- 参考
介绍
肿瘤的异质性对癌症的发展和治疗反应有着显著影响,但从整体分子数据中对其进行量化仍颇具挑战性。解混算法(用于估算总体样本中细胞类型的比例)提供了一种潜在的解决方案。然而,对于转录组或甲基化组数据而言,关于最优算法的共识尚未形成。
在此,我们提出了一个无偏的评估框架,用于对两种组学类型(包括基于参考的和无参考的方法)的解混算法进行首次全面比较。我们的评估涵盖了原始性能、稳定性和计算效率,在各种条件下(如基因依赖性、缺失或额外的细胞类型以及多样化的样本组成)均进行了考量。我们将此框架应用于多个基准数据集,包括为本研究专门生成的新型多组学数据集。为了确保透明度和可复用性,我们使用容器化和公开可用的代码设计了一个可重复的工作流程。
我们的结果突显了各种算法的优势和局限性,并为根据数据类型和分析背景选择最佳方法提供了实用指导。这一基准为评估去卷积方法以及分析肿瘤异质性设定了新的标准。
在临床中,通常会对肿瘤的全转录组和甲基化组进行测量,以诊断和分类癌症患者。然而,这些数据的分析方式往往没有考虑到肿瘤内部的异质性,即肿瘤样本是由不同细胞类型组成的这一事实[1]。然而,肿瘤内部的异质性是一个关键参数,因为它会影响肿瘤的演变及其对治疗的反应[2, 3]。可以通过脱混工具从批量数据中提取这些信息,这些工具旨在预测样本中存在不同细胞类型的比例[1, 4]。脱混还可以用于量化非癌症数据中的异质性,但将癌症组织进行脱混是文献中最经典的使用案例。然而,对于使用哪种方法最为合适,目前还没有明确的共识[5, 6]。其次,据我们所知,目前没有多组学基准来参考,所以不清楚在进行脱混任务时,哪种组学是最容易分析的。
有两类去卷积算法。监督型(或基于参考的)方法使用一个参考特征矩阵来估算细胞类型的比例,而无监督型(或无参考的)方法则同时估算各细胞类型的比例以及每个细胞类型的参考分子特征。在监督类中,参考的准确性对于去卷积性能至关重要[7, 8]。关键点包括:参考中的细胞最好来自与要进行去卷积的细胞相同的组织环境(体内或体外),并且它们应包含预期的细胞类型[6, 7, 9]。更确切地说,大多数监督算法无法处理缺失的细胞类型。少数方法采用的一种解决方案被称为半监督方法,即允许预测未知成分[10]。另一方面,无监督方法不依赖于参考,从而避免了相关挑战,但其主要缺点包括问题的复杂性更高以及在去卷积过程中识别检索到的细胞类型的难度更大。事实上,已有研究表明,经过去卷积处理后得到的成分很可能就是样本中所含细胞类型的一种线性组合[2, 11]。
基于单细胞的方法能够解决脱卷积相关的问题,因为它能够直接对肿瘤内的异质性进行定量分析。然而,由于这些技术耗时且成本高昂,将其纳入医院患者的常规治疗标准目前还不可行。此外,单细胞技术并不能以相同概率捕获所有细胞类型,这使得细胞组成估计变得模糊[12]。相反,批量技术在医院中已经使用了很长时间,专注于这些数据的分析也将有助于利用已经生成的大量数据。不过,利用单细胞技术和批量技术都是可行的。策略是对少量样本的单细胞进行测序,以生成来自相同背景的参考图谱,并将其用于对其他样本的有监督脱卷积分析。我们没有包括基于单细胞的脱卷积方法,因为这些方法比基于批量的方法更新,这是出于两个主要原因。首先,整体转录组的特性与单细胞转录组的特性存在显著差异,这是因为组织处理和 RNA 筛选方法存在差异[13]。因此,使用单细胞参考数据可能会与使用整体参考数据的结果产生误导。事实上,此前的一项基准测试表明,基于第二代单细胞的方法并未优于最先进的基于整体的数据处理工具[14]。其次,目前没有基于单细胞的 DNA 甲基化解混方法。然而,基于第二代单细胞的方法非常强大,并且很可能会带来更优的解混方法[14, 15]。另一个方向是利用整体多组学方法,这也是此次基准测试的动机所在。
截至目前,已有多达大量的去卷积算法可供使用。已有许多基准测试被公布,以帮助生物信息学家根据其数据选择最佳工具(表 1)。然而,当前的基准测试存在一些缺陷:大多数测试包含的算法少于 10 种,它们并非都对真实世界数据集(称为银标准数据集)的排名结果进行了验证,而且除了一个之外,没有提供单一的综合排名。只有少数研究同时探讨了有监督和无监督方法,而且所有研究都只针对单个组学:要么是转录组学,要么是甲基化。最后,这些基准测试之间存在很大的差异,这可能是因为用于衡量性能的指标存在不一致之处[6]。
代码
https://github.com/bcm-uga/DeconvBenchmark
参考
- A robust workflow to benchmark deconvolution of multi-omic data
- https://github.com/bcm-uga/DeconvBenchmark