使用某中心Parabricks提升变异检测准确性
专为数据科学家和生物信息学家设计的某中心Parabricks是一个可扩展的基因组学二级分析软件套件。它提供GPU加速版本的开源工具,以提高分析速度和准确性,使研究人员能够更快地获得生物学见解。
最新版本Parabricks v4.6对多项功能进行了改进,最显著的是支持某机构的DeepVariant和DeepSomatic 1.9。这包括了DeepVariant的pangenome-aware模式,该模式提高了跨遗传变异和不同人群分析的准确性。
新功能:
- DeepVariant和DeepSomatic 1.9,包括pangenome-aware DeepVariant。
- DeepSomatic长读长和全外显子组测序支持。
- STAR的quantMode,包括GeneCounts。
改进功能:
- STAR加速:在两个某中心RTX PRO 6000 GPU上,相比仅使用CPU的解决方案,速度提升近8倍。
- 为Mutectcaller增加了额外参数,包括线粒体模式。
使用DeepVariant和DeepSomatic 1.9改进变异检测
变异检测是基因组分析的关键步骤。它能识别样本基因组(例如个体或群体)与参考基因组之间的差异。理解这些遗传差异有助于科学家更好地了解疾病和潜在的治疗方法。
目前有各种各样的工具用于变异检测,包括来自Broad研究所的基因组分析工具包(GATK)中的HaplotypeCaller和Mutect2。除了GATK的行业标准工具外,基于深度学习的变异检测工具也已得到广泛应用。
由某机构开发的DeepVariant和DeepSomatic使用深度学习来支持变异识别。对于种系数据,DeepVariant确定遗传性变异。而DeepSomatic则显示了体细胞变异如何影响非遗传性突变,包括在肿瘤细胞中发现的突变。
提高变异检测的准确性至关重要,尤其是在考虑遗传多样性时。根据最近的一篇论文,与基于线性参考的DeepVariant相比,pangenome-aware DeepVariant在所有设置下将错误减少了高达25.5%。
结合Giraffe和DeepVariant v1.9进一步提升准确性
传统的线性参考,包括基因组参考联盟人类构建38(GRCh38),仅基于少数个体的DNA构建,为基因组研究提供了一个通用坐标系统。然而,这些参考并未捕捉到更广泛人类群体中存在的全部遗传变异谱。因此,重要的亚群体多样性往往未被充分代表。这可能会给后续分析带来偏差,例如读段比对和变异检测,可能会遗漏或错误解释与祖先或疾病相关的重要遗传差异。
与线性参考不同,pangenome通过整合来自不同个体的多个高质量基因组来构建,捕捉了人类群体中更广泛的遗传变异范围。这种综合方法减少了参考偏差,改善了跨人群的变异检测,并支持更准确和公平的基因组分析。由加州大学圣克鲁兹分校研究人员开发的软件工具Giraffe,能够实现对pangenome图的高效读段比对。
Giraffe将基因组序列比对到参考pangenome,而不是传统的线性参考,从而提高了跨不同人群的变异检测准确性。将Giraffe与DeepVariant的pangenome-aware模式(现已在Parabricks v4.6中提供)相结合,不仅提高了已识别变异的准确性,还提供了Parabricks GPU加速的速度。
准确性:根据pangenome-aware DeepVariant的结果,开源pangenome-aware DeepVariant比BWA更准确,获得了以下F1分数:
- Pangenome-aware DeepVariant: SNP: 0.9981 | Indel: 0.9971
- BWA: SNP: 0.9973 | Indel: 0.9968
速度:利用Parabricks中的GPU加速,Giraffe和DeepVariant的运行时间实现了超过14倍的加速,对比在四个某中心RTX PRO 6000 GPU上使用仅CPU的Giraffe和pangenome-aware模式的DeepVariant。
开始使用Giraffe和DeepVariant
Parabricks的现有用户可以在提供以下文件后运行DeepVariant:
- 来自Giraffe索引文件的适当FASTA参考文件。
- 运行Giraffe后输出的BAM文件和图形GPZ文件。
有关获取这些文件的说明,请参阅专注于在变异检测工作流中使用Giraffe的Parabricks Giraffe文档。以下步骤也将指导您完成整个过程。
步骤 1
运行基线VG以从图形生成FASTA文件。
请注意,使用基线VG的步骤1只需运行一次。一旦您从图形获得了FASTA文件,就不需要再次运行步骤1。相反,运行步骤2和步骤3来处理更多的FASTQ样本。
# 提取与路径列表对应的序列到FASTA文件dockerrun --rm --volume$(pwd):/workdir\--workdir /workdir\quay.io/vgteam/vg:v1.59.0\vg paths -x hprc-v1.1-mc-grch38.gbz -p hprc-v1.1-mc-grch38.paths.sub -F>hprc-v1.1-mc-grch38.fa# 索引fasta文件samtools faidx hprc-v1.1-mc-grch38.fa步骤 2
接下来,正常运行Giraffe。
# 此命令假定所有输入都在当前工作目录中,所有输出也放置在同一位置。dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun giraffe --read-group"sample_rg1"\--sample"sample-name"--read-group-library"library"\--read-group-platform"platform"--read-group-pu"pu"\--dist-name /workdir/hprc-v1.1-mc-grch38.dist\--minimizer-name /workdir/hprc-v1.1-mc-grch38.min\--gbz-name /workdir/hprc-v1.1-mc-grch38.gbz\--ref-paths /workdir/hprc-v1.1-mc-grch38.paths.sub\--in-fq /workdir/${INPUT_FASTQ_1}/workdir/${INPUT_FASTQ_2}\--out-bam /outputdir/${OUTPUT_BAM}步骤 3
最后,这三个文件可以用作DeepVariant的输入。使用来自步骤2的BAM、来自步骤1的FASTA以及图形GBZ文件运行pangenome_aware_deepvariant。
# Pangenome_aware_deepvariant# 此命令假定所有输入都在当前工作目录中,所有输出也放置在同一位置。dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun pangenome_aware_deepvariant\--ref /workdir/hprc-v1.1-mc-grch38.fa\--pangenome /workdir/hprc-v1.1-mc-grch38.gbz\--in-bam /workdir/${INPUT_BAM}\--out-variants /outputdir/${OUTPUT_VCF}STAR改进:包括quantMode GeneCounts
除了DeepVariant的pangenome-aware模式外,Parabricks的最新版本还包括对STAR的改进。STAR是一个用于加速RNA测序比对的工具。它因其在跨测序平台的RNA-seq数据上的速度和准确性以及对大型数据集的可扩展性而特别有用。STAR已可在Parabricks中使用,并且得益于GPU加速,其速度得到进一步提升——在两个某中心RTX PRO 6000 GPU上,相比仅使用CPU的解决方案,实现了近8倍的加速。
在Parabricks的最新版本中,quantMode GeneCounts是STAR的一个新可用选项,对于基因表达、质量控制、标准化和数据整合等多种应用非常有价值。在比对的映射步骤中,quantMode GeneCounts能够快速生成基因水平的读段计数。
开始使用STAR
QuantMode GeneCounts可以作为参数添加到STAR中运行。示例命令如下。
dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun rna_fq2bam\--genome-lib-dir${GENOME_DIR}\--in-fq${FASTQ1}${FASTQ2}\--output-dir${OUT_DIR}\--ref${GENOME}\--out-bam${OUT_BAM}\--num-gpus${GPU_NUM}\--quantMode GeneCounts更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)