news 2026/2/10 1:03:59

提升基因变异检测准确性的GPU加速技术与pangenome方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
提升基因变异检测准确性的GPU加速技术与pangenome方法

使用某中心Parabricks提升变异检测准确性

专为数据科学家和生物信息学家设计的某中心Parabricks是一个可扩展的基因组学二级分析软件套件。它提供GPU加速版本的开源工具,以提高分析速度和准确性,使研究人员能够更快地获得生物学见解。

最新版本Parabricks v4.6对多项功能进行了改进,最显著的是支持某机构的DeepVariant和DeepSomatic 1.9。这包括了DeepVariant的pangenome-aware模式,该模式提高了跨遗传变异和不同人群分析的准确性。

新功能:

  • DeepVariant和DeepSomatic 1.9,包括pangenome-aware DeepVariant。
  • DeepSomatic长读长和全外显子组测序支持。
  • STAR的quantMode,包括GeneCounts。

改进功能:

  • STAR加速:在两个某中心RTX PRO 6000 GPU上,相比仅使用CPU的解决方案,速度提升近8倍。
  • 为Mutectcaller增加了额外参数,包括线粒体模式。

使用DeepVariant和DeepSomatic 1.9改进变异检测

变异检测是基因组分析的关键步骤。它能识别样本基因组(例如个体或群体)与参考基因组之间的差异。理解这些遗传差异有助于科学家更好地了解疾病和潜在的治疗方法。

目前有各种各样的工具用于变异检测,包括来自Broad研究所的基因组分析工具包(GATK)中的HaplotypeCaller和Mutect2。除了GATK的行业标准工具外,基于深度学习的变异检测工具也已得到广泛应用。

由某机构开发的DeepVariant和DeepSomatic使用深度学习来支持变异识别。对于种系数据,DeepVariant确定遗传性变异。而DeepSomatic则显示了体细胞变异如何影响非遗传性突变,包括在肿瘤细胞中发现的突变。

提高变异检测的准确性至关重要,尤其是在考虑遗传多样性时。根据最近的一篇论文,与基于线性参考的DeepVariant相比,pangenome-aware DeepVariant在所有设置下将错误减少了高达25.5%。

结合Giraffe和DeepVariant v1.9进一步提升准确性

传统的线性参考,包括基因组参考联盟人类构建38(GRCh38),仅基于少数个体的DNA构建,为基因组研究提供了一个通用坐标系统。然而,这些参考并未捕捉到更广泛人类群体中存在的全部遗传变异谱。因此,重要的亚群体多样性往往未被充分代表。这可能会给后续分析带来偏差,例如读段比对和变异检测,可能会遗漏或错误解释与祖先或疾病相关的重要遗传差异。

与线性参考不同,pangenome通过整合来自不同个体的多个高质量基因组来构建,捕捉了人类群体中更广泛的遗传变异范围。这种综合方法减少了参考偏差,改善了跨人群的变异检测,并支持更准确和公平的基因组分析。由加州大学圣克鲁兹分校研究人员开发的软件工具Giraffe,能够实现对pangenome图的高效读段比对。

Giraffe将基因组序列比对到参考pangenome,而不是传统的线性参考,从而提高了跨不同人群的变异检测准确性。将Giraffe与DeepVariant的pangenome-aware模式(现已在Parabricks v4.6中提供)相结合,不仅提高了已识别变异的准确性,还提供了Parabricks GPU加速的速度。

准确性:根据pangenome-aware DeepVariant的结果,开源pangenome-aware DeepVariant比BWA更准确,获得了以下F1分数:

  • Pangenome-aware DeepVariant: SNP: 0.9981 | Indel: 0.9971
  • BWA: SNP: 0.9973 | Indel: 0.9968

速度:利用Parabricks中的GPU加速,Giraffe和DeepVariant的运行时间实现了超过14倍的加速,对比在四个某中心RTX PRO 6000 GPU上使用仅CPU的Giraffe和pangenome-aware模式的DeepVariant。

开始使用Giraffe和DeepVariant

Parabricks的现有用户可以在提供以下文件后运行DeepVariant:

  1. 来自Giraffe索引文件的适当FASTA参考文件。
  2. 运行Giraffe后输出的BAM文件和图形GPZ文件。

有关获取这些文件的说明,请参阅专注于在变异检测工作流中使用Giraffe的Parabricks Giraffe文档。以下步骤也将指导您完成整个过程。

步骤 1
运行基线VG以从图形生成FASTA文件。
请注意,使用基线VG的步骤1只需运行一次。一旦您从图形获得了FASTA文件,就不需要再次运行步骤1。相反,运行步骤2和步骤3来处理更多的FASTQ样本。

# 提取与路径列表对应的序列到FASTA文件dockerrun --rm --volume$(pwd):/workdir\--workdir /workdir\quay.io/vgteam/vg:v1.59.0\vg paths -x hprc-v1.1-mc-grch38.gbz -p hprc-v1.1-mc-grch38.paths.sub -F>hprc-v1.1-mc-grch38.fa# 索引fasta文件samtools faidx hprc-v1.1-mc-grch38.fa

步骤 2
接下来,正常运行Giraffe。

# 此命令假定所有输入都在当前工作目录中,所有输出也放置在同一位置。dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun giraffe --read-group"sample_rg1"\--sample"sample-name"--read-group-library"library"\--read-group-platform"platform"--read-group-pu"pu"\--dist-name /workdir/hprc-v1.1-mc-grch38.dist\--minimizer-name /workdir/hprc-v1.1-mc-grch38.min\--gbz-name /workdir/hprc-v1.1-mc-grch38.gbz\--ref-paths /workdir/hprc-v1.1-mc-grch38.paths.sub\--in-fq /workdir/${INPUT_FASTQ_1}/workdir/${INPUT_FASTQ_2}\--out-bam /outputdir/${OUTPUT_BAM}

步骤 3
最后,这三个文件可以用作DeepVariant的输入。使用来自步骤2的BAM、来自步骤1的FASTA以及图形GBZ文件运行pangenome_aware_deepvariant。

# Pangenome_aware_deepvariant# 此命令假定所有输入都在当前工作目录中,所有输出也放置在同一位置。dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun pangenome_aware_deepvariant\--ref /workdir/hprc-v1.1-mc-grch38.fa\--pangenome /workdir/hprc-v1.1-mc-grch38.gbz\--in-bam /workdir/${INPUT_BAM}\--out-variants /outputdir/${OUTPUT_VCF}

STAR改进:包括quantMode GeneCounts

除了DeepVariant的pangenome-aware模式外,Parabricks的最新版本还包括对STAR的改进。STAR是一个用于加速RNA测序比对的工具。它因其在跨测序平台的RNA-seq数据上的速度和准确性以及对大型数据集的可扩展性而特别有用。STAR已可在Parabricks中使用,并且得益于GPU加速,其速度得到进一步提升——在两个某中心RTX PRO 6000 GPU上,相比仅使用CPU的解决方案,实现了近8倍的加速。

在Parabricks的最新版本中,quantMode GeneCounts是STAR的一个新可用选项,对于基因表达、质量控制、标准化和数据整合等多种应用非常有价值。在比对的映射步骤中,quantMode GeneCounts能够快速生成基因水平的读段计数。

开始使用STAR

QuantMode GeneCounts可以作为参数添加到STAR中运行。示例命令如下。

dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun rna_fq2bam\--genome-lib-dir${GENOME_DIR}\--in-fq${FASTQ1}${FASTQ2}\--output-dir${OUT_DIR}\--ref${GENOME}\--out-bam${OUT_BAM}\--num-gpus${GPU_NUM}\--quantMode GeneCounts

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/7 5:13:42

Open-AutoGLM模型应用全解析(AI Agent开发秘籍)

第一章:Open-AutoGLM模型应用全解析(AI Agent开发秘籍)Open-AutoGLM 是新一代开源自动语言生成模型,专为构建智能 AI Agent 提供底层支持。其核心优势在于任务自分解、上下文感知决策与多工具协同调用能力,适用于自动化…

作者头像 李华
网站建设 2026/2/4 14:24:18

从零构建智能Agent,Open-AutoGLM框架应用全解析,资深架构师亲授秘诀

第一章:从零起步——智能Agent与Open-AutoGLM框架概述在人工智能技术迅猛发展的今天,智能Agent已成为实现复杂任务自动化的核心组件。智能Agent能够感知环境、理解用户意图,并通过调用工具或模型做出决策。Open-AutoGLM 是一个开源的智能Agen…

作者头像 李华
网站建设 2026/2/5 11:25:41

揭秘Open-AutoGLM和DeepSeek核心技术路径:谁才是企业级大模型首选?

第一章:揭秘Open-AutoGLM和DeepSeek核心技术路径:谁才是企业级大模型首选?在企业级大语言模型选型中,Open-AutoGLM 与 DeepSeek 因其高性能推理与定制化能力脱颖而出。二者虽均面向工业场景优化,但在架构设计与技术路径…

作者头像 李华
网站建设 2026/2/9 7:32:39

一篇文章带你搞懂 AI 的完整技术路线

你是否也想真正理解AI,而不只是会用ChatGPT?deepseek? 今天,我用一张图、三个层次、五个要点,带你看透AI的全貌。读完这篇文章,你不仅知道怎么用AI,更能理解它为什么这么智能。 一、先搞清楚&a…

作者头像 李华
网站建设 2026/2/7 0:02:12

零成本体验模型微调?技术小白魔搭+LLaMa Factory 跑通全流程

“ 教育孩子和训练AI的共同真相:没有一蹴而就的‘完美’,只有持续迭代的‘更好’ ” Hello,大家好~~ 许久不见,现在大热的 AI 学习中,总是手痒忍不住也想实操各项技术玩一把,今天就…

作者头像 李华
网站建设 2026/2/7 6:35:01

Truffle 配置中provider和(host/port)两种方式配置网络连接的区别

在 Truffle 配置中,provider 和 (host/port) 是两种不同的方式配置网络连接,它们的主要区别如下: 1. host/port 方式(传统方式) networks: {development: {host: 127.0.0.1,port: 8545,network_id: *} }特点: 简单直接:明确指定 IP 和端口 Truffle 自动创建 provider:…

作者头像 李华