有学员评价 Galaxy 平台出的火山图有点丑:
这图确实难言美观。平台其实有好几个火山图工具
• 有基于 EnhancedVolcano 包的
• 有基于 ggplot2 的
上图就是 EnhancedVolcano 包的效果。不过画成这样,也有别的关系:
• 比如基因太多。应该把没表达,或者低表达的基因先过滤一下
• 此外 p 值设定,以及坐标轴的范围控制也有问题。
总之,这效果离发表级确实有点远。
既然现有工具的绘制效果差强人意,而火山图本质是一个散点图,为了使用方便,我们干脆再封装一个更适合用于发表的:
•Volcano Plotwith Publication-Quality (Galaxy Version 1.0)
效果如下:
测试数据
我们先来生成一份测试数据,下面代码来源于 EnhancedVolcano 包的文档:
library(airway) library(magrittr) library(EnhancedVolcano) data('airway') airway$dex %<>% relevel('untrt') colData(airway) # 转换基因符号 ens <- rownames(airway) library(org.Hs.eg.db) symbols <- mapIds(org.Hs.eg.db, keys = ens, column = c('SYMBOL'), keytype = 'ENSEMBL') symbols <- symbols[!is.na(symbols)] symbols <- symbols[match(rownames(airway), names(symbols))] rownames(airway) <- symbols keep <- !is.na(rownames(airway)) airway <- airway[keep,] assays(airway)[[1]] # DESeq2差异分析 library('DESeq2') dds <- DESeqDataSet(airway, design = ~ cell + dex) dds <- DESeq(dds, betaPrior=FALSE) res <- results(dds, contrast = c('dex','trt','untrt')) res <- lfcShrink(dds, contrast = c('dex','trt','untrt'), res=res, type = 'normal') res EnhancedVolcano(res, lab = rownames(res), x = 'log2FoldChange', y = 'pvalue', title = 'N061011 versus N61311', pCutoff = 10e-32, FCcutoff = 0.5, pointSize = 3.0, labSize = 6.0) res$GeneID = rownames(res) out = res[, c('GeneID', 'log2FoldChange', 'pvalue')] write.table(out, 'airway_deg.tsv', sep='\t', row.names = F, quote=F)EnhancedVolcano 绘制效果,我们后续作图跟该图进行比较:
完成差异分析后,我们将这 3 列(GeneID, log2FoldChange, pvalue)保存到一个文件 airway_deg.tsv 中,然后上传到平台。
开始作图
工具:Volcano Plotwith Publication-Quality (Galaxy Version 1.0)
参数设置:
•差异表达分析结果表:airway_deg.tsv
•阈值与坐标
•显著性阈值 (padj / FDR / qvalue):10e-32
•差异倍数阈值 (log2FoldChange threshold):0.5
•Y 轴显示范围:150.0
• 高级设置
•Y 轴标签:-log10 p-value
结果如下:
这个图就清爽多了。
标记基因
很多时候我们希望标记一些感兴趣的基因,可以将这些基因通过一个文件传给工具。
我们先用 filter 工具筛选一下显著差异基因,参数设置如下:
• 注:这个阈值设定供用于测试,实际一般不这样设置。
可以看到有 123 个显著差异基因,都画在图上有点多,我们取 top 20 吧,这里用于 **Select first **工具:
结果:
我们接着再 Cut 一下,将基因一列切出来:
重命名一下,结果:
现在重新作图,除了修改参数:
其他参数跟前面设置完全一样。
标记感兴趣的基因后的效果:
还可以吧。
写在最后
此文并非说 EnhancedVolcano 或者 ggplot2 包的效果不行。它们都非常优秀,并且广受好评。只不过对于作图,每个人的审美偏好不同。作为平台,只有丰富工具的品种,以满足丰富多样的个性化需求。
推荐阅读
中国银河生信云平台(UseGalaxy.cn)致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程,并且为用户提供 200G 免费存储空间。进群交流请先加 usegalaxy 为好友。我们还为进阶用户提供高质量培训课程:
RNA-seq数据分析实战 | 2026年第1期,开启你的生信学习之旅