保姆级教程：从零开始，用Scanpy和Leiden算法给你的单细胞数据分个类-平芜编程栈

单细胞转录组聚类实战：Scanpy与Leiden算法全流程解析

单细胞RNA测序技术正在彻底改变我们对复杂生物系统的理解能力。当您手中已经握有一份经过严格质量控制（QC）和标准化的单细胞数据集时，如何从这些海量的基因表达数据中识别出有生物学意义的细胞亚群？本文将带您深入探索基于Scanpy工具包和Leiden算法的完整聚类分析流程，从原理到实践，一步步揭开单细胞转录组聚类分析的神秘面纱。

1. 环境准备与数据加载

在开始聚类分析之前，确保您已经完成了以下准备工作：

Python环境（推荐3.8+版本）
安装必要的包：pip install scanpy leidenalg umap-learn
准备经过预处理（QC、归一化）的h5ad格式单细胞数据

数据加载是分析的第一步，也是关键的基础环节。Scanpy提供了多种数据读取方式，对于10x Genomics平台产生的数据，可以使用sc.read_10x_mtx函数：

import scanpy as sc adata = sc.read_10x_mtx( 'path/to/filtered_gene_bc_matrices/', var_names='gene_symbols', cache=True ) adata.var_names_make_unique()

注意：var_names参数的选择会影响后续分析。使用'gene_symbols'时，线粒体基因能够被自动识别（以MT-开头），而'gene_ids'则可能需要额外处理。

2. 数据预处理与特征选择

高质量的聚类结果依赖于合理的数据预处理。这一阶段主要包括三个关键步骤：

高变基因筛选：仅保留在不同细胞间表达差异显著的基因，减少噪声干扰
数据标准化：消除技术因素导致的表达量差异
线性回归校正：去除不必要的变异来源（如测序深度、线粒体含量）

# 高变基因筛选 sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5) adata = adata[:, adata.var.highly_variable] # 数据标准化与回归校正 sc.pp.regress_out(adata, ['total_counts', 'pct_counts_mt']) sc.pp.scale(adata, max_value=10)

高变基因的选择直接影响后续分析结果。下表展示了不同参数设置对高变基因数量的影响：

参数组合	min_mean	max_mean	min_disp	筛选基因数
宽松标准	0.01	4	0.3	2500+
适中标准	0.0125	3	0.5	1500-2000
严格标准	0.015	2.5	0.7	1000-1500

3. 降维与邻域图构建

单细胞数据的高维特性使得直接聚类变得困难。我们首先需要通过主成分分析（PCA）降低维度，然后构建细胞间的邻域关系图。

# PCA降维 sc.tl.pca(adata, svd_solver='arpack', n_comps=50) # 邻域图构建 sc.pp.neighbors(adata, n_neighbors=15, n_pcs=30)

两个关键参数需要特别注意：

n_neighbors：控制每个细胞考虑的邻近细胞数量，影响图的连通性
n_pcs：使用的PC数量，通常解释>70%方差的PC是合理选择

提示：可以通过sc.pl.pca_variance_ratio(adata)可视化各PC的贡献率，帮助确定合适的n_pcs值。

4. Leiden聚类算法实战

Leiden算法是当前单细胞分析中最先进的图聚类方法，相比传统的Louvain算法，它能产生更连通、更稳定的聚类结果。

# 执行Leiden聚类 sc.tl.leiden(adata, resolution=0.6) # 可视化聚类结果 sc.tl.umap(adata) sc.pl.umap(adata, color=['leiden'])

分辨率参数(resolution)的选择艺术：

低分辨率（0.2-0.4）：产生少量大类群
中等分辨率（0.5-0.8）：适用于大多数情况
高分辨率（1.0+）：识别更精细的亚群

下表比较了Leiden与Louvain算法的关键差异：

特性	Leiden算法	Louvain算法
聚类质量	更高模块度	相对较低
运行速度	略慢	更快
结果稳定性	更高	较低
社区内部连通性	保证强连通	不保证
参数敏感性	对分辨率更敏感	相对稳定

5. 聚类结果生物学解读

获得聚类结果后，下一步是赋予这些数字标签以生物学意义。这通常通过以下步骤实现：

差异表达分析：识别每个簇的特异性标记基因
已知标记基因比对：与文献报道的细胞类型标记基因对比
功能富集分析：探索簇特异性基因的生物学功能

# 寻找各簇的标记基因 sc.tl.rank_genes_groups(adata, 'leiden', method='wilcoxon') # 可视化前5个标记基因 sc.pl.rank_genes_groups(adata, n_genes=5, sharey=False)

常见的标记基因分析方法比较：

Wilcoxon秩和检验：最常用，平衡速度与准确性
t检验：假设数据正态分布，速度最快
逻辑回归：考虑基因间相关性，计算量最大

6. 高级技巧与问题排查

在实际分析中，您可能会遇到以下常见问题及解决方案：

问题1：聚类结果不稳定

检查数据预处理是否充分
尝试固定随机种子（sc.settings.set_figure_params(random_state=42)）
增加n_neighbors值

问题2：聚类过度碎片化

降低resolution参数
增加n_neighbors值
检查是否过度校正技术变异

问题3：重要细胞类型未被区分

提高resolution参数
检查是否过滤掉了高变基因
尝试不同的归一化方法

对于特别复杂的数据集，可以考虑以下进阶策略：

# 多分辨率聚类 for res in [0.3, 0.6, 0.9]: sc.tl.leiden(adata, resolution=res, key_added=f'leiden_res{res}') # 层次聚类整合 sc.tl.dendrogram(adata, groupby='leiden')

7. 结果可视化与报告生成

优秀的可视化能够直观展示聚类结果的质量和生物学意义。Scanpy提供了丰富的绘图函数：

# 标记基因点图 marker_genes = ['CD3D', 'CD79A', 'CST3', 'NKG7', 'PPBP'] sc.pl.dotplot(adata, marker_genes, groupby='leiden') # 小提琴图展示表达分布 sc.pl.violin(adata, ['n_genes', 'total_counts'], groupby='leiden') # 聚类关系树状图 sc.tl.dendrogram(adata, groupby='leiden') sc.pl.dendrogram(adata)

在项目最后，建议将关键结果和参数设置保存为可追溯的报告：

# 保存完整分析结果 adata.write('final_analysis.h5ad') # 导出聚类结果到CSV adata.obs[['leiden', 'n_genes', 'total_counts']].to_csv('cluster_results.csv')

保姆级教程：从零开始，用Scanpy和Leiden算法给你的单细胞数据分个类

单细胞转录组聚类实战：Scanpy与Leiden算法全流程解析

1. 环境准备与数据加载

2. 数据预处理与特征选择

3. 降维与邻域图构建

4. Leiden聚类算法实战

5. 聚类结果生物学解读

6. 高级技巧与问题排查

7. 结果可视化与报告生成

Zotero Duplicates Merger：5分钟智能合并重复文献的终极解决方案

手把手教你解决Android Studio报错：AGP版本不兼容（从8.3.0-alpha01降到8.1.3）

YOLO全系列可视化标注训练工具

WeChatDataAnalysis

解密“智能工程机械平台”：如何用一套代码重构万亿级工程管理生态？

构建无偏见AI系统：从数据到部署的公平性工程实践