目标读者:具有生物/生物信息学背景、希望把统计学概念用于组学数据分析(RNA-seq、scRNA-seq、代谢组、临床关联分析等)的科研人员。
本文着重解释概念的数学原理、它们如何反映数据变化、在组学分析中常见的应用场景与注意点,并给出实用的可视化与报告示例。
导言:为什么生物信息需要统计学
生物信息学的数据特点:高维(成千上万的基因/特征)、异质(批次效应、平台差异)、稀疏或重尾(scRNA 的 dropout,RNA-seq 的计数分布)与有限样本(样本数远小于特征数)。在这种环境下,统计学不是“可选”,而是必需:
- 将噪声与信号区分(假阳性/假阴性控制);
- 以有限样本对总体做合理推断(置信与不确定性量化);
- 选择与评估模型(拟合优度、泛化能力);
- 报告可重复、可解释的证据(效应量、置信区间、可视化)。
统计学提供了一整套工具和语言(均值/方差/分布/检验/效应量等),使科研结论能经受重复实验与外部验证的检验。
统计学的基本构成
统计学主要由两大分支构成:描述性统计与推断性统计
描述性统计(Descriptive Statistics)
通过图表与数值指标,对已有数据的总体特征进行总结。它不涉及推断,只是“如实描述”。
核心问题:数据是什么样的?
常用内容包括:
集中趋势的描述:均值、中位数、众数
均值(mean,)样本的算术平均
反映数据整体水平的集中位置;对极端值非常敏感:一个离群点即可明显改变均值
使用注意
- 对偏态分布(如转录组表达量)不稳定
- 不适合描述严重偏斜的变量
中位数(Median)排序后处于中间位置的值
在RNA-seq数据标准化中常用(如DESeq2使用中位数比值法)
描述偏态表达分布(很多基因在大多数样本低表达,但少数样本高表达)时优于均值。常用于描述样本质量指标(如每个样本的 mapped reads)时的“典型”水平。
众数(mode)出现频率最高的数(或区间)。
表示“最常见”的类别或值。对连续变量通常先做离散化(bin)再求众数。
分类变量(细胞类型、注释标签)首选。若表达量呈多峰分布,众数能揭示主导模式。
分位数(Quantiles)将数据划分为等概率区间的切分点。
常见的有:四分位数:Q1(25%)、Q2(中位数,50%)、Q3(75%)
基因表达数据的上下调分析(如取上下25%作为高/低表达)质量控制中的异常检测
应用:基因表达数据的上下调分析(如取上下25%作为高/低表达);质量控制中的异常检测等
离散程度的描述:方差、标准差、四分位距
描述数据“散开”或“变异”程度,关键在于度量方式的敏感性与可解释性。
方差(Variance)
原理:把每个点与均值的偏差平方后平均,放大了远离均值点的权重(平方效应),这对检出大幅离群值有利,但减少了直观单位的可读性(单位是原变量平方)。
生物信息学场景:在差异表达模型中(例如 t-test),方差用于标准误的计算;RNA-seq 上常见的方差随均值增长(mean-variance relationship),需要用模型(如 negative binomial)专门建模。
注意:方差受极端值影响大。若关注“典型”变异,使用 IQR 更稳健。
标准差(standard deviation, SD)
定义:方差的平方根,单位与原变量一致:
表示数据平均偏离均值的大小,常与均值配对报道(mean ± SD)
生物信息学场景:描述样本间基因表达的整体波动;但对于非对称分布,SD 也可能误导(因为均值本身受极端值影响)。
四分位距(Interquartile Range, IQR)
定义:,中间 50% 数据的跨度。
直觉:稳健度量,忽略两端 25% 的极端值。常用于箱线图中的箱体高度。
生物信息学场景:在 scRNA-seq 的质量控制中,用 IQR 标准来判定异常细胞(例如以某一指标超出为异常)。
数据分布形态:偏度、峰度
对数据形状的理解决定了检验方法与变换策略。
偏度(skewness)
数学定义(样本偏度的一种形式):
(或有带 n−1 的修正版本)
- 正偏(右偏):长尾在右侧(典型的计数或表达数据)→ mean > median。
- 负偏(左偏):长尾在左侧 → mean < median。
生物信息学含义:RNA-seq 原始计数往往右偏,单细胞 UMI 计数更明显,这提示使用对数或其他变换处理,或直接选择对偏度健壮的统计量。
峰度(kurtosis)
数学定义(样本峰度的一种形式):基于标准化四阶矩
高峰度(heavy tails)意味着更频繁出现极端值;低峰度意味着分布比较平坦。
生物信息学含义: 序列测定中出现极端表达或测序深度异常样本时,峰度会增大。对于带重尾的数据,标准正态近似可能失效,应考虑稳健方法或显著性检验的非参数替代。
多峰(multimodality)
分布中存在两个或多个“峰”,暗示混合群体或不同子群(例如混合细胞类型或来自不同生物条件的样本)。
生物信息学场景:在群体样本或单细胞数据中,多峰常指示潜在分组(例如肿瘤内异质性、不同细胞亚群)。此时直接用单一均值描述整个分布会掩盖生物学差异,应分组分析或使用混合模型(mixture models)来建模。
可视化:直方图、箱线图、散点图等
有时间更新R语言中的dplyr(数据处理)+ggplot2(科研绘图)
推断性统计(Inferential Statistics)
推断性统计的目标是:
使用有限的样本数据,推断总体特征,并量化这些推断的不确定性。
换句话说:
我们从 1,000 个细胞、50 例肿瘤样本、10 个RNA-seq数据集……推断整个群体的规律。
推断性统计回答三个关键问题:
- 总体参数是多少?(点估计和区间估计)
例如:差异基因中 logFC 的真实均值是多少? - 当前观察的差异是否只是随机波动?(假设检验)
例如:对照组 vs 实验组的基因表达差异是否显著? - 变量之间是否存在真实关系?(相关/回归分析)
例如:基因 A 的表达能否预测基因 B 的表达?
这种思想是所有生物信息学推断方法的底层基础,包括:
- DESeq2、edgeR 的差异分析模型
- 单细胞的差异表达与拟时分析
- GWAS 中的关联检验
- 生存分析、回归模型、预测模型评估
因此理解推断性统计,对于科研人员至关重要。
常用内容包括:
参数估计
点估计(Point Estimation)
点估计 = 用样本统计量作为总体参数的单点估计。
例如:
| 总体参数 | 样本估计量 |
|---|---|
| 总体均值 μ | 样本均值 x̄ |
| 总体方差 σ² | 样本方差 s² |
| 总体比例 p | 样本比例 p̂ |
直觉理解:
点估计是“最佳猜测”,但不告诉你这个猜测是否稳定、可信。
生物信息学中的例子:
- RNA-seq 中 logFC 的估计值
- 组间平均表达差(fold change)
- 转录因子调控模型中的参数 β
- 单细胞拟时轨迹中 gene trend 估计值
点估计本身不提供不确定性信息,因此必须结合置信区间。
区间估计(Interval Estimation,置信区间)
置信区间 = 提供一个范围,表示参数可能落在此区间内的可能性。
常见形式:
其中:
- θ̂:估计值(均值、回归系数…)
- SE:标准误(估计值的波动程度)
- z 或 t 值:取决于样本量和分布假设
95%CI:在多次重复实验中,构造的置信区间中有 95% 会覆盖总体参数。
生信中的应用:
- DESeq2 报告的logFC + 95% CI
- 生存分析模型 HR(风险比)的置信区间
- 回归模型中 β 的 CI(越窄越稳健)
- GWAS 中 OR 的置信区间
直觉:
CI 越宽 → 数据离散、样本小、不确定性强
CI 越窄 → 估计稳健、样本量足、结果可靠
假设检验
目标:判断“观察到的差异”是否超出随机误差范围。
核心:建立原假设 H₀--构造统计量--计算 p 值--与阈值(α=0.05)比较--做出结论
t 检验(连续型数据,比较均值)
适用:
- RNA-seq 正态化后的表达
- 代谢组学丰度
- 表观组学 beta 值等
对应场景:两组样本表达是否显著差异?
原假设:
比较组间均值差异是否显著。
卡方检验(χ² Test)
适用:分类数据
- 雌雄比例
- 突变是否发生(0/1)
- 高表达 vs 低表达分类
方差分析 ANOVA
适用:比较三组或更多组的均值差异。
如:健康 / 早期肿瘤 / 晚期肿瘤三组基因表达差异。
非参数检验
当数据不满足正态分布时使用:
- Wilcoxon rank-sum(单细胞常用)
- Kruskal-Wallis(多组非参数)
在 scRNA-seq 中,由于表达值常为零膨胀、噪声大,一般使用非参数检验。
相关与回归分析
相关(Correlation)
衡量“两个变量是否同步变化”。
| 指标 | 适用条件 | 特点 |
|---|---|---|
| Pearson | 连续、线性 | 反映线性趋势 |
| Spearman | 排序关系 | 单细胞常用 |
| Kendall | 稳健 | 对异常值不敏感 |
生信应用:
- 基因共表达网络 WGCNA
- 代谢物与基因表达相关
- 肿瘤免疫细胞占比与基因表达的相关性
相关不等于因果,但反映“同步变化的程度”。
回归分析(Regression)
探究因果关系或预测变量关系。
常见模型:
- 线性回归:
y = β₀ + β₁x + ε - 逻辑回归:
二分类(如是否携带突变) - Cox 回归:
生存分析;hazard ratio - LASSO/岭回归:
高维数据降维与变量筛选(常用于基因组学)
回归分析不仅给出趋势,还可量化解释力(R²)、显著性、置信区间等。
模型评估与置信区间
推断性统计的重要任务是衡量模型可靠性。
主要指标:
1. 标准误(Standard Error, SE)
反映“估计量的不确定性”。
SE 越小 → 模型稳定。
2. 置信区间(Confidence Interval)
对于模型参数 β:
在生信中的意义:
- 生存分析:HR 的 CI 是否跨过 1
- 回归分析:β 的 CI 是否包含 0
- 差异分析:logFC 的 CI 是否过宽
CI 比 p 值更能体现“估计是否可靠”。
3. 模型拟合与预测能力
- R²:解释度
- AUC(ROC 曲线):分类任务
- RMSE:连续变量预测准确性
- Cross-validation:避免过拟合
例如:
在构建癌症预后模型时,必须报告:
- HR
- 95% CI
- p 值
- C-index 或 AUC
这才能完整评估模型的可信度。
总结
本部分对科研统计学的核心要素进行了概要性梳理,包括集中趋势、离散度、分布形态、相关结构、概率视角、置信区间与假设检验等基础概念,并结合常见的数据可视化方式进行了直观说明。内容旨在为读者建立一个系统化的入门框架,使其能够在阅读科研文献、理解数据特征或开展基础分析时具备必要的统计思维。在后续章节中,本专栏将进一步展开这些主题的数学原理、推断逻辑与实际应用方法,包括更严格的公式推导、方法选择策略以及典型科研情境下的分析案例,帮助读者从“理解概念”迈向“能够正确应用”