统计学基础与常见名词（生物信息方向）-平芜编程栈

目标读者：具有生物/生物信息学背景、希望把统计学概念用于组学数据分析（RNA-seq、scRNA-seq、代谢组、临床关联分析等）的科研人员。
本文着重解释概念的数学原理、它们如何反映数据变化、在组学分析中常见的应用场景与注意点，并给出实用的可视化与报告示例。

导言：为什么生物信息需要统计学

生物信息学的数据特点：高维（成千上万的基因/特征）、异质（批次效应、平台差异）、稀疏或重尾（scRNA 的 dropout，RNA-seq 的计数分布）与有限样本（样本数远小于特征数）。在这种环境下，统计学不是“可选”，而是必需：

将噪声与信号区分（假阳性/假阴性控制）；
以有限样本对总体做合理推断（置信与不确定性量化）；
选择与评估模型（拟合优度、泛化能力）；
报告可重复、可解释的证据（效应量、置信区间、可视化）。

统计学提供了一整套工具和语言（均值/方差/分布/检验/效应量等），使科研结论能经受重复实验与外部验证的检验。

统计学的基本构成

统计学主要由两大分支构成：描述性统计与推断性统计

描述性统计（Descriptive Statistics）

通过图表与数值指标，对已有数据的总体特征进行总结。它不涉及推断，只是“如实描述”。

核心问题：数据是什么样的？

常用内容包括：

集中趋势的描述：均值、中位数、众数

均值（mean,）样本的算术平均

反映数据整体水平的集中位置；对极端值非常敏感：一个离群点即可明显改变均值
使用注意

对偏态分布（如转录组表达量）不稳定
不适合描述严重偏斜的变量

中位数（Median）排序后处于中间位置的值

在RNA-seq数据标准化中常用（如DESeq2使用中位数比值法）

描述偏态表达分布（很多基因在大多数样本低表达，但少数样本高表达）时优于均值。常用于描述样本质量指标（如每个样本的 mapped reads）时的“典型”水平。

众数（mode）出现频率最高的数（或区间）。

表示“最常见”的类别或值。对连续变量通常先做离散化（bin）再求众数。

分类变量（细胞类型、注释标签）首选。若表达量呈多峰分布，众数能揭示主导模式。

分位数（Quantiles）将数据划分为等概率区间的切分点。

常见的有：四分位数：Q1（25%）、Q2（中位数，50%）、Q3（75%）

基因表达数据的上下调分析（如取上下25%作为高/低表达）质量控制中的异常检测

应用：基因表达数据的上下调分析（如取上下25%作为高/低表达）；质量控制中的异常检测等

离散程度的描述：方差、标准差、四分位距

描述数据“散开”或“变异”程度，关键在于度量方式的敏感性与可解释性。

方差（Variance）

原理：把每个点与均值的偏差平方后平均，放大了远离均值点的权重（平方效应），这对检出大幅离群值有利，但减少了直观单位的可读性（单位是原变量平方）。

生物信息学场景：在差异表达模型中（例如 t-test），方差用于标准误的计算；RNA-seq 上常见的方差随均值增长（mean-variance relationship），需要用模型（如 negative binomial）专门建模。

注意：方差受极端值影响大。若关注“典型”变异，使用 IQR 更稳健。

标准差（standard deviation, SD）

定义：方差的平方根，单位与原变量一致：

表示数据平均偏离均值的大小，常与均值配对报道（mean ± SD）

生物信息学场景：描述样本间基因表达的整体波动；但对于非对称分布，SD 也可能误导（因为均值本身受极端值影响）。

四分位距（Interquartile Range, IQR）

定义：，中间 50% 数据的跨度。

直觉：稳健度量，忽略两端 25% 的极端值。常用于箱线图中的箱体高度。

生物信息学场景：在 scRNA-seq 的质量控制中，用 IQR 标准来判定异常细胞（例如以某一指标超出为异常）。

数据分布形态：偏度、峰度

对数据形状的理解决定了检验方法与变换策略。

偏度（skewness）

数学定义（样本偏度的一种形式）：

（或有带 n−1 的修正版本）

正偏（右偏）：长尾在右侧（典型的计数或表达数据）→ mean > median。
负偏（左偏）：长尾在左侧 → mean < median。

生物信息学含义：RNA-seq 原始计数往往右偏，单细胞 UMI 计数更明显，这提示使用对数或其他变换处理，或直接选择对偏度健壮的统计量。

峰度（kurtosis）

数学定义（样本峰度的一种形式）：基于标准化四阶矩

高峰度（heavy tails）意味着更频繁出现极端值；低峰度意味着分布比较平坦。

生物信息学含义：序列测定中出现极端表达或测序深度异常样本时，峰度会增大。对于带重尾的数据，标准正态近似可能失效，应考虑稳健方法或显著性检验的非参数替代。

多峰（multimodality）

分布中存在两个或多个“峰”，暗示混合群体或不同子群（例如混合细胞类型或来自不同生物条件的样本）。

生物信息学场景：在群体样本或单细胞数据中，多峰常指示潜在分组（例如肿瘤内异质性、不同细胞亚群）。此时直接用单一均值描述整个分布会掩盖生物学差异，应分组分析或使用混合模型（mixture models）来建模。

可视化：直方图、箱线图、散点图等

有时间更新R语言中的dplyr（数据处理）+ggplot2（科研绘图）

推断性统计（Inferential Statistics）

推断性统计的目标是：
使用有限的样本数据，推断总体特征，并量化这些推断的不确定性。

换句话说：
我们从 1,000 个细胞、50 例肿瘤样本、10 个RNA-seq数据集……推断整个群体的规律。

推断性统计回答三个关键问题：

总体参数是多少？（点估计和区间估计）
例如：差异基因中 logFC 的真实均值是多少？
当前观察的差异是否只是随机波动？（假设检验）
例如：对照组 vs 实验组的基因表达差异是否显著？
变量之间是否存在真实关系？（相关/回归分析）
例如：基因 A 的表达能否预测基因 B 的表达？

这种思想是所有生物信息学推断方法的底层基础，包括：

DESeq2、edgeR 的差异分析模型
单细胞的差异表达与拟时分析
GWAS 中的关联检验
生存分析、回归模型、预测模型评估

因此理解推断性统计，对于科研人员至关重要。

常用内容包括：

参数估计

点估计（Point Estimation）
点估计 = 用样本统计量作为总体参数的单点估计。

例如：

总体参数	样本估计量
总体均值 μ	样本均值 x̄
总体方差 σ²	样本方差 s²
总体比例 p	样本比例 p̂

直觉理解：
点估计是“最佳猜测”，但不告诉你这个猜测是否稳定、可信。

生物信息学中的例子：

RNA-seq 中 logFC 的估计值
组间平均表达差（fold change）
转录因子调控模型中的参数 β
单细胞拟时轨迹中 gene trend 估计值

点估计本身不提供不确定性信息，因此必须结合置信区间。

区间估计（Interval Estimation，置信区间）

置信区间 = 提供一个范围，表示参数可能落在此区间内的可能性。

常见形式：

其中：

θ̂：估计值（均值、回归系数…）
SE：标准误（估计值的波动程度）
z 或 t 值：取决于样本量和分布假设

95%CI：在多次重复实验中，构造的置信区间中有 95% 会覆盖总体参数。

生信中的应用：

DESeq2 报告的logFC + 95% CI
生存分析模型 HR（风险比）的置信区间
回归模型中 β 的 CI（越窄越稳健）
GWAS 中 OR 的置信区间

直觉：
CI 越宽 → 数据离散、样本小、不确定性强
CI 越窄 → 估计稳健、样本量足、结果可靠

假设检验

目标：判断“观察到的差异”是否超出随机误差范围。

核心：建立原假设 H₀--构造统计量--计算 p 值--与阈值（α=0.05）比较--做出结论

t 检验（连续型数据，比较均值）

适用：

RNA-seq 正态化后的表达
代谢组学丰度
表观组学 beta 值等

对应场景：两组样本表达是否显著差异？

原假设：

比较组间均值差异是否显著。

卡方检验（χ² Test）

适用：分类数据

雌雄比例
突变是否发生（0/1）
高表达 vs 低表达分类

方差分析 ANOVA

适用：比较三组或更多组的均值差异。

如：健康 / 早期肿瘤 / 晚期肿瘤三组基因表达差异。

非参数检验

当数据不满足正态分布时使用：

Wilcoxon rank-sum（单细胞常用）
Kruskal-Wallis（多组非参数）

在 scRNA-seq 中，由于表达值常为零膨胀、噪声大，一般使用非参数检验。

指标	适用条件	特点
Pearson	连续、线性	反映线性趋势
Spearman	排序关系	单细胞常用
Kendall	稳健	对异常值不敏感

模型评估与置信区间

推断性统计的重要任务是衡量模型可靠性。

主要指标：

1. 标准误（Standard Error, SE）

反映“估计量的不确定性”。
SE 越小 → 模型稳定。

2. 置信区间（Confidence Interval）

对于模型参数 β：

在生信中的意义：

生存分析：HR 的 CI 是否跨过 1
回归分析：β 的 CI 是否包含 0
差异分析：logFC 的 CI 是否过宽

CI 比 p 值更能体现“估计是否可靠”。

3. 模型拟合与预测能力

R²：解释度
AUC（ROC 曲线）：分类任务
RMSE：连续变量预测准确性
Cross-validation：避免过拟合

例如：
在构建癌症预后模型时，必须报告：

HR
95% CI
p 值
C-index 或 AUC

这才能完整评估模型的可信度。

总结

本部分对科研统计学的核心要素进行了概要性梳理，包括集中趋势、离散度、分布形态、相关结构、概率视角、置信区间与假设检验等基础概念，并结合常见的数据可视化方式进行了直观说明。内容旨在为读者建立一个系统化的入门框架，使其能够在阅读科研文献、理解数据特征或开展基础分析时具备必要的统计思维。在后续章节中，本专栏将进一步展开这些主题的数学原理、推断逻辑与实际应用方法，包括更严格的公式推导、方法选择策略以及典型科研情境下的分析案例，帮助读者从“理解概念”迈向“能够正确应用”