news 2026/3/27 14:37:09

统计学基础与常见名词(生物信息方向)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
统计学基础与常见名词(生物信息方向)

目标读者:具有生物/生物信息学背景、希望把统计学概念用于组学数据分析(RNA-seq、scRNA-seq、代谢组、临床关联分析等)的科研人员。
本文着重解释概念的数学原理、它们如何反映数据变化、在组学分析中常见的应用场景与注意点,并给出实用的可视化与报告示例。

导言:为什么生物信息需要统计学

生物信息学的数据特点:高维(成千上万的基因/特征)、异质(批次效应、平台差异)、稀疏或重尾(scRNA 的 dropout,RNA-seq 的计数分布)与有限样本(样本数远小于特征数)。在这种环境下,统计学不是“可选”,而是必需:

  • 将噪声与信号区分(假阳性/假阴性控制);
  • 以有限样本对总体做合理推断(置信与不确定性量化);
  • 选择与评估模型(拟合优度、泛化能力);
  • 报告可重复、可解释的证据(效应量、置信区间、可视化)。

统计学提供了一整套工具和语言(均值/方差/分布/检验/效应量等),使科研结论能经受重复实验与外部验证的检验。

统计学的基本构成

统计学主要由两大分支构成:描述性统计与推断性统计

描述性统计(Descriptive Statistics)

通过图表与数值指标,对已有数据的总体特征进行总结。它不涉及推断,只是“如实描述”。

核心问题:数据是什么样的?

常用内容包括:

集中趋势的描述:均值、中位数、众数

均值(mean,)样本的算术平均

反映数据整体水平的集中位置;对极端值非常敏感:一个离群点即可明显改变均值
使用注意

  • 对偏态分布(如转录组表达量)不稳定
  • 不适合描述严重偏斜的变量

中位数(Median)排序后处于中间位置的值

在RNA-seq数据标准化中常用(如DESeq2使用中位数比值法

描述偏态表达分布(很多基因在大多数样本低表达,但少数样本高表达)时优于均值。常用于描述样本质量指标(如每个样本的 mapped reads)时的“典型”水平。

众数(mode)出现频率最高的数(或区间)。

表示“最常见”的类别或值。对连续变量通常先做离散化(bin)再求众数。

分类变量(细胞类型、注释标签)首选。若表达量呈多峰分布,众数能揭示主导模式。

分位数(Quantiles)将数据划分为等概率区间的切分点。

常见的有:四分位数:Q1(25%)、Q2(中位数,50%)、Q3(75%)

基因表达数据的上下调分析(如取上下25%作为高/低表达)质量控制中的异常检测

应用:基因表达数据的上下调分析(如取上下25%作为高/低表达);质量控制中的异常检测等

离散程度的描述:方差、标准差、四分位距

描述数据“散开”或“变异”程度,关键在于度量方式的敏感性与可解释性。

方差(Variance)

原理:把每个点与均值的偏差平方后平均,放大了远离均值点的权重(平方效应),这对检出大幅离群值有利,但减少了直观单位的可读性(单位是原变量平方)。

生物信息学场景:在差异表达模型中(例如 t-test),方差用于标准误的计算;RNA-seq 上常见的方差随均值增长(mean-variance relationship),需要用模型(如 negative binomial)专门建模。

注意:方差受极端值影响大。若关注“典型”变异,使用 IQR 更稳健。

标准差(standard deviation, SD)

定义:方差的平方根,单位与原变量一致:

表示数据平均偏离均值的大小,常与均值配对报道(mean ± SD)

生物信息学场景:描述样本间基因表达的整体波动;但对于非对称分布,SD 也可能误导(因为均值本身受极端值影响)。

四分位距(Interquartile Range, IQR)

定义,中间 50% 数据的跨度。

直觉:稳健度量,忽略两端 25% 的极端值。常用于箱线图中的箱体高度。

生物信息学场景:在 scRNA-seq 的质量控制中,用 IQR 标准来判定异常细胞(例如以某一指标超出为异常)。

数据分布形态:偏度、峰度

对数据形状的理解决定了检验方法与变换策略。

偏度(skewness)

数学定义(样本偏度的一种形式):

(或有带 n−1 的修正版本)

  • 正偏(右偏):长尾在右侧(典型的计数或表达数据)→ mean > median。
  • 负偏(左偏):长尾在左侧 → mean < median。

生物信息学含义:RNA-seq 原始计数往往右偏,单细胞 UMI 计数更明显,这提示使用对数或其他变换处理,或直接选择对偏度健壮的统计量。

峰度(kurtosis)

数学定义(样本峰度的一种形式):基于标准化四阶矩

高峰度(heavy tails)意味着更频繁出现极端值;低峰度意味着分布比较平坦。

生物信息学含义: 序列测定中出现极端表达或测序深度异常样本时,峰度会增大。对于带重尾的数据,标准正态近似可能失效,应考虑稳健方法或显著性检验的非参数替代。

多峰(multimodality)

分布中存在两个或多个“峰”,暗示混合群体或不同子群(例如混合细胞类型或来自不同生物条件的样本)。

生物信息学场景:在群体样本或单细胞数据中,多峰常指示潜在分组(例如肿瘤内异质性、不同细胞亚群)。此时直接用单一均值描述整个分布会掩盖生物学差异,应分组分析或使用混合模型(mixture models)来建模。

可视化:直方图、箱线图、散点图等

有时间更新R语言中的dplyr(数据处理)+ggplot2(科研绘图)

推断性统计(Inferential Statistics)

推断性统计的目标是:
使用有限的样本数据,推断总体特征,并量化这些推断的不确定性。

换句话说:
我们从 1,000 个细胞、50 例肿瘤样本、10 个RNA-seq数据集……推断整个群体的规律。

推断性统计回答三个关键问题:

  1. 总体参数是多少?(点估计和区间估计)
    例如:差异基因中 logFC 的真实均值是多少?
  2. 当前观察的差异是否只是随机波动?(假设检验)
    例如:对照组 vs 实验组的基因表达差异是否显著?
  3. 变量之间是否存在真实关系?(相关/回归分析)
    例如:基因 A 的表达能否预测基因 B 的表达?

这种思想是所有生物信息学推断方法的底层基础,包括:

  • DESeq2、edgeR 的差异分析模型
  • 单细胞的差异表达与拟时分析
  • GWAS 中的关联检验
  • 生存分析、回归模型、预测模型评估

因此理解推断性统计,对于科研人员至关重要。

常用内容包括:

参数估计

点估计(Point Estimation)
点估计 = 用样本统计量作为总体参数的单点估计。

例如:

总体参数样本估计量
总体均值 μ样本均值 x̄
总体方差 σ²样本方差 s²
总体比例 p样本比例 p̂

直觉理解:
点估计是“最佳猜测”,但不告诉你这个猜测是否稳定、可信。

生物信息学中的例子:

  • RNA-seq 中 logFC 的估计值
  • 组间平均表达差(fold change)
  • 转录因子调控模型中的参数 β
  • 单细胞拟时轨迹中 gene trend 估计值

点估计本身不提供不确定性信息,因此必须结合置信区间。

区间估计(Interval Estimation,置信区间

置信区间 = 提供一个范围,表示参数可能落在此区间内的可能性。

常见形式:

其中:

  • θ̂:估计值(均值、回归系数…)
  • SE:标准误(估计值的波动程度)
  • z 或 t 值:取决于样本量和分布假设


95%CI:在多次重复实验中,构造的置信区间中有 95% 会覆盖总体参数。

生信中的应用:

  • DESeq2 报告的logFC + 95% CI
  • 生存分析模型 HR(风险比)的置信区间
  • 回归模型中 β 的 CI(越窄越稳健)
  • GWAS 中 OR 的置信区间

直觉:
CI 越宽 → 数据离散、样本小、不确定性强
CI 越窄 → 估计稳健、样本量足、结果可靠

假设检验

目标:判断“观察到的差异”是否超出随机误差范围。

核心:建立原假设 H₀--构造统计量--计算 p 值--与阈值(α=0.05)比较--做出结论

t 检验(连续型数据,比较均值)

适用:

  • RNA-seq 正态化后的表达
  • 代谢组学丰度
  • 表观组学 beta 值等

对应场景:两组样本表达是否显著差异?

原假设:

比较组间均值差异是否显著。

卡方检验(χ² Test)

适用:分类数据

  • 雌雄比例
  • 突变是否发生(0/1)
  • 高表达 vs 低表达分类

方差分析 ANOVA

适用:比较三组或更多组的均值差异。

如:健康 / 早期肿瘤 / 晚期肿瘤三组基因表达差异。

非参数检验

当数据不满足正态分布时使用:

  • Wilcoxon rank-sum(单细胞常用)
  • Kruskal-Wallis(多组非参数)

在 scRNA-seq 中,由于表达值常为零膨胀、噪声大,一般使用非参数检验。

相关与回归分析

相关(Correlation)

衡量“两个变量是否同步变化”。

指标适用条件特点
Pearson连续、线性反映线性趋势
Spearman排序关系单细胞常用
Kendall稳健对异常值不敏感

生信应用:

  • 基因共表达网络 WGCNA
  • 代谢物与基因表达相关
  • 肿瘤免疫细胞占比与基因表达的相关性

相关不等于因果,但反映“同步变化的程度”。

回归分析(Regression)

探究因果关系或预测变量关系。

常见模型:

  • 线性回归:
    y = β₀ + β₁x + ε
  • 逻辑回归:
    二分类(如是否携带突变)
  • Cox 回归:
    生存分析;hazard ratio
  • LASSO/岭回归:
    高维数据降维与变量筛选(常用于基因组学)

回归分析不仅给出趋势,还可量化解释力(R²)、显著性、置信区间等。

模型评估与置信区间

推断性统计的重要任务是衡量模型可靠性。

主要指标:

1. 标准误(Standard Error, SE)

反映“估计量的不确定性”。
SE 越小 → 模型稳定。

2. 置信区间(Confidence Interval)

对于模型参数 β:

在生信中的意义:

  • 生存分析:HR 的 CI 是否跨过 1
  • 回归分析:β 的 CI 是否包含 0
  • 差异分析:logFC 的 CI 是否过宽

CI 比 p 值更能体现“估计是否可靠”。

3. 模型拟合与预测能力

  • R²:解释度
  • AUC(ROC 曲线):分类任务
  • RMSE:连续变量预测准确性
  • Cross-validation:避免过拟合

例如:
在构建癌症预后模型时,必须报告:

  • HR
  • 95% CI
  • p 值
  • C-index 或 AUC

这才能完整评估模型的可信度。

总结

本部分对科研统计学的核心要素进行了概要性梳理,包括集中趋势、离散度、分布形态、相关结构、概率视角、置信区间与假设检验等基础概念,并结合常见的数据可视化方式进行了直观说明。内容旨在为读者建立一个系统化的入门框架,使其能够在阅读科研文献、理解数据特征或开展基础分析时具备必要的统计思维。在后续章节中,本专栏将进一步展开这些主题的数学原理、推断逻辑与实际应用方法,包括更严格的公式推导、方法选择策略以及典型科研情境下的分析案例,帮助读者从“理解概念”迈向“能够正确应用”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/22 23:23:08

不只是学AI,更是思维的进化:我的CAIE认证上海站报考与成长全记录

去年秋天&#xff0c;我在上海参加了CAIE人工智能工程师认证的学习与考试。这段经历让我对AI有了不一样的体会——它不仅仅是技术的堆砌&#xff0c;更像是一次对思维方式的梳理和提升。如果你也在上海&#xff0c;正在观望是否要系统学习AI&#xff0c;或许我的这段历程能给你…

作者头像 李华
网站建设 2026/3/26 14:52:11

最近在帮朋友公司折腾指纹考勤系统,发现用Matlab实现库内指纹比对还挺有意思。今天咱们就手把手拆解这个从预处理到比对的完整流程,顺便聊聊实际开发中遇到的坑

基于matlab的指纹识别库内对比系统 【指纹识别】基于计算机视觉&#xff0c;含GUI界面 步骤&#xff1a;归一化&#xff0c;灰度化&#xff0c;二值化&#xff0c;细化&#xff0c;定位指纹中心点&#xff0c;提取特征&#xff0c;库内比对&#xff0c;结果识别。 功能&#xf…

作者头像 李华
网站建设 2026/3/27 11:18:06

基于Anolis OS的国产CPU性能优化实践,共推多芯混部时代操作系统新范式

2025 年 11 月&#xff0c;备受瞩目的龙蜥大会在北京隆重举行。作为中国开源操作系统生态的重要里程碑&#xff0c;本届大会汇聚了来自芯片、硬件、软件及云服务等领域的顶尖专家与行业代表。会上&#xff0c;阿里云智能集团高级技术专家沈培以“国产 CPU 平台上操作系统和云产…

作者头像 李华
网站建设 2026/3/27 9:30:46

IDEA(2020版)实现HttpServletResponse对象

查看全文&#xff1a;https://www.longkui.site/program/java/idea2020httpservletresponse/7144/ 前序文章&#xff1a; IDEA(2020版)实现Servlet程序 – 每天进步一点点 IDEA(2020版)实现Servlet的生命周期 – 每天进步一点点 IDEA(2020版)实现ServletConfig和ServletCont…

作者头像 李华
网站建设 2026/3/25 17:32:50

基于Java+ vue学生成绩管理系统(源码+数据库+文档)

学生成绩管理 目录 基于springboot vue学生成绩管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 基于springboot vue学生成绩管理系统 一、前言 博主介绍&…

作者头像 李华