news 2026/5/6 5:51:24

[数学建模从入门到入土] 相关性分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[数学建模从入门到入土] 相关性分析

[数学建模从入门到入土] 相关性分析

个人导航

知乎:https://www.zhihu.com/people/byzh_rc

CSDN:https://blog.csdn.net/qq_54636039

注:本文仅对所述内容做了框架性引导,具体细节可查询其余相关资料or源码

参考文章:各方资料

文章目录

  • [数学建模从入门到入土] 相关性分析
  • 个人导航
  • 概述
  • 相关系数Correlation Coefficient
        • 1. Pearson 相关系数
        • 2. Spearman 相关系数
        • 3. Pearson vs Spearman
        • 4. 多重共线性
        • 5. 趋势会制造伪相关
  • 自相关 ACF
  • 偏自相关 PACF

概述

判断变量之间有没有关系 -> 相关性

判断序列有没有“记忆” -> 自相关性

相关系数Correlation Coefficient

相关系数 = 用一个数,衡量“两个变量是否一起变化 + 变化是否有规律”

  • 取值范围:[ − 1 , 1 ] [-1, 1][1,1]

  • 符号:

    • > 0 >0>0:同向变化(一起涨、一起跌)
    • < 0 <0<0:反向变化(一个涨一个跌)
  • 绝对值大小:

    • 越接近 1 → 关系越“强”
    • 越接近 0 → 基本没关系

相关系数常用于:

  • 变量筛选: 去掉几乎没关系的变量
  • 多重共线性判断: 两个自变量高度相关 → 回归不稳定
  • 特征工程方向判断: 哪些变量值得重点建模
  • 模型选择: 线性?单调?非线性?

Pearson 只看线性,Spearman 看单调

相关 ≠ 因果

趋势能制造“假相关”

1. Pearson 相关系数

定义为:
ρ X , Y = C o v ( X , Y ) σ X σ Y \rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}ρX,Y=σXσYCov(X,Y)
样本形式是:
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 ∑ ( y i − y ˉ ) 2 r = \frac{\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)} {\sqrt{\sum (x_i-\bar x)^2}\sqrt{\sum (y_i-\bar y)^2}}r=(xixˉ)2(yiyˉ)2i=1n(xixˉ)(yiyˉ)
-> Pearson 衡量的是:两个变量之间的“线性关系强弱”

典型情况:

  • y = a x + b y = ax + by=ax+b→ Pearson ≈ ±1
  • y = x 2 y = x^2y=x2→ Pearson ≈ 0(但明明有关系)

Pearson隐含假设

  • 关系近似线性
  • 无明显极端异常值
  • 连续数值型变量
  • 对异常值极度敏感
2. Spearman 相关系数

Spearman 的核心思想:不看原始数值,只看“排名”

  1. x i , y i x_i, y_ixi,yi分别转成排名
  2. 对排名计算 Pearson 相关

经典公式:
ρ s = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho_s = 1 - \frac{6\sum d_i^2}{n(n^2-1)}ρs=1n(n21)6di2
其中d i d_idi是两变量排名差

-> Spearman 衡量的是:两个变量是否“单调相关”

只要顺序不乱,Spearman 就能抓住

Spearman 的优点 -> 建模友好

  • ✔ 不要求线性
  • ✔ 对异常值不敏感
  • ✔ 可用于等级变量
  • ✔ 分布要求低
3. Pearson vs Spearman
场景Pearson(线性)Spearman(单调)
直线关系y = a x + b y=a x+by=ax+b✅ 很强✅ 也强
非线性但单调y = x 2 ( x > 0 ) y=x^2 (x>0)y=x2(x>0)/y = log ⁡ x y=\log xy=logx❌ 可能不强✅ 很强
有异常点(outlier)❌ 容易被带偏✅ 更稳
解释意义线性变化强弱单调变化强弱(排名一致性)

结论:

  • Pearson:适合“线性模型”的前置分析
  • Spearman:适合“关系单调但可能弯”的现实数据
4. 多重共线性

法一: 计算自变量之间的 Pearson 相关系数矩阵

相关系数风险
< 0.6基本安全
0.6 – 0.8需注意
> 0.8高风险

法二: 方差膨胀因子VIF (最常用、最标准)
V I F j = 1 1 − R j 2 \mathrm{VIF}_j = \frac{1}{1 - R_j^2}VIFj=1Rj21

R j 2 R_j^2Rj2:用其余所有自变量回归x j x_jxj得到的R 2 R^2R2

VIF结论
≈ 1无共线性
1 – 5可接受
5 – 10中度共线性
> 10严重共线性

法三: 条件数(略)

5. 趋势会制造伪相关

两个变量即使彼此没有任何真实关系,只要它们都随时间一起上升/下降,用相关系数一算也会显得很相关

  • 看起来相关很强(甚至显著)
  • 但放到预测/解释里会翻车(换个时间段就不成立)
  • 很容易做出错误结论(把“共同上涨”误当作“相互影响”)

怎么识别:

  • 去趋势/差分后再算相关
    -> 一阶差分(看变化量而不是水平值)

自相关 ACF

给你一个序列x 1 , x 2 , … , x T x_1,x_2,\dots,x_Tx1,x2,,xT,

自相关: 现在的x t x_txt跟过去的x t − k x_{t-k}xtk有没有关系
(也就是“有没有记忆”“记忆有多长”)

滞后k kk的自相关系数:
ρ ( k ) = C o r r ( x t , x t − k ) \rho(k)=\mathrm{Corr}(x_t,\ x_{t-k})ρ(k)=Corr(xt,xtk)
样本估计(记住思想即可):
ρ ^ ( k ) = ∑ t = k + 1 T ( x t − x ˉ ) ( x t − k − x ˉ ) ∑ t = 1 T ( x t − x ˉ ) 2 \hat\rho(k)= \frac{\sum_{t=k+1}^{T}(x_t-\bar x)(x_{t-k}-\bar x)} {\sum_{t=1}^{T}(x_t-\bar x)^2}ρ^(k)=t=1T(xtxˉ)2t=k+1T(xtxˉ)(xtkxˉ)

  • k = 1 k=1k=1:看“跟上一时刻”的关系
  • k = 24 k=24k=24:比如小时数据看“跟前一天同一小时”的关系
  • k = 7 k=7k=7:日数据看“周周期”

偏自相关 PACF

ACF 有个“误导”点:即使x t x_txt只和x t − 1 x_{t-1}xt1相关, 它也可能看起来和x t − 2 , x t − 3 x_{t-2},x_{t-3}xt2,xt3​ 都相关, 因为信息是“传递的”

x t x_txtx t − 1 x_{t-1}xt1强相关,那么一般x t x_txtx t − 2 x_{t-2}xt2也会被间接带相关

-> PACF(k) = 在控制了x t − 1 , … , x t − k + 1 x_{t-1},\dots,x_{t-k+1}xt1,,xtk+1后,x t x_txtx t − k x_{t-k}xtk的“纯粹相关”

偏自相关可以理解为回归系数 -> 用线性模型回归:
x t = ϕ 1 x t − 1 + ⋯ + ϕ k x t − k + ϵ t x_t = \phi_1 x_{t-1}+\cdots+\phi_k x_{t-k}+ \epsilon_txt=ϕ1xt1++ϕkxtk+ϵt
那么:
P A C F ( k ) = ϕ k \mathrm{PACF}(k)=\phi_kPACF(k)=ϕk
也就是:第k kk阶滞后的“直接贡献”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 4:32:20

RTSP 直播技术详解

RTSP 直播技术详解 目录 协议概述RTSP 与相关协议的关系RTSP 协议细节会话与媒体控制传输与负载典型直播架构与 RTMP/HLS/WebRTC 对比实践要点与常见问题总结与速查 一、协议概述 1.1 基本定义 RTSP&#xff08;Real Time Streaming Protocol&#xff0c;实时流协议&#x…

作者头像 李华
网站建设 2026/5/3 14:17:53

融合机器学习与微分方程的COVID-19预测模型获奖

十二月&#xff0c;在NeurIPS公共健康机器学习研讨会上&#xff0c;一篇关于COVID-19感染传播预测新方法的论文获得了最佳论文奖。这项研究与来自某中心和加州大学圣迭戈分校的同事共同完成。 过去&#xff0c;研究人员使用两种不同的方法来预测COVID传播。一种是“仓室”模型&…

作者头像 李华
网站建设 2026/5/2 13:47:09

学霸同款 9个AI论文软件测评:本科生毕业论文写作必备工具推荐

随着高校论文写作需求的不断增长&#xff0c;越来越多的本科生开始关注高效、专业的写作辅助工具。在2026年&#xff0c;学术写作场景中仍存在诸多挑战&#xff0c;如选题思路不清晰、文献资料检索困难、格式排版繁琐等问题&#xff0c;严重制约了写作效率和质量。为此&#xf…

作者头像 李华
网站建设 2026/5/5 22:48:09

2026大专财务专业学生学数据分析的技术价值分析

数据分析在财务领域的核心应用财务数据可视化与报表自动化能显著提升工作效率&#xff0c;通过工具如Power BI或Tableau可将复杂财务数据转化为直观图表&#xff0c;减少人工报表错误率。预算分析与成本预测模型利用历史数据建立回归分析或时间序列模型&#xff0c;辅助企业进行…

作者头像 李华
网站建设 2026/5/5 23:31:53

怎么降论文AIGC检测率?常见问题解答汇总

怎么降论文AIGC检测率&#xff1f;常见问题解答汇总 你想知道的都在这里 怎么降论文AIGC检测率&#xff1f;整理了大家最常问的问题&#xff0c;一次性解答。 Q1&#xff1a;降AI工具会被检测出来吗&#xff1f; 答&#xff1a;好的工具不会。像嘎嘎降AI采用深度语义重构技…

作者头像 李华
网站建设 2026/5/5 20:02:41

当网络不可靠时,你的温湿度监控还能“干活”吗?

在理想化的工业物联网架构中&#xff0c;所有传感器都稳定联网、平台实时响应、告警秒级触达。但现实往往骨感&#xff1a;交换机故障、Wi-Fi 信号波动、云平台升级维护……一旦通信中断&#xff0c;依赖中心化处理的监控系统便瞬间“失明”。此时&#xff0c;真正决定系统韧性…

作者头像 李华