news 2026/5/19 23:11:32

岭回归(Ridge Regression),也称为L2正则化回归

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
岭回归(Ridge Regression),也称为L2正则化回归

岭回归(Ridge Regression),也称为L2正则化回归蒂霍诺夫正则化(Tikhonov Regularization),是一种用于分析多重共线性数据(即自变量之间高度相关)的线性回归分析方法。

简单来说,它是标准线性回归(OLS)的一种改进版本,旨在解决标准线性回归在特定条件下“不稳定”或“过拟合”的问题。

以下是关于岭回归的核心要点解析:

1. 核心问题:为什么要用岭回归?

在标准的线性回归中,我们的目标是最小化预测值与真实值之间的误差(通常使用均方误差,MSE)。其数学解通常涉及计算矩阵XTXX^TXXTX的逆矩阵(XTX)−1(X^TX)^{-1}(XTX)1

然而,当出现以下情况时,标准线性回归会失效或表现不佳:

  • 多重共线性(Multicollinearity):特征(自变量)之间存在高度相关性。
  • 特征数量多于样本数量:矩阵XTXX^TXXTX可能不可逆(奇异矩阵),导致无法求解。
  • 过拟合(Overfitting):模型为了拟合训练数据中的噪声,导致系数(weights)变得极大且不稳定。

2. 岭回归的解决方案:L2 正则化

岭回归通过在损失函数中加入一个**惩罚项(Penalty Term)**来解决上述问题。

  • 标准线性回归的损失函数
    J(β)=∑i=1n(yi−y^i)2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2J(β)=i=1n(yiy^i)2
    (即:残差平方和)

  • 岭回归的损失函数
    J(β)=∑i=1n(yi−y^i)2+λ∑j=1pβj2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p} \beta_j^2J(β)=i=1n(yiy^i)2+λj=1pβj2

    • 第一部分∑(yi−y^i)2\sum (y_i - \hat{y}_i)^2(yiy^i)2:依然是最小化预测误差。
    • 第二部分λ∑βj2\lambda \sum \beta_j^2λβj2L2 正则化项
      • βj\beta_jβj是回归系数。
      • λ\lambdaλ(Lambda) 是正则化参数,控制惩罚的力度。

3. 关键机制:系数收缩(Shrinkage)

岭回归的核心思想是限制系数的大小

  • 通过最小化“误差 + 系数平方和”,算法会倾向于选择较小的系数值。
  • 如果λ=0\lambda = 0λ=0,岭回归退化为标准线性回归。
  • 如果λ\lambdaλ很大,系数会被强烈压缩,接近于 0(但通常不会正好等于 0,这是它与 L1 正则化/Lasso 的主要区别)。

4. 岭回归的主要优点

  1. 提高数值稳定性:在公式(XTX+λI)−1(X^TX + \lambda I)^{-1}(XTX+λI)1中,加入λI\lambda IλI(其中III是单位矩阵,λ>0\lambda > 0λ>0)可以确保矩阵始终可逆且条件数良好。这就是你在前文提到的 ERQ 算法中使用岭回归的原因——它确保了矩阵求逆的计算稳定性。
  2. 处理多重共线性:当特征高度相关时,岭回归能提供比标准回归更稳定的系数估计。
  3. 防止过拟合:通过惩罚大系数,降低了模型的复杂度,提高了模型在未知数据上的泛化能力。

5. 岭回归 vs. Lasso (L1 正则化)

特性岭回归 (Ridge, L2)Lasso (L1)
惩罚项系数的平方和 (∑β2\sum \beta^2β2)系数的绝对值之和 ($\sum
系数变化系数缩小,趋向于 0 但不等于 0可能将某些系数直接压缩为0
特征选择保留所有特征,只是权重变小可以进行特征选择(稀疏解)
适用场景所有特征都重要,或存在多重共线性希望剔除无关特征,简化模型

6. 结合(ERQ 论文)

Zhang, K., et al. “ERQ: Error Reduction for Post-Training Quantization of Vision Transformers.”ICML 2024.
作者使用岭回归的目的是:

  1. 计算稳定性:公式中的λ1I\lambda_1 Iλ1I确保矩阵E[xˉxˉT]+λ1IE[\bar{x}\bar{x}^T] + \lambda_1 IE[xˉxˉT]+λ1I总是可逆的,避免了计算错误。
  2. 抑制离群值:通过限制权重调整量δW∗\delta W^*δW的大小,防止模型对某些极端数据点(离群值)过度反应。
  3. 优化量化表现:通过稳定地求解最优权重调整,使得量化后的模型误差最小化。

总结:岭回归是一种通过“牺牲少量偏差”来大幅降低“方差”,从而获得更稳定、更可靠预测模型的统计技术。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/19 23:11:29

SuperRDP终极指南:一键解锁Windows远程桌面完整功能

SuperRDP终极指南:一键解锁Windows远程桌面完整功能 【免费下载链接】SuperRDP Super RDPWrap 项目地址: https://gitcode.com/gh_mirrors/su/SuperRDP SuperRDP是一款基于RDPWrap技术开发的智能工具,专门解决Windows系统远程桌面功能的各种限制。…

作者头像 李华
网站建设 2026/5/19 23:08:15

软件测试行业的“职业歧视”:为什么测试工程师的地位不如开发工程师

一、被误解的“低门槛”:职业歧视的源头在IT行业的职业认知里,软件测试常常被贴上“低门槛”“退而求其次”的标签。不少人觉得,测试工程师就是“点点页面、写写用例、提提Bug”的执行者,甚至有在校生会认为“代码写不好才去做测试…

作者头像 李华
网站建设 2026/5/19 23:08:15

海外盲盒做前后端分离开发 真的适合中小开发者吗 看完你就懂了

前后端分离不是玄学 先聊聊实际体验做海外盲盒项目,高并发场景下最先被提起的开发模式就是前后端分离。真的有传说中那么香吗?我们先掰开揉碎说清楚。先讲优势吧,最直接的感受就是前后端开发不用挤在一条流水线等进度了。后端只需要专注写接口…

作者头像 李华