岭回归(Ridge Regression),也称为L2正则化回归或蒂霍诺夫正则化(Tikhonov Regularization),是一种用于分析多重共线性数据(即自变量之间高度相关)的线性回归分析方法。
简单来说,它是标准线性回归(OLS)的一种改进版本,旨在解决标准线性回归在特定条件下“不稳定”或“过拟合”的问题。
以下是关于岭回归的核心要点解析:
1. 核心问题:为什么要用岭回归?
在标准的线性回归中,我们的目标是最小化预测值与真实值之间的误差(通常使用均方误差,MSE)。其数学解通常涉及计算矩阵XTXX^TXXTX的逆矩阵(XTX)−1(X^TX)^{-1}(XTX)−1。
然而,当出现以下情况时,标准线性回归会失效或表现不佳:
- 多重共线性(Multicollinearity):特征(自变量)之间存在高度相关性。
- 特征数量多于样本数量:矩阵XTXX^TXXTX可能不可逆(奇异矩阵),导致无法求解。
- 过拟合(Overfitting):模型为了拟合训练数据中的噪声,导致系数(weights)变得极大且不稳定。
2. 岭回归的解决方案:L2 正则化
岭回归通过在损失函数中加入一个**惩罚项(Penalty Term)**来解决上述问题。
标准线性回归的损失函数:
J(β)=∑i=1n(yi−y^i)2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2J(β)=i=1∑n(yi−y^i)2
(即:残差平方和)岭回归的损失函数:
J(β)=∑i=1n(yi−y^i)2+λ∑j=1pβj2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p} \beta_j^2J(β)=i=1∑n(yi−y^i)2+λj=1∑pβj2- 第一部分∑(yi−y^i)2\sum (y_i - \hat{y}_i)^2∑(yi−y^i)2:依然是最小化预测误差。
- 第二部分λ∑βj2\lambda \sum \beta_j^2λ∑βj2:L2 正则化项。
- βj\beta_jβj是回归系数。
- λ\lambdaλ(Lambda) 是正则化参数,控制惩罚的力度。
3. 关键机制:系数收缩(Shrinkage)
岭回归的核心思想是限制系数的大小。
- 通过最小化“误差 + 系数平方和”,算法会倾向于选择较小的系数值。
- 如果λ=0\lambda = 0λ=0,岭回归退化为标准线性回归。
- 如果λ\lambdaλ很大,系数会被强烈压缩,接近于 0(但通常不会正好等于 0,这是它与 L1 正则化/Lasso 的主要区别)。
4. 岭回归的主要优点
- 提高数值稳定性:在公式(XTX+λI)−1(X^TX + \lambda I)^{-1}(XTX+λI)−1中,加入λI\lambda IλI(其中III是单位矩阵,λ>0\lambda > 0λ>0)可以确保矩阵始终可逆且条件数良好。这就是你在前文提到的 ERQ 算法中使用岭回归的原因——它确保了矩阵求逆的计算稳定性。
- 处理多重共线性:当特征高度相关时,岭回归能提供比标准回归更稳定的系数估计。
- 防止过拟合:通过惩罚大系数,降低了模型的复杂度,提高了模型在未知数据上的泛化能力。
5. 岭回归 vs. Lasso (L1 正则化)
| 特性 | 岭回归 (Ridge, L2) | Lasso (L1) |
|---|---|---|
| 惩罚项 | 系数的平方和 (∑β2\sum \beta^2∑β2) | 系数的绝对值之和 ($\sum |
| 系数变化 | 系数缩小,趋向于 0 但不等于 0 | 可能将某些系数直接压缩为0 |
| 特征选择 | 保留所有特征,只是权重变小 | 可以进行特征选择(稀疏解) |
| 适用场景 | 所有特征都重要,或存在多重共线性 | 希望剔除无关特征,简化模型 |
6. 结合(ERQ 论文)
Zhang, K., et al. “ERQ: Error Reduction for Post-Training Quantization of Vision Transformers.”ICML 2024.
作者使用岭回归的目的是:
- 计算稳定性:公式中的λ1I\lambda_1 Iλ1I确保矩阵E[xˉxˉT]+λ1IE[\bar{x}\bar{x}^T] + \lambda_1 IE[xˉxˉT]+λ1I总是可逆的,避免了计算错误。
- 抑制离群值:通过限制权重调整量δW∗\delta W^*δW∗的大小,防止模型对某些极端数据点(离群值)过度反应。
- 优化量化表现:通过稳定地求解最优权重调整,使得量化后的模型误差最小化。
总结:岭回归是一种通过“牺牲少量偏差”来大幅降低“方差”,从而获得更稳定、更可靠预测模型的统计技术。