从高斯到深度学习：最小二乘法凭什么成为AI的基石？一个故事讲透-平芜编程栈

从高斯到深度学习：最小二乘法凭什么成为AI的基石？

1801年元旦之夜，意大利天文学家皮亚齐发现了一颗新的"行星"——谷神星。但在跟踪观测40天后，这颗天体消失在太阳光晕中。当时24岁的高斯仅凭少量观测数据，通过最小二乘法成功预测了谷神星轨道，让天文学界重新找回了这颗矮行星。这个传奇故事背后，隐藏着一个贯穿两个世纪的技术思想：用误差的数学语言揭示世界运行规律。

1. 误差的民主：最小二乘法的哲学革命

当勒让德在1805年首次发表最小二乘法时，他或许没有意识到这不仅是数学工具的创新，更是一种全新的科学方法论。在牛顿力学统治的时代，科学家们追求的是绝对精确的"上帝公式"，而最小二乘准则却坦然承认观测误差的普遍性，并赋予其数学表达的权利。

勒让德的关键突破在于建立了误差平衡原则：

单一极端误差不应主导整体模型
所有观测点都平等参与参数决定
平方运算巧妙避免了正负误差抵消

这种思想在当时堪称离经叛道。法国科学院曾记录拉普拉斯的质疑："为什么要容忍误差？难道不应该追求更精确的仪器吗？"但历史证明，正是这种对不完美的数学处理，反而更真实地反映了客观世界。

提示：现代传感器数据采集依然遵循这一原则——单个异常值不应完全扭曲系统认知

2. 高斯的正态分布：给误差穿上数学外衣

最小二乘法最初面临的核心质疑是：为什么选择平方和，而不是绝对值四次方？这个问题的答案来自高斯1809年的天体运动研究。他揭示了一个深刻规律：当误差由大量微小独立因素共同作用时，其分布必然呈现钟形曲线——这就是正态分布（高斯分布）的起源。

正态分布与最小二乘的等价性证明：

设观测误差ϵ∼N(0,σ²)

单个数据点似然函数：

def likelihood(y_true, y_pred, sigma): return (1/(np.sqrt(2*np.pi)*sigma)) * np.exp(-(y_true-y_pred)**2/(2*sigma**2))

对数似然函数化简后得到：

\arg\max_\theta \sum \log p(y_i|x_i;\theta) \propto \arg\min_\theta \sum(y_i-f_\theta(x_i))^2

这个数学奇迹解释了为什么平方误差最小化如此有效——它等价于寻找最可能生成现有数据的模型参数。正态分布就像自然界设定的默认协议，而最小二乘法是这个协议的完美解码器。

3. 从线性回归到神经网络：损失函数的进化之路

20世纪50年代，统计学家们发现最小二乘法的应用远不止于天体轨道预测。在简单的线性回归模型中：

方法	损失函数	假设条件
普通最小二乘	∑(y-Xβ)²	误差同方差、独立
岭回归	∑(y-Xβ)²+λ‖β‖²	存在多重共线性
Lasso回归	∑(y-Xβ)²+λ‖β‖₁	需要特征选择

但随着问题复杂度提升，固定形式的模型遇到瓶颈。2012年AlexNet在ImageNet竞赛中的突破，展示了神经网络的强大表达能力。有趣的是，当处理回归问题时，深度学习仍然广泛使用均方误差(MSE)作为损失函数——这本质上就是最小二乘准则的现代版。

MSE在深度学习中的实现：

import torch.nn as nn loss_fn = nn.MSELoss() # 内部实现就是 (y_pred-y_true).pow(2).mean()

为什么经过两个世纪，这个古老准则仍在最前沿的AI技术中发光发热？答案在于：当神经网络作为万能函数逼近器时，MSE依然保证着参数估计的最大似然性。

4. 贝叶斯视角下的现代演绎

21世纪机器学习的发展给最小二乘法注入了新的活力。贝叶斯学派将参数θ视为随机变量，形成了更完整的概率图景：

先验分布：p(θ) ∼ N(0,λ⁻¹I)
似然函数：p(D|θ) ∼ ∏N(y_i|f_θ(x_i),σ²)
后验分布：p(θ|D) ∝ p(D|θ)p(θ)

在这种框架下，传统岭回归的自然解释就是高斯先验下的最大后验估计(MAP)。而深度学习中的权重衰减技术，本质上也是这种思想的延伸。

概率编程实例（Pyro实现）：

import pyro def model(X, y): theta = pyro.sample("theta", dist.Normal(0, 1)) with pyro.plate("data", len(X)): pyro.sample("obs", dist.Normal(X*theta, 0.1), obs=y)

这种统一视角揭示了：从高斯时代到深度学习，我们一直在用概率语言描述知识的不确定性，只是工具越来越强大。