news 2026/4/23 14:12:52

从高斯到深度学习:最小二乘法凭什么成为AI的基石?一个故事讲透

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从高斯到深度学习:最小二乘法凭什么成为AI的基石?一个故事讲透

从高斯到深度学习:最小二乘法凭什么成为AI的基石?

1801年元旦之夜,意大利天文学家皮亚齐发现了一颗新的"行星"——谷神星。但在跟踪观测40天后,这颗天体消失在太阳光晕中。当时24岁的高斯仅凭少量观测数据,通过最小二乘法成功预测了谷神星轨道,让天文学界重新找回了这颗矮行星。这个传奇故事背后,隐藏着一个贯穿两个世纪的技术思想:用误差的数学语言揭示世界运行规律。

1. 误差的民主:最小二乘法的哲学革命

当勒让德在1805年首次发表最小二乘法时,他或许没有意识到这不仅是数学工具的创新,更是一种全新的科学方法论。在牛顿力学统治的时代,科学家们追求的是绝对精确的"上帝公式",而最小二乘准则却坦然承认观测误差的普遍性,并赋予其数学表达的权利。

勒让德的关键突破在于建立了误差平衡原则

  • 单一极端误差不应主导整体模型
  • 所有观测点都平等参与参数决定
  • 平方运算巧妙避免了正负误差抵消

这种思想在当时堪称离经叛道。法国科学院曾记录拉普拉斯的质疑:"为什么要容忍误差?难道不应该追求更精确的仪器吗?"但历史证明,正是这种对不完美的数学处理,反而更真实地反映了客观世界。

提示:现代传感器数据采集依然遵循这一原则——单个异常值不应完全扭曲系统认知

2. 高斯的正态分布:给误差穿上数学外衣

最小二乘法最初面临的核心质疑是:为什么选择平方和,而不是绝对值四次方?这个问题的答案来自高斯1809年的天体运动研究。他揭示了一个深刻规律:当误差由大量微小独立因素共同作用时,其分布必然呈现钟形曲线——这就是正态分布(高斯分布)的起源。

正态分布与最小二乘的等价性证明

  1. 设观测误差ϵ∼N(0,σ²)
  2. 单个数据点似然函数:
    def likelihood(y_true, y_pred, sigma): return (1/(np.sqrt(2*np.pi)*sigma)) * np.exp(-(y_true-y_pred)**2/(2*sigma**2))
  3. 对数似然函数化简后得到:
    \arg\max_\theta \sum \log p(y_i|x_i;\theta) \propto \arg\min_\theta \sum(y_i-f_\theta(x_i))^2

这个数学奇迹解释了为什么平方误差最小化如此有效——它等价于寻找最可能生成现有数据的模型参数。正态分布就像自然界设定的默认协议,而最小二乘法是这个协议的完美解码器。

3. 从线性回归到神经网络:损失函数的进化之路

20世纪50年代,统计学家们发现最小二乘法的应用远不止于天体轨道预测。在简单的线性回归模型中:

方法损失函数假设条件
普通最小二乘∑(y-Xβ)²误差同方差、独立
岭回归∑(y-Xβ)²+λ‖β‖²存在多重共线性
Lasso回归∑(y-Xβ)²+λ‖β‖₁需要特征选择

但随着问题复杂度提升,固定形式的模型遇到瓶颈。2012年AlexNet在ImageNet竞赛中的突破,展示了神经网络的强大表达能力。有趣的是,当处理回归问题时,深度学习仍然广泛使用均方误差(MSE)作为损失函数——这本质上就是最小二乘准则的现代版。

MSE在深度学习中的实现

import torch.nn as nn loss_fn = nn.MSELoss() # 内部实现就是 (y_pred-y_true).pow(2).mean()

为什么经过两个世纪,这个古老准则仍在最前沿的AI技术中发光发热?答案在于:当神经网络作为万能函数逼近器时,MSE依然保证着参数估计的最大似然性

4. 贝叶斯视角下的现代演绎

21世纪机器学习的发展给最小二乘法注入了新的活力。贝叶斯学派将参数θ视为随机变量,形成了更完整的概率图景:

  1. 先验分布:p(θ) ∼ N(0,λ⁻¹I)
  2. 似然函数:p(D|θ) ∼ ∏N(y_i|f_θ(x_i),σ²)
  3. 后验分布:p(θ|D) ∝ p(D|θ)p(θ)

在这种框架下,传统岭回归的自然解释就是高斯先验下的最大后验估计(MAP)。而深度学习中的权重衰减技术,本质上也是这种思想的延伸。

概率编程实例(Pyro实现)

import pyro def model(X, y): theta = pyro.sample("theta", dist.Normal(0, 1)) with pyro.plate("data", len(X)): pyro.sample("obs", dist.Normal(X*theta, 0.1), obs=y)

这种统一视角揭示了:从高斯时代到深度学习,我们一直在用概率语言描述知识的不确定性,只是工具越来越强大。

5. 超越回归:最小二乘思想的泛化应用

最小二乘法的精髓——"在不确定性中寻找最优平衡",已经渗透到AI的各个领域:

  • 计算机视觉:关键点检测中的坐标回归
  • 自然语言处理:词向量距离度量
  • 强化学习:值函数近似时的TD误差
  • 生成模型:VAE的重建损失项

在Transformer架构中,虽然交叉熵主导了分类任务,但回归任务(如目标检测框预测)仍然依赖MSE损失。这形成了一个有趣的哲学对称:人类用离散符号(语言)和连续量(物理量)两种方式理解世界,而AI用交叉熵和最小二乘分别处理这两种信息。

当我们在PyTorch中轻轻敲下nn.MSELoss()时,不妨回想一下高斯当年用鹅毛笔在羊皮纸上推导的公式。科学思想的伟大之处,正在于它能穿越时空界限,在全新的技术环境中重获新生。或许这就是最小二乘法给当代AI从业者的最大启示:真正深刻的数学洞察,永远不会过时。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:11:23

导数概念解析:从基础计算到实际应用

1. 导数概念的本质与直观理解微积分中的导数概念,本质上描述的是函数在某一点处的瞬时变化率。想象你正在驾驶汽车行驶在高速公路上,仪表盘上的速度表指针不断摆动——这个实时显示的速度值,就是你的位置函数关于时间的导数。在数学表达上&am…

作者头像 李华
网站建设 2026/4/23 14:09:00

如何快速掌握HM3D:面向AI研究者的完整实战指南

如何快速掌握HM3D:面向AI研究者的完整实战指南 【免费下载链接】habitat-matterport3d-dataset This repository contains code to reproduce experimental results from our HM3D paper in NeurIPS 2021. 项目地址: https://gitcode.com/gh_mirrors/ha/habitat-m…

作者头像 李华
网站建设 2026/4/23 14:04:36

ZXPInstaller:免费开源Adobe插件安装终极指南

ZXPInstaller:免费开源Adobe插件安装终极指南 【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 你是否曾经因为Adobe插件的安装问题而烦恼?当官方工具早…

作者头像 李华
网站建设 2026/4/23 14:03:31

终极指南:5个简单步骤让GitHub完美显示LaTeX数学公式

终极指南:5个简单步骤让GitHub完美显示LaTeX数学公式 【免费下载链接】github-mathjax 项目地址: https://gitcode.com/gh_mirrors/gi/github-mathjax 还在为GitHub上的数学公式无法正常显示而烦恼吗?专业的LaTeX公式在代码仓库中变成了难以理解…

作者头像 李华