news 2026/1/16 11:03:41

7.5 偏差-方差分解与权衡:欠拟合与过拟合的系统分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
7.5 偏差-方差分解与权衡:欠拟合与过拟合的系统分析

7.5 偏差-方差分解与权衡:欠拟合与过拟合的系统分析

机器学习模型在未知数据上的泛化误差是其核心性能的最终度量。理解这一误差的来源,并系统性地对其进行控制,是模型设计与优化的关键。偏差-方差分解为此提供了一个强大的理论框架,它将期望泛化误差清晰地分解为可解释的组成部分,从而将实践中观察到的欠拟合过拟合现象置于严格的理论分析之下。本节将详细阐述这一分解的推导过程、各项成分的统计含义,并基于此框架讨论模型选择与正则化策略的本质。

7.5.1 问题定义:期望预测误差的分解

考虑一个回归问题。设数据由真实函数f ( x ) f(\mathbf{x})f(x)和加性随机噪声ϵ \epsilonϵ生成,其中ϵ \epsilonϵ服从零均值、方差为σ 2 \sigma^2σ2的分布,即y = f ( x ) + ϵ y = f(\mathbf{x}) + \epsilony=f(x)+ϵ,且E [ ϵ ] = 0 \mathbb{E}[\epsilon] = 0E[ϵ]=0Var ( ϵ ) = σ 2 \text{Var}(\epsilon) = \sigma^2Var(ϵ)=σ2

给定一个从数据D DD中学习得到的模型f ^ D ( x ) \hat{f}_D(\mathbf{x})f^D(x),其在某一固定输入点x \mathbf{x}x处的期望预测误差(或称期望测试误差)可以分解为偏差、方差和不可约噪声三部分。这里期望是对所有可能的数据集D DD(来自同一数据生成分布)以及噪声ϵ \epsilonϵ取的。

以平方损失为例,在x \mathbf{x}x点的期望预测误差为:
Err ( x ) = E D , ϵ [ ( y − f ^ D ( x ) ) 2 ] = E D , ϵ [ ( f ( x ) + ϵ − f ^ D ( x ) ) 2 ] \begin{aligned} \text{Err}(\mathbf{x}) &= \mathbb{E}_{D, \epsilon} \left[ (y - \hat{f}_D(\mathbf{x}))^2 \right] \\ &= \mathbb{E}_{D, \epsilon} \left[ (f(\mathbf{x}) + \epsilon - \hat{f}_D(\mathbf{x}))^2 \right] \end{aligned}Err(x)=ED,ϵ

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/14 12:16:20

力扣解题步骤

核心思路回顾通过哈希表存储「已遍历元素值 → 下标」的映射,遍历数组时计算当前元素的 “补数”(目标值 - 当前值),若补数存在于哈希表中,则直接返回结果;若不存在,将当前元素存入哈希表&#…

作者头像 李华
网站建设 2026/1/16 8:18:16

企业级中小社区疫情信息管理系统管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

摘要 近年来,全球范围内的突发公共卫生事件频发,尤其是新冠疫情的暴发,凸显了社区疫情防控信息化建设的重要性。传统社区疫情管理多依赖人工登记和纸质档案,存在效率低、数据共享困难、信息更新滞后等问题,难以应对大规…

作者头像 李华
网站建设 2026/1/15 9:40:18

我发现多中心数据术语冲突 后来用SNOMEDCT编码统一才对齐

📝 博客主页:jaxzheng的CSDN主页 目录医疗数据科学:当Excel表格遇见心跳监测仪 一、从“算术课代表”到医疗数据民工 二、AI诊断系统:当神经网络开始学中医把脉 三、可穿戴设备:当智能手表开始管我吃火锅 四、医疗大数…

作者头像 李华
网站建设 2026/1/14 1:24:23

JVM(JAVA虚拟机内存不足)

这是本人第二次遇到这个问题,打开pycharm还没有Start就撒由那拉了,报出来一堆IDE错误,看都看不懂,上次遇到是大模型的指导改了配置文件依然没解决,这次跟着大佬操作,电脑十分丝滑 步骤(win11&am…

作者头像 李华
网站建设 2026/1/12 23:20:50

类变量和全局变量的生命周期分别是多久?

类变量和全局变量的生命周期核心差异在于创建时机、存活范围、销毁条件,本质由它们的 “归属对象”(类 vs 模块)决定,以下是分维度的精准解析:一、先明确核心前提Python 中变量的生命周期依附于其所属的命名空间对象&a…

作者头像 李华