机器学习的模型评估与优化-平芜编程栈

当我们定义好一个模型之后，如何对模型进行评估呢？对于评估指标我们又应该通过调整什么而去优化模型呢？这就是我们现在要讨论的问题。

首先，对于第一个问题，这里有两个概念——偏差和方差。偏差大说明模型欠拟合；方差大说明模型过拟合，泛化能力差。

对于偏差大的情况，可以考虑增加模型的复杂度（增加多项式/网络层数）、减轻正则化。

对于方差大的情况，可以考虑增加数据、减少特征、加重正则化。

下面对其中方法具体介绍：

1、正则化

正则化的理解部分在另一文章中有详细介绍，所以这里重点介绍如何找到合适的 λ 。可以通过控制 λ 的大小，画出在不同 λ 下构成的损失曲线，当 λ 过于小时，呈现出训练集损失很小而验证集上损失很大，也就是过拟合现象；而当 λ 过于大时，呈现出训练集和验证集的损失都很大，也就是欠拟合现象。我们中间的一个点使得两者都尽可能小。这里引用吴恩达老师的图作为展示。

2、数据规模

对于同一个模型，数据规模的增加会使得模型在训练集上更难拟合（损失增大）而验证集上拟合效果变好（损失减小）。但数据规模的影响会随着增加而逐渐减小，也就是说模型时有上限的。

有时我们的数据是有限的，这时我们可以采用数据增强（data augmention）的方式来增加数据。例如一张图片，我们可以对它旋转、裁剪、扭曲、调整对比度等方式，又或者一段音频，我们可以增加各种噪音来干扰，从而达到人为增加训练数据的大小。或者我们可以采用数据合成（data synthesis）的方式，这不是修改现有样本，而是创建全新的样本。在计算机视觉领域，如识别图片中的文字，我们可以利用计算机所拥有的各种字体编写代码生成丰富的数据集。

对于数据规模实在有限的情况。我们可以使用迁移学习的方式。比如，现在我们要解决一个图像分类任务，但是我们手头并没有足够的数据，我们可以用一个已经在大数据集上训练好的类似的图像分类模型作为我们的初始模型修改分类头后做训练，或者把它的部分甚至全部参数冻结，在修改的分类头上做训练。

3、特征数量

特征的引入可以增加信息的丰富度，提高模型的预测能力，同时也会导致计算成本提高、收敛速度变慢，同时特征过多，尤其是包含大量冗余的噪声特征时，会使得模型过拟合严重。

通过特征选择，我们可以得到现有特征中与标签关联度更高的特征参与训练，从而避免过拟合。而当我们的现有特征仍然欠拟合时，我们可以通过误差分析的方式找到更多的相关特征。比如对于现在预测出错的样本，我们可以从中抽出一部分人工计算统计，找到这些样本的一些共同点作为新特征加入到训练中。

[深度学习]KagglePreprocessing actually: led to a decrease in scores,ErrorExitStandard

遇到的“预处理后效果反而下降”和“更换更强模型（XGBoost）后效果更差”是Kaggle泰坦尼克号竞赛中非常典型的现象。这通常不是模型或预处理本身的问题，而是数据处理、特征工程或模型调参不当导致的。根据您提供的数据（RF: 0.77 -&…

李华

从GDAS1到NetCDF：一个气象小白的Python数据处理实战记录（含完整代码）

从GDAS1到NetCDF：气象数据处理实战全流程解析第一次接触气象数据时，我被那些神秘的缩写和复杂的格式搞得晕头转向。GDAS1、NetCDF、GRIB...这些术语就像一堵高墙，把初学者挡在了气象数据分析的门外。直到我亲手用Python处理了第一份GDAS1数据…

李华

保姆级教程：用QEMU的snapshot功能三秒恢复虚拟机状态（附Windows+Debian实战）

三秒回档：QEMU检查点快照的开发者效率革命刚配好的开发环境总像易碎的玻璃工艺品——一个rm -rf误操作、一次手滑的依赖升级，就可能让数小时的系统调优付诸东流。QEMU的检查点快照（checkpoint snapshot）功能如同游戏存档系统&…

李华

告别点灯！用LVGL在ESP32上快速打造智能家居控制面板（附完整工程）

告别点灯！用LVGL在ESP32上快速打造智能家居控制面板（附完整工程）智能家居控制面板作为家庭自动化系统的核心交互入口，其用户体验直接影响着整套系统的使用感受。传统的嵌入式界面开发往往需要从底层绘制像素开始，耗费大…

李华

碧蓝航线自动化革命：如何用Alas脚本每天节省3小时游戏时间

碧蓝航线自动化革命：如何用Alas脚本每天节省3小时游戏时间【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研，全自动大世界项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript 你是否…

李华

音频自监督学习评估新方法：凸门控探测技术解析

1. 音频自监督学习的评估困境与突破在计算机视觉领域，冻结特征探测（frozen-feature probing）已成为评估自监督学习（SSL）嵌入质量的黄金标准。这种方法通过保持预训练模型参数冻结，仅训练轻量级探测头&#…

李华