news 2026/4/1 8:46:27

机器学习实验做得对

张小明

前端开发工程师

1.2k 24

原文：towardsdatascience.com/machine-learning-experiments-done-right-6ed04f5e959b?source=collection_archive---------8-----------------------#2024-12-02

设计机器学习实验的详细指南，旨在产生可靠、可重复的结果。

https://medium.com/@nurakawa?source=post_page---byline--6ed04f5e959b--------------------------------https://towardsdatascience.com/?source=post_page---byline--6ed04f5e959b-------------------------------- Nura Kawa

·发表于Towards Data Science ·7 分钟阅读·2024 年 12 月 2 日

–

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/38487f77eff1f740ac111d30711f00a7.png

图片由Vedrana Filipović提供，来源于Unsplash

机器学习（ML）从业者通过实验来比较不同方法在特定应用和一般问题类型中的有效性。实验结果的有效性取决于从业者如何设计、执行和分析他们的实验。不幸的是，许多机器学习论文缺乏有效的结果。最近的研究[5] [6]揭示了已发布实验的可重复性缺失，归因于以下一些做法：

数据污染：工程训练数据集以包含语义上与测试数据集相似的数据，或直接来自测试数据集
挑选数据：有选择地挑选实验设置或结果，以有利于展示某种方法
误报：包括“使用统计学不当分析结果，如没有适当的统计检验却声称结果显著，或使用错误的统计检验[6]

这些做法不一定是故意为之——从业者可能面临产生快速结果的压力，或缺乏足够的资源。然而，持续采用不良实验做法必然会导致高昂的后果。那么，我们应该如何进行能够产生可重复且可靠结果的机器学习实验呢？在本文中，我们提出了设计和执行严谨机器学习实验的指南。

实验：因素与响应函数

实验涉及一个包含输入、过程和输出的系统，如下图所示。以花园为简单例子：球茎是输入，发芽是过程，花朵是输出。在机器学习系统中，数据输入到学习函数中，输出预测。

实践者旨在最大化某个响应函数的输出——在我们花园的例子中，这可能是开花的数量，而在机器学习系统中，这通常是模型的准确性。这个响应函数依赖于可控因素和不可控因素。园艺师可以控制土壤质量和日常浇水，但无法控制天气。机器学习实践者可以控制大多数机器学习系统中的参数，如训练过程、参数和预处理步骤，而随机性则来自数据选择。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/59f28c280fc552d4f305ce0358efff87.png

实验示意图，基于 [2]

实验的目标是找到最大化响应函数的可控因素的最佳配置，同时最小化不可控因素的影响。一个设计良好的实验需要两个关键要素：一种系统化的方式来测试不同组合的可控因素，以及一种方法来考虑来自不可控因素的随机性。

基于这些原则，清晰且有组织的框架对于有效地设计和执行实验至关重要。下面，我们提供了一份清单，指导实践者进行机器学习实验的规划和实施。

机器学习实验清单

规划并执行严格的机器学习实验：

陈述你的实验目标
选择响应函数，或你想要测量的内容
决定哪些因素变化，哪些因素保持不变
描述实验的一个运行，应定义：
(a) 实验的单一配置
(b) 使用的数据集
选择一个实验设计，应定义：
(a) 我们如何探索因素空间，并且
(b) 我们如何重复测量（交叉验证）
执行实验
分析数据
得出结论和建议

最后的思考

一个机器学习实验有两个关键因素：一种用于测试不同因素组合的系统设计，以及一种控制随机性的交叉验证方案。在实验的规划和执行过程中遵循这篇文章中的机器学习实验检查清单，可以帮助实践者或实践者团队确保实验结果可靠且可重复。

感谢阅读！如果你觉得这篇文章有用，请考虑在Medium上关注我，或查看我的个人网站。

参考文献

[1] Joris Guerin “设计严格的机器学习实验快速指南。”Towards Data Science.在线阅读。

[2] 机器学习实验的设计与分析 — 机器学习 — 2016 年春季 — Kogan 教授。YouTube 视频。

[3] Lawson, John.使用 R 进行实验设计与分析。在线获取。

[4] 机器学习中的可疑做法。ArXiv 预印本。

[5] 提高机器学习研究的可重复性。《机器学习研究期刊》，2022 年。在线获取。

[6] 向量化独立可重复的机器学习研究迈出的一步。ArXiv 预印本。

网站建设 2026/3/27 8:03:16

如何用虚拟定位实现应用级位置管理？FakeLocation让每个应用拥有独立坐标

如何用虚拟定位实现应用级位置管理？FakeLocation让每个应用拥有独立坐标【免费下载链接】FakeLocation Xposed module to mock locations per app. 项目地址: https://gitcode.com/gh_mirrors/fak/FakeLocation 你是否曾因开启全局位置模拟而导致地图导航失…

李华

网站建设 2026/3/31 6:30:06

5个专业配置让ROG笔记本性能全面释放：GHelper性能优化工具技术指南

5个专业配置让ROG笔记本性能全面释放：GHelper性能优化工具技术指南【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other mode…

李华

网站建设 2026/3/18 7:29:14

还在为加密音乐发愁？这款工具让你的音频文件重获自由

还在为加密音乐发愁？这款工具让你的音频文件重获自由【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac，qmc0,qmc3转mp3, mflac,mflac0等转flac)，仅支持macOS，可自动识别到QQ音乐下载目录，默认转…

李华

网站建设 2026/3/20 7:57:08

LAV Filters解码优化与播放体验提升完全指南

LAV Filters解码优化与播放体验提升完全指南【免费下载链接】LAVFilters LAV Filters - Open-Source DirectShow Media Splitter and Decoders 项目地址: https://gitcode.com/gh_mirrors/la/LAVFilters 为什么选择LAV Filters？ 在Windows平台的媒体播放领…

李华

网站建设 2026/3/17 2:48:13

高效下载助手：轻松获取网络资源的三个核心价值与使用指南

高效下载助手：轻松获取网络资源的三个核心价值与使用指南【免费下载链接】E-Hentai-Downloader Download E-Hentai archive as zip file 项目地址: https://gitcode.com/gh_mirrors/eh/E-Hentai-Downloader 🤔 为什么我们需要专业的资源下载工具…

李华

网站建设 2026/3/25 19:58:28

Qwen-Image-Edit详细步骤：上传→指令→生成→下载，全流程可视化操作指南

Qwen-Image-Edit详细步骤：上传→指令→生成→下载，全流程可视化操作指南 1. 为什么你需要一个“本地修图AI”？ 你有没有遇到过这些情况？ 想快速把商品图换背景，但Photoshop太重、不会用； 客户临时要一张“…

李华