news 2026/1/14 3:07:08

机器学习策略(吴恩达深度学习笔记)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习策略(吴恩达深度学习笔记)

目录

0.机器学习策略

1.正交化原则

2.单一数字评估指标

(1)定义

(2)查准率 和 查全率

3.满足和优化指标

(1)介绍

(2)例子

4.训练集,开发集,测试集的划分

(1) 机器学习工作流程

(2)开发集和测试集要来自同一分布

(3)数据集大小划分

(4)什么时候改变指标或开发集/测试集

5.人类水平 / 人类表现

(1)概念

(2)为什么超越人类水平之前一直很快,但超越人类水平进展会变慢。

(3)估计贝叶斯错误率

(4)可避免偏差


0.机器学习策略
  • 优化深度学习模型时,错误的选择可能会浪费很多时间。机器学习策略能让我们找到调整哪些参数最可能有效优化模型的。
1.正交化原则
  • 机器学习中的正交化,核心是让系统的不同组件(调整方案)只负责单一任务,对于不同的情况有专门的解决办法。
  • 比如:模型若训练误差高,只需聚焦提升拟合能力,无需同时调整泛化相关策略。
2.单一数字评估指标
(1)定义
  • 在通过调整参数、更换算法、更改模型结构等方式优化模型时,用一个单一实数来评估优化后的模型是好是坏。
(2)查准率 和 查全率
  • 查准率 (Precision):预测为1中实际为1的比例。(衡量准不准)

  • 查全率 (Recall):实际为1中被预测为1的比例。(衡量漏没漏)

  • 实际情况下要结合查准率和查全率,一般用两者的调和平均数:2 / (1/P + 1/R)

  • 平均率:如果A, B......F 六个国家分类器对于不同国家的错误率和平均错误率如下,则C为最好的分类器。

3.满足和优化指标
(1)介绍
  • 在一些情况中把所有事情组合成单实数评估指标有时并不容易,可能有多个指标,在那些情况里,有时候设立满足指标(satisficing metrics)和优化指标(optimizing metrics)是很重要的。
  • 如果你需要顾及多个指标,比如说,有一个优化指标,你想尽可能优化的,然后还有一个或多个满足指标,需要满足的,需要达到一定的门槛(threshold)。
(2)例子
  • 这里有A、B、C三个分类器,假设我们只看中分类准确度,你可以使用F1分数来衡量。但是如果除了准确度,还需要考虑运行时间,会发现这两个指标不太合适综合成单值评价指标。因此,我们可以说准确度是一个优化指标,因为你想要准确度最大化,而运行时间就是我们所说的满足指标,意思是它必须满足一个阈值,这里假设它只需要小于100毫秒,达到之后,你不在乎这指标有多好。
  • 所以我们选择分类器B
4.训练集,开发集,测试集的划分
(1) 机器学习工作流程
  • 机器学习中的工作流程是用训练集训练不同的模型,然后使用开发集来评估,然后选择一个,之后不断迭代去改善开发集的性能,直到最后你可以得到一个令你满意的成本,然后你再用测试集去评估
(2)开发集和测试集要来自同一分布
  • 如果你的开发集和测试集来自不同的分布,针对开发集优化时瞄准一个靶心,而在测试时效果却不佳,因为靶心移到不同的位置了。为了避免这种情况,要将所有数据随机洗牌,放入开发集和测试集,使开发集和测试集都来自同一分布,这分布就是把所有数据混在一起服从的分布。
(3)数据集大小划分
  • 旧的划分方式
    机器学习早期,这样70/30或者60/20/20分的经验法则是相当合理的。如果你有几千个样本或者有一万个样本,这些做法也还是合理的。
  • 但在现代机器学习中,我们更习惯操作规模大得多的数据集,比如说1百万个训练样本,这样分可能更合理,98%作为训练集,1%开发集,1%测试集
(4)什么时候改变指标或开发集/测试集
  • 总结:有问题的时候
  • eg1:构建一个猫分类器,试图找到很多猫的照片,使用的指标是分类错误率。算法A和B分别有3%错误率和5%错误率,所以算法A似乎做得更好。但是算法A由于某些原因,把很多色情图片分类成猫了,而算法B没有让任何色情图像通过,从用户接受的角度来看,算法B更好。这时应该改变评估指标,或者要改变开发集或测试集。
  • eg2:现在两个分类器A和B,在开发集上分别有3%和5%的错误率,但在实际部署产品时,算法B表现更好。研究发现训练过程使用的都是高质量图片,而部署到手机应用时,用户上传的图片是低质量的,这些图片取景不专业,猫不完整,或图像模糊。开发集/测试集和实际应用的图片不同分布,所以方针就是修改指标或者开发测试集。
5.人类水平 / 人类表现
(1)概念
  • 我们衡量一个模型的好坏,通常把它和人类表现相比较
  • 如图,训练模型时,随着时间的延长,模型的表现会超过人类表现水平,之后性能或准确率上升就会变得缓慢,而且不会一个超过理论上限——贝叶斯最优错误率
  • 贝叶斯最优错误(Bayes Optimal Error)是所有可能的分类器(包括最优分类器)在给定数据分布下能达到的最小错误率,是衡量模型性能的理论上限
(2)为什么超越人类水平之前一直很快,但超越人类水平进展会变慢。
  • 因为模型的训练是人类来改进的,在未达到人类水平之前,人类可以看到模型的不足(网络结构、算法、偏差方差.......)并改进,超过人类水平后,人类很难找到不足之处
(3)估计贝叶斯错误率
  • 一些情况下,可以用人类水平的错误率估计或代替贝叶斯错误率
  • 对于计算机视觉任务而言,这样替代相当合理,因为人类实际上是非常擅长计算机视觉任务的,所以人类能做到的水平和贝叶斯错误率相差不远。
(4)可避免偏差
  • 贝叶斯错误率或者对贝叶斯错误率的估计和训练错误率之间的差值称为可避免偏差(avoidable bias)
  • 你可能希望一直提高训练集表现,直到你接近贝叶斯错误率,但实际上你也不希望做到比贝叶斯错误率更好,因为理论上是不可能超过贝叶斯错误率的,除非过拟合。而训练错误率和开发错误率之前的差值,就大概说明你的算法在方差
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/9 10:25:44

bRPC深度架构剖析:从核心机制到百万级实战优化

bRPC深度架构剖析:从核心机制到百万级实战优化 【免费下载链接】brpc 项目地址: https://gitcode.com/gh_mirrors/br/brpc bRPC框架作为百度开源的高性能RPC解决方案,在分布式通信领域展现出了卓越的性能表现。本文将从技术架构深度剖析、核心机…

作者头像 李华
网站建设 2026/1/10 3:58:20

本地部署文件共享软件 Jirafeau 并实现外网访问

Jirafeau 是一款允许一键文件共享的开源软件,上传文件方式简单,为其提供一个唯一的链接。能够发送任何大小的文件,在浏览器预览并提供密码保护。本文将详细的介绍如何利用 Docker 在本地部署 Jirafeau 并结合路由侠实现外网访问本地部署的 Ji…

作者头像 李华
网站建设 2025/12/12 19:13:31

UniVRM新手指南:5个简单步骤快速上手VRM模型

UniVRM新手指南:5个简单步骤快速上手VRM模型 【免费下载链接】UniVRM UniVRM is a gltf-based VRM format implementation for Unity. English is here https://vrm.dev/en/ . 日本語 はこちら https://vrm.dev/ 项目地址: https://gitcode.com/gh_mirrors/un/Uni…

作者头像 李华
网站建设 2025/12/12 19:12:42

5分钟攻克动画渲染难题:Lottie-Web全栈部署手册

5分钟攻克动画渲染难题:Lottie-Web全栈部署手册 【免费下载链接】lottie-web 项目地址: https://gitcode.com/gh_mirrors/lot/lottie-web 还在为跨平台动画适配头疼?这篇指南让你少走弯路 当你在After Effects中精心设计的动画需要在前端项目中…

作者头像 李华
网站建设 2026/1/12 22:19:39

ECM CCP

Cross-Component Prediction (CCP) Merge Mode Candidate Selection即:跨分量预测(色度基于亮度残差建模)的合并模式候选列表构建机制。一、背景:什么是 CCP? ✅ 跨分量预测(Cross-Component Prediction, C…

作者头像 李华
网站建设 2025/12/12 19:10:19

2025可观测平台选型指南:全球领先厂商综合对比与推荐

引言:为什么企业需要可观测平台? 随着数字化转型深入,企业IT系统日益复杂,微服务、容器化、多云架构成为常态。传统监控手段已难以实现对系统状态的全面洞察。根据Gartner预测,到2027年,超过50%的企业将依…

作者头像 李华