news 2026/7/4 14:42:15

17、机器学习中的性能评估与数据集处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
17、机器学习中的性能评估与数据集处理

机器学习中的性能评估与数据集处理

1. 人类水平性能概述

人类水平性能(Human - Level Performance,HLP)在机器学习评估中是一个重要概念。在人类擅长的任务,如图像识别中,人类水平性能可作为贝叶斯误差的良好近似。但对于人类不擅长的任务,其性能可能与贝叶斯误差相差甚远。

Andrej Karpathy在2014年的ILSVRC(ImageNet Large Scale Visual Recognition Challenge)中的工作很好地说明了人类水平性能的评估复杂性。该挑战包含120万张图像的训练集,分为1000个类别。GoogleLeNet模型达到了6.7%的误差率,Karpathy想了解人类的表现如何。

最初认为由于图像由人类分类,人类水平误差率(ϵhlp)应为0%,但实际并非如此。图像通过网络搜索获取,然后通过向人们询问二元问题(如“这是一个钩子吗?”)进行过滤和标注,并非像算法那样从1000个类别中为每张图像分配一个类别。

Karpathy开发了一个网络界面,左边是图像,右边是1000个类别及示例。人们使用该界面时不断漏选类别和犯错,最佳误差率约为15%。后来,Karpathy亲自进行仔细标注,达到了惊人的ϵhlp = 5.1%,比当时最好的算法还要好1.7%。他还列出了GoogLeNet比人类更易出错的情况(如图像中有多个对象),以及人类比GoogLeNet更易出错的情况(如类别粒度大,像狗有120个不同子类)。

2. MNIST数据集上的人类水平性能

MNIST数据集上的人类水平性能也有广泛分析,结果显示ϵhlp = 0.2%。人们可能疑惑为何人类不能100%准确分类简单数字,实

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/1 11:00:24

21、超参数调优方法全解析

超参数调优方法全解析 在超参数调优的领域中,有多种方法可供选择,每种方法都有其独特的优势和适用场景。下面将详细介绍随机搜索、粗到细优化以及贝叶斯优化等方法。 1. 随机搜索与网格搜索对比 随机搜索在平均情况下比网格搜索更具优势,通过随机搜索得到的值通常更接近真…

作者头像 李华
网站建设 2026/7/3 20:48:39

9、热门安卓游戏大揭秘

热门安卓游戏大揭秘 1. 愤怒的小鸟(Angry Birds) 1.1 游戏介绍 愤怒的小鸟是一款对传统炮弹游戏进行创新的作品。在游戏里,你不用发射炮弹攻击敌人,而是通过弹弓弹射小鸟来打击敌人——那些偷走鸟蛋的绿色小猪。小猪们躲在用玻璃、木头和煤渣砖临时搭建的堡垒中。 每个…

作者头像 李华
网站建设 2026/6/30 3:05:58

16、Android实用应用推荐:探索星空、购物与知识查询的利器

Android实用应用推荐:探索星空、购物与知识查询的利器 在当今数字化时代,Android应用程序为我们的生活带来了极大的便利和乐趣。无论是探索宇宙奥秘、查询单词、了解产品召回信息,还是进行在线购物,都有相应的应用程序可以满足需求。本文将为您介绍一些实用的Android应用,…

作者头像 李华
网站建设 2026/7/2 9:26:23

5分钟掌握百度网盘直链提取:告别限速困扰的终极指南

5分钟掌握百度网盘直链提取:告别限速困扰的终极指南 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘蜗牛般的下载速度而烦恼吗?baidu-wa…

作者头像 李华
网站建设 2026/7/1 10:51:26

【2025最新】基于SpringBoot+Vue的web物流管理系统管理系统源码+MyBatis+MySQL

摘要 随着电子商务和全球化贸易的快速发展,物流管理系统在现代商业活动中扮演着至关重要的角色。传统的物流管理方式往往依赖手工操作和纸质记录,效率低下且容易出错,难以满足日益增长的物流需求。物流管理系统的数字化和智能化转型成为企业提…

作者头像 李华
网站建设 2026/6/26 9:08:29

ModbusTCP报文头部解析:核心要点一文说清

深入ModbusTCP报文头部:从协议结构到实战调试在工业自动化现场,你是否曾遇到过这样的问题——主站发出了读取指令,但从站迟迟没有响应?或者多个设备并发通信时,数据突然“串了”?这些问题的背后&#xff0c…

作者头像 李华