news 2026/6/10 11:56:35

监督学习vs无监督学习:AI如何看懂世界

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
监督学习vs无监督学习:AI如何看懂世界

一、监督学习 vs 无监督学习

1. 监督学习(Supervised Learning)

  • 定义:模型从带有标签的数据中学习规律。
  • 关键特征:每条输入数据都有一个“正确答案”(标签)。
  • 目标:学会从输入预测输出。

例子

  • 输入一张猫的图片 → 标签是 “猫”
  • 输入一段话:“这部电影太棒了!” → 标签是 “正面情感”

🧠 常见任务:

  • 分类(Classification):预测类别(如垃圾邮件/非垃圾邮件)
  • 回归(Regression):预测数值(如房价、温度)

💡数据标注主要服务于监督学习,因为标签需要人工或半自动方式提供。


2. 无监督学习(Unsupervised Learning)

  • 定义:模型从没有标签的数据中发现隐藏结构。
  • 关键特征:只有输入,没有“正确答案”。
  • 目标:发现数据中的模式、分组或降维。

例子

  • 给1000个用户行为数据,自动分成“高活跃”“低活跃”等群体(聚类)
  • 把高维数据压缩成2D以便可视化(降维,如PCA)

🧠 常见任务:

  • 聚类(Clustering):如K-Means
  • 降维(Dimensionality Reduction)
  • 异常检测(Anomaly Detection)

❗ 无监督学习不需要人工标注,但效果通常不如监督学习可控。


对比总结表:

表格

特性监督学习无监督学习
是否需要标签✅ 需要❌ 不需要
数据标注角色核心
典型任务分类、回归聚类、降维
应用举例图像识别、语音识别客户分群、推荐系统

二、训练集、验证集、测试集的作用

想象你在教一个学生准备考试:

  • 训练集(Training Set)→ 学生平时做的练习题(用来学习)
  • 验证集(Validation Set)→ 模拟考试(用来调整学习方法)
  • 测试集(Test Set)→ 正式高考(用来最终评估水平)

详细说明:

表格

数据集占比(常见)作用是否参与模型训练?
训练集60%~80%模型从中学习参数✅ 是
验证集10%~20%调整超参数(如学习率)、选择模型、防止过拟合❌ 否(不用于更新参数,但用于决策)
测试集10%~20%最终评估模型性能,模拟真实场景❌ 否(完全隔离,只用一次)

⚠️重要原则

  • 测试集绝对不能在训练或调参时使用,否则会“作弊”,导致评估结果虚高。
  • 数据划分要随机且有代表性,避免偏差(比如所有猫图片都在测试集里)。

三、常见AI任务类型(与数据标注密切相关)

以下是三大主流计算机视觉任务(NLP也有类似分类):

1.图像分类(Image Classification)

  • 任务:判断一张图属于哪个类别。
  • 标注形式:整张图一个标签
    📌 例:image_001.jpg → "狗"

2.目标检测(Object Detection)

  • 任务:找出图中所有目标的位置和类别。
  • 标注形式:每个目标用一个边界框(Bounding Box) + 类别标签
    📌 例:在图中画一个框标出“猫”,另一个框标出“椅子”

3.语义分割(Semantic Segmentation)

  • 任务:对图像中每个像素打标签,标明属于哪个类别。
  • 标注形式:像素级掩码(Mask)
    📌 例:道路像素标为“路面”,行人像素标为“人”

🔍 还有更细粒度的任务,如:

  • 实例分割(Instance Segmentation):区分同一类别的不同个体(如两只不同的猫)
  • 关键点检测(Keypoint Detection):标出人体关节位置(用于姿态估计)

小练习(自测)

  1. 如果你要训练一个识别交通标志的模型,应该用监督学习还是无监督学习?为什么?
  2. 为什么不能用测试集来调整模型参数?
  3. 下面哪种任务需要最精细的标注?
    A. 图像分类
    B. 目标检测
    C. 语义分割

(答案见下方 👇)


参考答案

  1. 监督学习,因为需要明确知道每张图对应的是“停车标志”“限速标志”等标签。
  2. 因为会导致模型“记住”测试集,无法反映真实泛化能力,评估结果不可信。
  3. C. 语义分割(每个像素都要标注,工作量最大)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/4 10:33:00

UDS协议基础概念图解说明:小白也能看懂的教程

UDS协议入门图解:从零理解汽车诊断通信你有没有想过,当你的爱车仪表盘亮起“发动机故障灯”,4S店的技师是如何在几分钟内精准定位问题的?背后支撑这套高效诊断系统的,正是我们今天要讲的主角——UDS协议。别被名字吓到…

作者头像 李华
网站建设 2026/6/4 10:32:05

Nodejs和vue的艺术作品展示平台 艺术家在线交流系统 关注

文章目录艺术作品展示与交流平台摘要--nodejs技术栈--结论源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!艺术作品展示与交流平台摘要 Node.js与Vue构建的艺术作品展示平台为艺术家和艺术爱好者提供在线展示、交流与合作的数字化空间。…

作者头像 李华
网站建设 2026/6/8 1:32:00

AI手势识别未来趋势:无接触交互将成为主流?入门必看

AI手势识别未来趋势:无接触交互将成为主流?入门必看 随着人机交互方式的不断演进,AI手势识别技术正从科幻走向现实。从智能汽车的空中操控,到AR/VR中的自然交互,再到智能家居的“隔空点控”,无接触式交互正…

作者头像 李华
网站建设 2026/6/8 16:21:41

智能打码系统性能分析:AI隐私卫士基准

智能打码系统性能分析:AI隐私卫士基准 1. 引言:AI驱动的隐私保护新范式 随着社交媒体和数字影像的普及,个人隐私泄露风险日益加剧。尤其是在多人合照、公共监控或远距离抓拍等场景中,未经处理的人脸信息极易被滥用。传统的手动打…

作者头像 李华
网站建设 2026/6/4 3:57:27

2017:我为AI点亮火种-第9集:手搓!Transformer核心

笔言: 姊妹篇已一路高歌冲至《2005:我在硅谷种AI》第6集——手写数字的5层尊严(神经网络初登场) 故事大纲(30集微故事版) 核心设定: 主角陈默,2025年顶尖AI科学家,在突破AGI实验时因…

作者头像 李华
网站建设 2026/6/8 18:31:33

2005:我在硅谷种AI-第7集:过拟合的幽灵

笔言: 推荐AI相关我正在写故事: 我在蒸汽纪元证真理 【AI数学基础】和重生1995:我的数学模型能暴击【数学模型】 故事大纲(25集结构版) 核心设定: 主角陆眠,2025年谷歌Brain部门“反内卷”科学家,在演示极简…

作者头像 李华