一、什么是机器学习?
机器学习 = 让计算机从数据里自己学会规律,而不是靠人一行行写死规则。
传统编程:人写规则 → 输入数据 → 输出结果
机器学习:给数据 + 给答案 → 机器自己学规则 → 以后自己预测新数据
就像教小孩:你给他看很多猫和狗的图片(数据),告诉他哪个是猫哪个是狗(答案),他看多了就会自己认。
二、第一个维度:按「学习方式」分类
这是机器学习最核心、最顶层的分类。
1. 监督学习(Supervised Learning)
有老师教,有标准答案。
- 给机器:输入 + 正确答案
- 机器任务:学会映射关系,以后自己预测
- 典型任务:
- 分类:图片是猫还是狗?邮件是不是垃圾?
- 回归:明天温度多少?房价多少?
例子:给 1000 张带标签的图片(猫 / 狗)→ 训练 → 新图片自动识别。
2. 无监督学习(Unsupervised Learning)
没有老师,没有标准答案,机器自己找规律。
- 给机器:只有数据,没有标签
- 机器任务:自动分组、找结构、降维
- 典型任务:
- 聚类:把相似用户分成一群
- 异常检测:找出奇怪交易
- 降维:把复杂数据变简单
例子:淘宝不知道你喜欢啥,但根据你的浏览记录,自动把你和 “相似品味的人” 聚在一起 → 推荐商品。
3. 强化学习(Reinforcement Learning)
像训练小狗:做对有奖,做错被罚,不断试错变聪明。
- 没有直接答案,只有奖励信号
- 智能体在环境里不断尝试 → 获得奖励 → 调整策略
- 典型任务:
- AlphaGo
- 机器人走路
- 自动驾驶决策
- 游戏 AI
- 动态推荐系统
特点:追求长期最优,不是单次正确。
三、第二个维度:按「模型结构 / 复杂度」分类
这是技术实现方式,不是任务类型。
1. 深度学习(Deep Learning)
用多层神经网络模拟人脑结构的机器学习。
特点:
- 层数多(深)
- 自动提取特征,不用人手工设计
- 适合图像、语音、文本这种复杂数据
- 需要大数据 + 算力
典型模型:CNN(图像)、RNN/LSTM/Transformer(文本语音)、GPT、Stable Diffusion 都是深度学习。
2. 非深度学习(传统机器学习)
不用深层神经网络,用简单数学模型。
常见算法:
- 逻辑回归
- 决策树 / 随机森林
- SVM
- K-Means
- 朴素贝叶斯
特点:
- 速度快
- 数据少也能用
- 需要人手工提取特征(比如自己设计图片边缘、纹理特征)
四、第三个维度:按「应用领域」分类
这是用来解决什么问题,和前面两个维度完全不冲突。
1. 计算机视觉(CV)
让机器 “看懂” 图像 / 视频
- 图像分类
- 目标检测
- 人脸识别
- 分割
- OCR 文字识别
2. 语音算法
让机器 “听懂 / 说出” 声音
- 语音识别 ASR
- 语音合成 TTS
- 声纹识别
- 语音降噪
3. 自然语言处理(NLP)
让机器理解人类语言
- 翻译
- 情感分析
- 问答
- 摘要
- GPT 类大模型
4. 推荐算法
给用户推荐东西
- 电商推荐
- 短视频推荐
- 音乐推荐
- 广告点击率预测
5. 其他领域
- 风控(欺诈检测)
- 医疗影像
- 自动驾驶
- 量化交易等等
五、核心问题:这三个维度可以自由排列组合吗?
结论:
可以组合,而且本来就是组合使用的,但不是 “乱组合”,是逻辑上的叠加。
你可以理解成:
应用领域 = 你要去的地方学习方式 = 你用什么方式学模型结构 = 你开什么车去
三者互不冲突,可以任意合理搭配。
六、大量真实组合例子(一看就懂)
计算机视觉
- 监督学习 + 深度学习 → CNN 图像分类
- 监督学习 + 传统机器学习 → SVM 分类(老方法)
- 无监督学习 + 深度学习 → 图像聚类、自编码器
- 强化学习 + 深度学习 → 视觉导航、机器人抓握
推荐算法
- 监督学习 + 传统机器学习 → LR/GBDT 预测点击率
- 监督学习 + 深度学习 → DeepFM、NeuralCF
- 无监督学习 → 协同过滤、用户聚类
- 强化学习 + 深度学习 → 抖音 / 快手实时推荐
语音识别
- 监督学习 + 深度学习 → 主流 ASR
- 无监督学习 → 语音特征聚类
自然语言处理
- 监督学习 + 深度学习 → BERT、文本分类
- 无监督 + 深度学习 → 词向量、预训练
- 强化学习 + 深度学习 → ChatGPT 类对话优化
强化学习本身
- 可以用深度学习 → DQN、A2C、PPO(深度强化学习)
- 也可以不用深度学习 → 表格型 Q-learning
七、用最简单的一句话总结整个体系
- 监督 / 无监督 / 强化学习:决定怎么学
- 深度学习 / 非深度学习:决定用什么模型学
- 视觉 / 语音 / 推荐 / NLP:决定解决什么问题
三者是三个独立维度,可以自由、合理地组合,现实中所有 AI 系统都是这么搭出来的。