news 2026/3/31 10:53:13

学习笔记二十九:贝叶斯决策论

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
学习笔记二十九:贝叶斯决策论

1. 基本概念

1.1 贝叶斯决策论的定义

贝叶斯决策论(Bayesian Decision Theory)
概率框架下实施决策的基本方法。

分类任务中的贝叶斯决策论
在理想情况下,当所有相关概率都已知时,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

基本假设
假设有NNN种可能的类别标记,即Y={c1,c2,…,cN}\mathcal{Y} = \{c_1, c_2, \ldots, c_N\}Y={c1,c2,,cN}

1.2 误判损失

误判损失λij\lambda_{ij}λij
将一个真实标记为cjc_jcj的样本误分类为cic_ici所产生的损失。

0/1损失函数
若目标是最小化分类错误率,则误判损失可写为:

λij={0,if i=j1,otherwise\lambda_{ij} = \begin{cases} 0, & \text{if } i = j \\ 1, & \text{otherwise} \end{cases}λij={0,1,ifi=jotherwise

即正确分类损失为0,错误分类损失为1。

1.3 条件风险

条件风险(Conditional Risk)
基于后验概率P(cj∣x)P(c_j | x)P(cjx),可获得将样本xxx分类为cic_ici所产生的期望损失,即在样本xxx上的条件风险:

R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i | x) = \sum_{j=1}^{N} \lambda_{ij} P(c_j | x)R(cix)=j=1NλijP(cjx)

条件风险的含义
条件风险表示在给定样本xxx的情况下,将xxx分类为cic_ici的期望损失。

1.4 总体风险

总体风险(Overall Risk)
寻找一个判定准则h:X→Yh: \mathcal{X} \to \mathcal{Y}h:XY以最小化总体风险:

R(h)=Ex[R(h(x)∣x)]R(h) = \mathbb{E}_x [R(h(x) | x)]R(h)=Ex[R(h(x)x)]

总体风险的含义
总体风险表示判定准则hhh在所有样本上的平均期望损失。

1.5 贝叶斯判定准则

贝叶斯判定准则(Bayes Decision Rule)
对每个样本xxx,若hhh能最小化条件风险R(h(x)∣x)R(h(x) | x)R(h(x)x),则总体风险R(h)R(h)R(h)也将被最小化。为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c∣x)R(c | x)R(cx)最小的类别标记:

h∗(x)=arg⁡min⁡c∈YR(c∣x)h^*(x) = \arg\min_{c \in \mathcal{Y}} R(c | x)h(x)=argcYminR(cx)

贝叶斯最优分类器
h∗h^*h称为贝叶斯最优分类器(Bayes Optimal Classifier),与之对应的总体风险R(h∗)R(h^*)R(h)称为贝叶斯风险(Bayes Risk)。

贝叶斯风险的意义
1−R(h∗)1 - R(h^*)1R(h)反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。

2. 具体方法

2.1 最小化分类错误率

0/1损失下的条件风险
当使用0/1损失函数时,条件风险为:

R(c∣x)=1−P(c∣x)R(c | x) = 1 - P(c | x)R(cx)=1P(cx)

最小化分类错误率的贝叶斯最优分类器
此时,最小化分类错误率的贝叶斯最优分类器为:

h∗(x)=arg⁡max⁡c∈YP(c∣x)h^*(x) = \arg\max_{c \in \mathcal{Y}} P(c | x)h(x)=argcYmaxP(cx)

直观理解
即对每个样本xxx,选择能使后验概率P(c∣x)P(c | x)P(cx)最大的类别标记。这符合直觉:选择最可能的类别。

2.2 后验概率的估计

核心问题
欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c∣x)P(c | x)P(cx)。然而,在现实任务中这通常难以直接获得。

机器学习的目标
从这个角度来看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c∣x)P(c | x)P(cx)

两种建模策略

  1. 判别式模型(Discriminative Models)

    • 给定xxx,可通过直接建模P(c∣x)P(c | x)P(cx)来预测ccc
    • 例如:决策树、BP神经网络、支持向量机等
  2. 生成式模型(Generative Models)

    • 先对联合概率分布P(x,c)P(x, c)P(x,c)建模,然后再由此获得P(c∣x)P(c | x)P(cx)
    • 例如:朴素贝叶斯分类器等

2.3 贝叶斯定理

贝叶斯定理
基于贝叶斯定理,P(c∣x)P(c | x)P(cx)可写为:

P(c∣x)=P(x,c)P(x)=P(c)P(x∣c)P(x)P(c | x) = \frac{P(x, c)}{P(x)} = \frac{P(c) P(x | c)}{P(x)}P(cx)=P(x)P(x,c)=P(x)P(c)P(xc)

各项的含义

  • P(c)P(c)P(c):类"先验"概率

    • 表达了样本空间中各类样本所占的比例
    • 根据大数定律,当训练集包含充足的独立同分布样本时,P(c)P(c)P(c)可通过各类样本出现的频率来进行估计
  • P(x∣c)P(x | c)P(xc):样本xxx相对于类标记ccc类条件概率,或称为"似然"

  • P(x)P(x)P(x):用于归一化的"证据"因子

    • 对给定样本xxx,证据因子P(x)P(x)P(x)与类标记ccc无关
    • 因此估计P(c∣x)P(c | x)P(cx)的问题就转化为如何基于训练数据DDD来估计先验P(c)P(c)P(c)和似然P(x∣c)P(x | c)P(xc)

2.4 估计类条件概率的困难

类条件概率的特点
类条件概率P(x∣c)P(x | c)P(xc)涉及关于xxx所有属性的联合概率。

估计困难
直接根据样本出现的频率来估计将会遇到严重的困难。

具体例子
假设样本的ddd个属性都是二值的,则样本空间将有2d2^d2d种可能的取值。在现实应用中,这个值往往远大于训练样本数mmm

核心问题
很多样本取值在训练集中根本没有出现,"未被观测到"与"出现概率为零"通常是不同的。

解决方案
需要采用其他方法来估计类条件概率,例如:

  • 假设属性之间相互独立(朴素贝叶斯)
  • 使用参数估计方法
  • 使用非参数估计方法

3. 总结

贝叶斯决策论的核心思想

  1. 概率框架:在概率框架下实施决策,基于概率和误判损失选择最优类别标记
  2. 最小化风险:通过最小化条件风险来最小化总体风险
  3. 理论最优:贝叶斯最优分类器提供了分类器性能的理论上限

贝叶斯判定准则

  • 一般形式:选择使条件风险最小的类别标记
  • 0/1损失下:选择使后验概率最大的类别标记
  • 理论保证1−R(h∗)1 - R(h^*)1R(h)反映了分类器所能达到的最好性能

后验概率的估计

  • 判别式模型:直接建模P(c∣x)P(c | x)P(cx)
  • 生成式模型:通过建模P(x,c)P(x, c)P(x,c)来获得P(c∣x)P(c | x)P(cx)
  • 贝叶斯定理:将后验概率分解为先验概率和类条件概率

实际应用中的挑战

  • 类条件概率估计困难:样本空间往往远大于训练样本数
  • 需要假设或近似:通常需要假设属性独立性或使用其他估计方法
  • 理论指导实践:贝叶斯决策论为实际分类方法提供了理论指导

贝叶斯决策论的意义

  • 为分类问题提供了概率框架下的理论基础
  • 明确了最优分类器的定义和性质
  • 指导了判别式模型和生成式模型的设计
  • 为评估分类器性能提供了理论基准
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 23:55:03

写论文软件哪家强?别再只盯 “生成速度”!我们用一份被导师退回 3 次的初稿,实测哪款工具真能帮你改到位

“选题空洞、逻辑混乱、引用不规范、论证无力”—— 这是经管类本科生小周的论文《数字经济赋能乡村振兴》收到的 3 次退稿核心意见。这份初稿和多数学生的作品一样:框架松散,章节衔接生硬;文献堆砌无分析,30% 引用无法检索&#…

作者头像 李华
网站建设 2026/3/25 15:59:46

AI论文工具怎么选?6款详细对比+2025年推荐清单

毕业季近在眼前,论文查重和AI痕迹检测的压力让你头疼不已?别慌!作为亲身测试过多款AI论文工具的博主,我明白那种选择恐惧症——工具太多,功能眼花缭乱,选不对就白费功夫。今天,我就带大家走进20…

作者头像 李华
网站建设 2026/3/27 0:24:12

高性能音频处理:深入解析无锁环形缓冲区 (Lock-Free Ring Buffer)

高性能音频处理:深入解析无锁环形缓冲区 (Lock-Free Ring Buffer) 在实时音频处理领域,性能和低延迟是至关重要的。传统的互斥锁(Mutex)虽然能保证线程安全,但在高并发或实时性要求极高的场景下,锁竞争导致…

作者头像 李华
网站建设 2026/3/24 11:33:54

GPT5.2有哪些最新优势特点?10000字长文带您了解

目录 0 先把名词对齐:你说的“ChatGPT5.2”到底指什么? 1 最直观的“用户侧优势”:更像把工作交付物一次做完 1.1 对“专业知识工作”的提升不是一句口号:官方拿 GDPval 作为主证据 1.2 在 ChatGPT 里,你会更明显感…

作者头像 李华