news 2026/7/3 23:43:09

人工智能之数学基础 概率论与统计:第二章 核心定理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
人工智能之数学基础 概率论与统计:第二章 核心定理

人工智能之数学基础 概率论与统计

第二章 核心定理


文章目录

  • 人工智能之数学基础 概率论与统计
  • 前言
  • 一、贝叶斯定理(Bayes' Theorem)
    • 1. 定理陈述
    • 2. 直观例子:疾病检测
    • 3. Python 实现:贝叶斯更新(Beta-Bernoulli 共轭)
  • 二、大数定律(Law of Large Numbers, LLN)
    • 1. 定理陈述
    • 2. Python 验证:模拟 LLN
  • 三、中心极限定理(Central Limit Theorem, CLT)
    • 1. 定理陈述
    • 2. 直观理解
    • 3. Python 验证:CLT 模拟
  • 四、三大定理对比总结
  • 五、综合应用:A/B 测试中的 CLT 与贝叶斯
    • 场景:比较两个网页版本的点击率
      • 方法1:频率学派(基于 CLT)
        • 方法2:贝叶斯(Beta-Bernoulli)
  • 六、结语
  • 后续
  • 资料关注

前言

概率论中的三大核心定理——贝叶斯定理(Bayes’ Theorem)大数定律(Law of Large Numbers)中心极限定理(Central Limit Theorem, CLT)——构成了现代统计推断、机器学习和数据科学的理论基石。本文将深入讲解这些定理的数学含义、直观解释、应用场景,并提供完整的Python 代码实现与可视化验证


一、贝叶斯定理(Bayes’ Theorem)

1. 定理陈述

对于两个事件 $ A $ 和 $B $,若 $P(B) > 0 $,则:

P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}P(AB)=P(B)P(BA)P(A)

在参数估计中,常写作:

后验 = 似然 × 先验 证据 ⇒ P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) \text{后验} = \frac{\text{似然} \times \text{先验}}{\text{证据}} \quad \Rightarrow \quad P(\theta \mid \mathcal{D}) = \frac{P(\mathcal{D} \mid \theta) P(\theta)}{P(\mathcal{D})}后验=证据似然×先验P(θD)=P(D)P(Dθ)P(θ)

其中:

  • $P(\theta) $:先验(Prior)— 对参数的初始信念
  • $P(\mathcal{D} \mid \theta) $:似然(Likelihood)— 在参数下观测数据的概率
  • $ P(\theta \mid \mathcal{D}) $:后验(Posterior)— 观测数据后对参数的更新信念
  • $ P(\mathcal{D}) = \int P(\mathcal{D} \mid \theta) P(\theta) d\theta $:边缘似然/证据(Evidence)

✅ 贝叶斯定理实现了从“原因→结果”到“结果→原因”的推理逆转


2. 直观例子:疾病检测

  • 某病患病率:$P(\text{病}) = 0.001 $
  • 检测准确率:
    • $P(\text{阳性} \mid \text{病}) = 0.99 $(真阳性)
    • $ P(\text{阳性} \mid \text{健康}) = 0.02 $(假阳性)

问:若检测为阳性,实际患病的概率?

P ( 病 ∣ 阳性 ) = 0.99 × 0.001 0.99 × 0.001 + 0.02 × 0.999 ≈ 0.047 P(\text{病} \mid \text{阳性}) = \frac{0.99 \times 0.001}{0.99 \times 0.001 + 0.02 \times 0.999} \approx 0.047P(阳性)=0.99×0.001+0.02×0.9990.99×0.0010.047

即使检测“很准”,由于疾病罕见,阳性结果大概率是假阳性


3. Python 实现:贝叶斯更新(Beta-Bernoulli 共轭)

假设我们抛硬币,想知道正面概率 $ \theta $。先验用 Beta 分布(共轭先验)。

importnumpyasnpimportmatplotlib.pyplotaspltfromscipy.statsimportbeta,binom# 先验:Beta(α=1, β=1) → 均匀分布alpha_prior,beta_prior=1,1# 模拟观测数据:10 次试验,7 次正面n_trials,n_heads=10,7# 后验参数(共轭性质)alpha_post=alpha_prior+n_heads beta_post=beta_prior+n_trials-n_heads# 绘制先验 vs 后验x=np.linspace(0,1,500)prior_pdf=beta.pdf(x,alpha_prior,beta_prior)posterior_pdf=beta.pdf(x,alpha_post,beta_post)plt.plot(x,prior_pdf,'r--',label=f'先验 Beta({alpha_prior},{beta_prior})')plt.plot(x,posterior_pdf,'b-',label=f'后验 Beta({alpha_post},{beta_post})')plt.axvline(n_heads/n_trials,color='k',linestyle=':',label='MLE = 0.7')plt.xlabel('θ (正面概率)')plt.ylabel('密度')plt.title('贝叶斯更新:硬币偏置估计')plt.legend()plt.grid(True)plt.show()print(f"后验均值:{alpha_post/(alpha_post+beta_post):.3f}")print(f"95% 置信区间:{beta.ppf([0.025,0.975],alpha_post,beta_post)}")

✅ 随着数据增加,后验越来越集中,趋近于真实值。


二、大数定律(Law of Large Numbers, LLN)

1. 定理陈述

设 $X_1, X_2, \dots, X_n $ 是独立同分布(i.i.d.)的随机变量,且 $ \mathbb{E}[X_i] = \mu $存在,则:

X ˉ n = 1 n ∑ i = 1 n X i → a . s . μ (强大数定律) \bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{a.s.} \mu \quad \text{(强大数定律)}Xˉn=n1i=1nXia.s.μ(强大数定律)

X ˉ n → P μ (弱大数定律) \bar{X}_n \xrightarrow{P} \mu \quad \text{(弱大数定律)}XˉnPμ(弱大数定律)

即:样本均值依概率(或几乎必然)收敛于期望值

💡 直观:抛硬币次数越多,正面频率越接近 0.5。


2. Python 验证:模拟 LLN

np.random.seed(42)n_max=10000# 生成 i.i.d. 样本(指数分布,均值=2)true_mean=2samples=np.random.exponential(scale=true_mean,size=n_max)# 计算累积均值cumulative_means=np.cumsum(samples)/np.arange(1,n_max+1)# 绘图plt.figure(figsize=(10,5))plt.plot(cumulative_means,label='样本均值')plt.axhline(true_mean,color='r',linestyle='--',label=f'真实均值 μ={true_mean}')plt.xlabel('样本数量 n')plt.ylabel('累积均值')plt.title('大数定律验证:指数分布(λ=0.5)')plt.legend()plt.grid(True)plt.show()

📉 可见:随着 ( n ) 增大,样本均值稳定收敛到理论均值。


三、中心极限定理(Central Limit Theorem, CLT)

1. 定理陈述

设 $ X_1, \dots, X_n $ 是独立同分布(i.i.d.) 随机变量,$ \mathbb{E}[X_i] = \mu, ,\text{Var}(X_i) = \sigma^2 < \infty $,则当 $n \to \infty $ 时:

X ˉ n − μ σ / n → d N ( 0 , 1 ) \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} \mathcal{N}(0, 1)σ/nXˉnμdN(0,1)

即:无论原始分布如何,样本均值的标准化形式渐近服从标准正态分布

✅ 这是t 检验、置信区间、A/B 测试等方法的理论基础!


2. 直观理解

即使原始数据高度偏斜(如指数分布、泊松分布),只要样本量足够大,均值的分布就近似正态


3. Python 验证:CLT 模拟

importseabornassns np.random.seed(0)n_samples=10000# 模拟多少次“抽样”n_obs=50# 每次抽多少个样本# 从非正态分布(指数分布)抽样sample_means=[]for_inrange(n_samples):sample=np.random.exponential(scale=2,size=n_obs)# 均值=2sample_means.append(np.mean(sample))sample_means=np.array(sample_means)# 理论:均值 ~ N(μ, σ²/n)mu=2sigma=2# 指数分布标准差 = 均值theoretical_std=sigma/np.sqrt(n_obs)# 绘图plt.figure(figsize=(10,5))sns.histplot(sample_means,kde=True,stat='density',bins=50,alpha=0.6,label='样本均值分布')# 叠加理论正态分布x=np.linspace(sample_means.min(),sample_means.max(),200)theoretical_pdf=norm.pdf(x,loc=mu,scale=theoretical_std)plt.plot(x,theoretical_pdf,'r-',lw=2,label=f'理论 N(μ={mu}, σ={theoretical_std:.2f})')plt.axvline(mu,color='k',linestyle='--',label='真实均值')plt.xlabel('样本均值')plt.ylabel('密度')plt.title(f'中心极限定理验证(n={n_obs})')plt.legend()plt.grid(True)plt.show()print(f"样本均值均值:{sample_means.mean():.3f}(理论:{mu})")print(f"样本均值标准差:{sample_means.std():.3f}(理论:{theoretical_std:.3f})")

📊 即使原始分布是右偏的指数分布,均值的分布已非常接近正态


四、三大定理对比总结

定理核心思想收敛类型应用
贝叶斯定理用数据更新信念贝叶斯推断、垃圾邮件过滤、医学诊断
大数定律样本均值 → 期望依概率 / 几乎必然蒙特卡洛积分、频率稳定性
中心极限定理均值分布 → 正态依分布假设检验、置信区间、误差分析

五、综合应用:A/B 测试中的 CLT 与贝叶斯

场景:比较两个网页版本的点击率

方法1:频率学派(基于 CLT)

# 模拟 A/B 测试数据n_A,n_B=1000,1000clicks_A,clicks_B=120,150p_A=clicks_A/n_A p_B=clicks_B/n_B# 标准误(SE)SE=np.sqrt(p_A*(1-p_A)/n_A+p_B*(1-p_B)/n_B)# z 统计量z=(p_B-p_A)/SE p_value=2*(1-norm.cdf(abs(z)))print(f"p_A ={p_A:.3f}, p_B ={p_B:.3f}")print(f"z ={z:.2f}, p-value ={p_value:.4f}")
方法2:贝叶斯(Beta-Bernoulli)
# 先验 Beta(1,1)alpha_A,beta_A=1+clicks_A,1+n_A-clicks_A alpha_B,beta_B=1+clicks_B,1+n_B-clicks_B# 蒙特卡洛模拟后验samples_A=beta.rvs(alpha_A,beta_A,size=10000)samples_B=beta.rvs(alpha_B,beta_B,size=10000)prob_B_better=np.mean(samples_B>samples_A)print(f"P(版本B更好 | 数据) ={prob_B_better:.4f}")

✅ 贝叶斯给出直接的概率解释,更符合直觉。


六、结语

  • 贝叶斯定理:教你如何理性更新信念
  • 大数定律:保证长期频率稳定
  • 中心极限定理:赋予你用正态分布近似复杂问题的能力。

后续

python过渡项目部分代码已经上传至gitee,后续会逐步更新。

资料关注

公众号:咚咚王
gitee:https://gitee.com/wy18585051844/ai_learning

《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 5:16:23

为什么90%的用户弃用语音控制?破解智能家居Agent体验三大痛点

第一章&#xff1a;智能家居Agent语音控制的现状与挑战随着人工智能和物联网技术的快速发展&#xff0c;智能家居Agent语音控制已成为家庭自动化的重要入口。用户通过自然语言指令即可实现对灯光、空调、安防等设备的远程操控&#xff0c;极大提升了生活便利性。然而&#xff0…

作者头像 李华
网站建设 2026/7/2 5:16:07

移动端间接调用:DeepSeek API 封装与小程序集成实战教程

移动端间接调用&#xff1a;DeepSeek API 封装与小程序集成实战教程第一章&#xff1a;引言1.1 背景与需求在移动互联网时代&#xff0c;小程序因其轻量、便捷、无需安装的特性&#xff0c;已成为连接用户与服务的重要桥梁。对于需要集成人工智能能力&#xff08;如自然语言处理…

作者头像 李华
网站建设 2026/7/3 16:52:07

39、Bash 高级特性深入解析

Bash 高级特性深入解析 1. 分组命令与子shell 在Bash中,命令可以通过两种方式进行分组:分组命令和子shell。 - 分组命令的语法: { command1; command2; [command3; ...] } - 子shell的语法: (command1; command2; [command3;...]) 需要注意的是,分组命令的大括号…

作者头像 李华
网站建设 2026/7/2 21:39:23

7、深入探索 Linux 命令行的重定向、管道与扩展机制

深入探索 Linux 命令行的重定向、管道与扩展机制 1. 标准输入重定向 在 Linux 系统中,当我们使用 cat 命令时,如果不指定文件名参数,它会将标准输入复制到标准输出。例如: [me@linuxbox ~]$ cat The quick brown fox jumped over the lazy dog. The quick brown fox …

作者头像 李华
网站建设 2026/7/2 6:57:08

【环境Agent监测频率优化指南】:掌握高效监控的5大黄金法则

第一章&#xff1a;环境Agent监测频率的核心挑战在现代分布式系统中&#xff0c;环境Agent作为数据采集与状态监控的关键组件&#xff0c;其监测频率的设定直接影响系统的性能、资源消耗与响应实时性。过高频率可能导致资源过载&#xff0c;而过低则可能遗漏关键事件&#xff0…

作者头像 李华
网站建设 2026/7/2 6:56:34

续操作符详解

int main() {int a 0;//~ 是按二进制位取反//00000000000000000000000000000000 - 补码//00000000000000000000000000000000 - 补码//11111111111111111111111111111111 -> ~a//11111111111111111111111111111110//10000000000000000000000000000001//-1printf("%d\n&…

作者头像 李华