news 2026/5/15 1:11:30

概率图模型入门:马尔可夫网络与贝叶斯网络的表示、推断与学习

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
概率图模型入门:马尔可夫网络与贝叶斯网络的表示、推断与学习

点击AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价


第一章:引言——不确定世界中的结构化思维

我们生活在一个充满不确定性的世界里。从自然语言的理解、基因调控网络的解析,到金融市场的预测、推荐系统的构建,我们面对的系统通常涉及大量相互关联、且关系不确定的变量。如何简洁、清晰且可计算地表示这些复杂的依赖关系,并基于此进行有效的推理与预测,是现代人工智能与数据科学的核心挑战之一。

概率论为我们提供了量化不确定性的数学语言。然而,直接将所有变量的联合概率分布(如P(X1, X2, ..., Xn))显式地表示出来,面临着“维度灾难”——对于n个二值变量,联合分布需要指定2^n - 1个参数,这在计算和统计上都是不可行的。

幸运的是,现实世界中的复杂关系往往具有局部性稀疏性。一个变量通常只与少数几个其他变量直接相关。概率图模型正是利用了这一洞见,它将图论中直观的图形表示与概率论严谨的数学框架相结合,成为处理高维、结构化不确定性问题的强大工具。

概率图模型使用一个图G = (V, E)来表示变量间的依赖结构:

根据边的类型,PGM主要分为两大类:

  1. 贝叶斯网络 (Bayesian Network, BN):使用有向无环图表示变量间的因果关系或依赖关系。
  2. 马尔可夫网络 (Markov Network, MN) / 马尔可夫随机场 (Markov Random Field, MRF):使用无向图表示变量间的相关关系或软约束关系。

本文将深入探讨这两类核心模型的表示(如何用图编码概率分布)、推断(如何基于已知变量查询未知变量的概率)和学习(如何从数据中自动获得图结构和参数)。它们是理解更复杂模型(如条件随机场、深度信念网络)的基石。

第二章:贝叶斯网络——有向的概率依赖模型

2.1 表示:图结构与参数化

一个贝叶斯网络B = (G, θ)由两部分构成:

图结构编码条件独立性。BN的核心语义是:给定其父节点,每个节点条件独立于其非后代节点。形式化地,BN定义的联合概率分布可因子化为:
P(X1, X2, ..., Xn) = Π_i P(X_i | Parents(X_i))

这就是著名的链式法则(有向图版本)。它极大地简化了联合分布的表示。例如,一个简单的“草地潮湿”网络包含变量:下雨 ®、洒水器开 (S)、草地湿 (W)。其DAG可能为 R -> W <- S(共同效应),R -> S(因果关系)。联合分布为:
P(R, S, W) = P(R) * P(S|R) * P(W|R, S)
只需指定P(R)(1个参数),P(S|R)(2个参数,给定R下S的分布),P(W|R,S)(4个参数,给定R,S下W的分布),共7个参数,而非完整的2^3 -1 = 7个(此例巧合相等,变量越多,节省越显著)。

参数化:对于离散变量,P(X_i | Parents(X_i))通常表示为条件概率表。对于连续变量,则可以表示为线性高斯模型等。

图1:一个经典的贝叶斯网络示例(警报网络)。节点表示事件,有向边表示直接影响,CPT定义了局部条件概率。联合分布 P(B, E, A, J, M) = P(B)P(E)P(A|B,E)P(J|A)P(M|A)。

2.2 条件独立性:d-分离准则

如何从图结构判断任意两组变量 X 和 Y 在给定 Z 时是否条件独立?BN提供了系统的d-分离准则。

考虑图中 X 到 Y 的一条路径,如果该路径上的所有三元组节点都满足以下条件之一,则称该路径被节点集 Z阻塞

  1. 顺序连接(X -> Z -> Y) 或分叉连接(X <- Z -> Y):若 Z 被观测到,则路径阻塞。
  2. 汇合连接(X -> W <- Y):若W 或其任一后代未被观测到,则路径阻塞;若 W 或其后代被观测到,则路径“激活”(信息可以流通)。

如果所有连接 X 和 Y 的路径都被 Z 阻塞,则称 X 和 Y 被 Zd-分离,即在给定 Z 时,X 与 Y 条件独立。

图2:d-分离的三种基本结构示意图。从左至右:顺序连接、分叉连接、汇合连接(V-结构)。图中展示了观测变量(阴影节点)如何阻塞或激活信息流。

2.3 典型模型与应用

第三章:马尔可夫网络——无向的关联模型

3.1 表示:图结构与参数化

马尔可夫网络M = (G, Φ)同样由两部分构成:

图结构编码马尔可夫性。MN的核心语义包括:

MN的联合概率分布不直接因子化为条件概率,而是表示为吉布斯分布的形式:
P(X1, X2, ..., Xn) = (1/Z) * Π_c ψ_c(X_c)

其中:

参数化:对于离散变量,势函数常表示为表格形式。更常用的是对数线性模型,其中势函数定义为指数函数:ψ_c(X_c) = exp(θ_c * f_c(X_c))f_c是特征函数。此时联合分布为:
P(X) = (1/Z) * exp( Σ_c θ_c * f_c(X_c) ) = (1/Z) * exp( θ^T f(X) )
这种形式与统计物理学和机器学习中的许多模型(如最大熵模型)紧密相连。

图3:一个简单的马尔可夫网络示例(图像去噪或网格模型)。节点表示像素,边表示相邻像素间的关联。势函数鼓励相邻节点取值相同(同质先验)。

3.2 与贝叶斯网络的比较

特性贝叶斯网络 (BN)马尔可夫网络 (MN)
图类型有向无环图 (DAG)无向图 (UG)
核心语义条件独立性(d-分离)马尔可夫性(图分离)
参数化局部条件概率分布 (CPD)团势函数 (Potential Function)
因子化P(X)=Π_i P(X_i|Pa_i)P(X)∝Π_c ψ_c(X_c)
归一化局部CPD已归一化,联合分布自动归一化需要全局配分函数 Z 进行归一化
表示能力可以方便表示因果、诱导依赖(V-结构)更擅长表示循环依赖、软约束
学习难度结构学习相对容易(得分搜索)结构学习较难(需估计Z)
典型应用诊断、因果建模、序列模型图像处理、空间统计、自然语言处理(词性标注)

转换:并非所有依赖结构都能同时用有向图和无向图完美表示。将有向图转换为无向图的过程称为道德化,主要步骤是:1) 将有向边变为无向边;2) 对于所有具有共同子节点的父节点对,在它们之间添加一条无向边(使其“结婚”,消除V-结构)。

3.3 典型模型与应用

第四章:核心挑战之一:概率推断

定义了模型之后,核心任务之一是进行概率推断:在给定部分变量(证据变量 E)的观测值e后,计算其他变量(查询变量 Q)的后验概率分布P(Q | E = e)。常见的查询类型包括:

  1. 后验概率查询:计算P(Q_i | E=e)
  2. 最大后验概率查询:找到最可能的变量赋值argmax_q P(Q=q | E=e)

4.1 精确推断算法

精确推断是NP难的,但对于结构简单的图是可行的。

图4:信念传播算法示意图。消息在树状网络上传递,每个节点整合来自其子树(或邻居)的消息,更新自身信念,并将新消息向上(或向其他方向)传递。

4.2 近似推断算法

对于大规模、稠密的图,精确推断不可行,必须使用近似方法。

比较:MCMC在理论上能给出精确解(无限时间),但收敛慢且诊断难;变分推断计算快,提供了一个下界,但可能因假设太强而有偏。

第五章:核心挑战之二:模型学习

学习任务是从数据D(一组独立同分布的样本)中估计概率图模型的参数甚至结构。分为三类:

5.1 参数学习(已知结构)

已知图结构G,学习参数θ

5.2 结构学习(未知结构)

从数据中同时学习图结构G和参数θ。这是更具挑战性的任务。

第六章:总结与展望

概率图模型以其优雅的框架,统一了概率论与图论,为我们提供了表示、推断和学习复杂概率关系的系统性工具。贝叶斯网络与马尔可夫网络,作为该领域的两大支柱,各有侧重,互为补充。

核心挑战与前沿方向

  1. 可扩展的推断与学习:对于大规模、高维数据,开发更高效、更鲁棒的近似算法始终是核心。
  2. 深度学习与PGM的结合:深度神经网络具有强大的函数逼近和特征学习能力,但缺乏结构化概率语义。深度概率模型(如变分自编码器、生成对抗网络、深度信念网络、图神经网络)正试图融合二者的优势。
  3. 因果推断:贝叶斯网络是因果图模型的基础。将统计关联与因果干预区分开,是下一代人工智能系统需要具备的能力。
  4. 非参数化和灵活建模:传统的PGM假设参数形式固定,未来趋势是结合非参数贝叶斯方法,让数据本身决定模型的复杂度。

掌握概率图模型的基本原理,就如同获得了一套强大的“结构化思维”工具箱。它不仅能帮助你理解和构建复杂的机器学习系统,更能提升你在面对不确定性时进行严谨分析和推理的能力。从基础的朴素贝叶斯到前沿的深度生成模型,PGM的思想无处不在,是现代人工智能和数据科学工作者不可或缺的理论基石。


点击AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 14:45:59

5个oil.nvim排序技巧:让文件管理效率翻倍

5个oil.nvim排序技巧&#xff1a;让文件管理效率翻倍 【免费下载链接】oil.nvim Neovim file explorer: edit your filesystem like a buffer 项目地址: https://gitcode.com/gh_mirrors/oi/oil.nvim oil.nvim作为Neovim的革新性文件浏览器&#xff0c;其强大的排序功能…

作者头像 李华
网站建设 2026/5/12 5:13:58

27.红黑树(上)

从根节点走到空算一条路径&#xff0c;这个有9条路径。最短最长不一定存在。插入相同节点&#xff0c;avl高度更低&#xff0c;左右很均衡&#xff0c;红黑树不那么均衡&#xff0c;但效率不差&#xff0c;最短路径把他切开&#xff0c;就是满二叉树avl树比红黑树更接近logN&am…

作者头像 李华
网站建设 2026/5/12 6:25:23

快速上手指南:5分钟掌握ffmpeg-python视频处理核心技术

快速上手指南&#xff1a;5分钟掌握ffmpeg-python视频处理核心技术 【免费下载链接】ffmpeg-python Python bindings for FFmpeg - with complex filtering support 项目地址: https://gitcode.com/gh_mirrors/ff/ffmpeg-python ffmpeg-python是强大的FFmpeg Python绑定…

作者头像 李华
网站建设 2026/5/12 15:17:06

TensorNetwork终极指南:快速掌握MERA算法实战与性能优化

TensorNetwork终极指南&#xff1a;快速掌握MERA算法实战与性能优化 【免费下载链接】TensorNetwork A library for easy and efficient manipulation of tensor networks. 项目地址: https://gitcode.com/gh_mirrors/te/TensorNetwork 你是否在量子多体系统模拟中遭遇计…

作者头像 李华
网站建设 2026/5/9 4:25:17

OpenVoice语音克隆终极指南:5分钟快速上手免费神器

OpenVoice语音克隆终极指南&#xff1a;5分钟快速上手免费神器 【免费下载链接】OpenVoice 项目是MyShell AI开源的即时语音克隆技术OpenVoice&#xff0c;旨在提供一种能够快速从少量语音样本中准确复制人类声音特征&#xff0c;并实现多种语言及语音风格转换的解决方案。 项…

作者头像 李华