news 2026/7/1 19:37:03

概率图模型入门：马尔可夫网络与贝叶斯网络的表示、推断与学习

张小明

前端开发工程师

1.2k 24

文章封面图 — 概率图模型入门：马尔可夫网络与贝叶斯网络的表示、推断与学习

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

第一章：引言——不确定世界中的结构化思维

我们生活在一个充满不确定性的世界里。从自然语言的理解、基因调控网络的解析，到金融市场的预测、推荐系统的构建，我们面对的系统通常涉及大量相互关联、且关系不确定的变量。如何简洁、清晰且可计算地表示这些复杂的依赖关系，并基于此进行有效的推理与预测，是现代人工智能与数据科学的核心挑战之一。

概率论为我们提供了量化不确定性的数学语言。然而，直接将所有变量的联合概率分布（如P(X1, X2, ..., Xn)）显式地表示出来，面临着“维度灾难”——对于n个二值变量，联合分布需要指定2^n - 1个参数，这在计算和统计上都是不可行的。

幸运的是，现实世界中的复杂关系往往具有局部性和稀疏性。一个变量通常只与少数几个其他变量直接相关。概率图模型正是利用了这一洞见，它将图论中直观的图形表示与概率论严谨的数学框架相结合，成为处理高维、结构化不确定性问题的强大工具。

概率图模型使用一个图G = (V, E)来表示变量间的依赖结构：

节点 (Vertices, V)：代表随机变量。
边 (Edges, E)：代表变量间的概率依赖关系。

根据边的类型，PGM主要分为两大类：

贝叶斯网络 (Bayesian Network, BN)：使用有向无环图表示变量间的因果关系或依赖关系。
马尔可夫网络 (Markov Network, MN) / 马尔可夫随机场 (Markov Random Field, MRF)：使用无向图表示变量间的相关关系或软约束关系。

本文将深入探讨这两类核心模型的表示（如何用图编码概率分布）、推断（如何基于已知变量查询未知变量的概率）和学习（如何从数据中自动获得图结构和参数）。它们是理解更复杂模型（如条件随机场、深度信念网络）的基石。

第二章：贝叶斯网络——有向的概率依赖模型

2.1 表示：图结构与参数化

一个贝叶斯网络B = (G, θ)由两部分构成：

有向无环图 (DAG)G：结构。
参数θ：条件概率分布。

图结构编码条件独立性。BN的核心语义是：给定其父节点，每个节点条件独立于其非后代节点。形式化地，BN定义的联合概率分布可因子化为：
P(X1, X2, ..., Xn) = Π_i P(X_i | Parents(X_i))

这就是著名的链式法则（有向图版本）。它极大地简化了联合分布的表示。例如，一个简单的“草地潮湿”网络包含变量：下雨 ®、洒水器开 (S)、草地湿 (W)。其DAG可能为 R -> W <- S（共同效应），R -> S（因果关系）。联合分布为：
P(R, S, W) = P(R) * P(S|R) * P(W|R, S)
只需指定P(R)(1个参数)，P(S|R)(2个参数，给定R下S的分布)，P(W|R,S)(4个参数，给定R,S下W的分布)，共7个参数，而非完整的2^3 -1 = 7个（此例巧合相等，变量越多，节省越显著）。

参数化：对于离散变量，P(X_i | Parents(X_i))通常表示为条件概率表。对于连续变量，则可以表示为线性高斯模型等。

图1：一个经典的贝叶斯网络示例（警报网络）。节点表示事件，有向边表示直接影响，CPT定义了局部条件概率。联合分布 P(B, E, A, J, M) = P(B)P(E)P(A|B,E)P(J|A)P(M|A)。

2.2 条件独立性：d-分离准则

如何从图结构判断任意两组变量 X 和 Y 在给定 Z 时是否条件独立？BN提供了系统的d-分离准则。

考虑图中 X 到 Y 的一条路径，如果该路径上的所有三元组节点都满足以下条件之一，则称该路径被节点集 Z阻塞：

顺序连接(X -> Z -> Y) 或分叉连接(X <- Z -> Y)：若 Z 被观测到，则路径阻塞。
汇合连接(X -> W <- Y)：若W 或其任一后代未被观测到，则路径阻塞；若 W 或其后代被观测到，则路径“激活”（信息可以流通）。

如果所有连接 X 和 Y 的路径都被 Z 阻塞，则称 X 和 Y 被 Zd-分离，即在给定 Z 时，X 与 Y 条件独立。

图2：d-分离的三种基本结构示意图。从左至右：顺序连接、分叉连接、汇合连接（V-结构）。图中展示了观测变量（阴影节点）如何阻塞或激活信息流。

2.3 典型模型与应用

朴素贝叶斯分类器：假设特征在给定类别下相互独立。其图结构为类别节点指向所有特征节点。
隐马尔可夫模型：动态贝叶斯网络的简单形式，用于时序数据建模（如语音识别、序列标注）。
医疗诊断系统：将症状、疾病、风险因素用DAG连接，进行诊断推理。
因果推理：在严格假设下，BN可以用于估计干预效应（do-calculus）。

第三章：马尔可夫网络——无向的关联模型

3.1 表示：图结构与参数化

马尔可夫网络M = (G, Φ)同样由两部分构成：

无向图G：结构。
势函数Φ：参数。

图结构编码马尔可夫性。MN的核心语义包括：

全局马尔可夫性：若节点集 A 和 B 在图中被节点集 S 分离（即所有A到B的路径都经过S），则给定 S 时，A 与 B 条件独立。
局部马尔可夫性：一个节点在给定其所有邻居节点时，条件独立于其余所有非邻居节点。

MN的联合概率分布不直接因子化为条件概率，而是表示为吉布斯分布的形式：
P(X1, X2, ..., Xn) = (1/Z) * Π_c ψ_c(X_c)

X_c：图中的一个团（完全子图，即团内所有节点两两相连）或极大团上的变量集合。
ψ_c(X_c) > 0：该团对应的势函数，衡量该团配置的“亲和度”或“能量”，值越大表示该配置越可能。
Z：配分函数，一个归一化常数，Z = Σ_{所有可能X} Π_c ψ_c(X_c)，确保所有概率之和为1。计算 Z 通常是推断中最困难的部分。

参数化：对于离散变量，势函数常表示为表格形式。更常用的是对数线性模型，其中势函数定义为指数函数：ψ_c(X_c) = exp(θ_c * f_c(X_c))，f_c是特征函数。此时联合分布为：
P(X) = (1/Z) * exp( Σ_c θ_c * f_c(X_c) ) = (1/Z) * exp( θ^T f(X) )
这种形式与统计物理学和机器学习中的许多模型（如最大熵模型）紧密相连。

图3：一个简单的马尔可夫网络示例（图像去噪或网格模型）。节点表示像素，边表示相邻像素间的关联。势函数鼓励相邻节点取值相同（同质先验）。

3.2 与贝叶斯网络的比较

特性	贝叶斯网络 (BN)	马尔可夫网络 (MN)
图类型	有向无环图 (DAG)	无向图 (UG)
核心语义	条件独立性（d-分离）	马尔可夫性（图分离）
参数化	局部条件概率分布 (CPD)	团势函数 (Potential Function)
因子化	`P(X)=Π_i P(X_i\|Pa_i)`	`P(X)∝Π_c ψ_c(X_c)`
归一化	局部CPD已归一化，联合分布自动归一化	需要全局配分函数 Z 进行归一化
表示能力	可以方便表示因果、诱导依赖（V-结构）	更擅长表示循环依赖、软约束
学习难度	结构学习相对容易（得分搜索）	结构学习较难（需估计Z）
典型应用	诊断、因果建模、序列模型	图像处理、空间统计、自然语言处理（词性标注）

转换：并非所有依赖结构都能同时用有向图和无向图完美表示。将有向图转换为无向图的过程称为道德化，主要步骤是：1) 将有向边变为无向边；2) 对于所有具有共同子节点的父节点对，在它们之间添加一条无向边（使其“结婚”，消除V-结构）。

3.3 典型模型与应用

伊辛模型：统计物理学的基础模型，用于研究磁性物质，是二值变量的网格状MN。
条件随机场：给定输入序列条件下，输出标签序列的马尔可夫网络，是序列标注（如命名实体识别）的首选模型。
图像分割与去噪：像素作为节点，相邻关系作为边，势函数编码颜色相似性和平滑性约束。
社交网络分析：用节点表示个体，边表示社会关系，势函数建模同质性等社会规律。

第四章：核心挑战之一：概率推断

定义了模型之后，核心任务之一是进行概率推断：在给定部分变量（证据变量 E）的观测值e后，计算其他变量（查询变量 Q）的后验概率分布P(Q | E = e)。常见的查询类型包括：

后验概率查询：计算P(Q_i | E=e)。
最大后验概率查询：找到最可能的变量赋值argmax_q P(Q=q | E=e)。

4.1 精确推断算法

精确推断是NP难的，但对于结构简单的图是可行的。

变量消元法：基本思想是，通过按特定顺序求和（消元）掉非查询变量，逐步计算边际概率。例如，计算P(X_n)：
P(X_n) = Σ_{x1} Σ_{x2} ... Σ_{xn-1} P(X1, X2, ..., Xn)
利用因子分解，将求和操作尽量向内推，只对涉及该变量的因子进行运算，避免枚举所有联合状态。
信念传播 / 和积算法：对于树状结构的图（无向树或多叉树），存在高效且精确的消息传递算法。
连接树算法：将任意图转化为一个连接树（或团树），使得树中节点是原图的团，并满足运行相交性质。然后在连接树上运行类似信念传播的算法，这是目前最通用和高效的精确推断框架。

图4：信念传播算法示意图。消息在树状网络上传递，每个节点整合来自其子树（或邻居）的消息，更新自身信念，并将新消息向上（或向其他方向）传递。

4.2 近似推断算法

对于大规模、稠密的图，精确推断不可行，必须使用近似方法。

蒙特卡洛方法：通过生成服从概率分布P(X | E=e)的样本来近似统计量。
- 重要性采样：从一个容易采样的建议分布中采样，并通过权重校正偏差。
- 马尔可夫链蒙特卡洛：构建一个马尔可夫链，使其平稳分布就是目标后验分布P(X | E=e)。然后运行该链，用产生的样本做估计。最著名的是吉布斯采样：依次对每个变量X_i，从其条件分布P(X_i | MB(X_i), E=e)中采样，其中MB(X_i)是X_i的马尔可夫毯（在BN中是父节点、子节点及子节点的父节点；在MN中是邻居节点）。经过“燃烧期”后，采样值近似来自联合后验分布。
变分推断：一种确定性近似方法。其核心思想是，用一个简单的、参数化的分布Q(X; θ)来近似复杂难解的后验分布P(X | E)。通过优化参数θ，最小化Q与P之间的散度（通常是KL散度KL(Q||P)）。这通常转化为一个优化问题。平均场近似是最常见的一种，假设Q可以完全因子化：Q(X) = Π_i Q_i(X_i)，然后通过坐标上升法迭代优化每个Q_i。

比较：MCMC在理论上能给出精确解（无限时间），但收敛慢且诊断难；变分推断计算快，提供了一个下界，但可能因假设太强而有偏。

第五章：核心挑战之二：模型学习

学习任务是从数据D（一组独立同分布的样本）中估计概率图模型的参数甚至结构。分为三类：

5.1 参数学习（已知结构）

已知图结构G，学习参数θ。

贝叶斯网络参数学习：
- 最大似然估计：对于离散变量和完整数据，MLE有封闭解。例如，CPT中P(X_i = k | Parents(X_i)=j)的MLE就是数据中对应配置出现的频率：θ_{ijk} = N_{ijk} / N_{ij}。
- 贝叶斯估计：引入狄利克雷先验（共轭先验），后验估计是计数加上先验伪计数，可以平滑MLE、避免过拟合和零概率问题。
马尔可夫网络参数学习：

5.2 结构学习（未知结构）

从数据中同时学习图结构G和参数θ。这是更具挑战性的任务。

基于约束的方法：通过统计检验（如卡方检验、互信息）判断变量间的条件独立性，然后试图找到一个图结构，使其蕴含的条件独立关系与数据中检验出的关系一致。例如，PC算法。这类方法对独立性检验非常敏感。
基于评分搜索的方法：定义一个评分函数score(G: D)，衡量图结构G对数据D的拟合好坏（平衡似然与模型复杂度），然后在图结构空间进行搜索，寻找得分最高的图。
- 评分函数：
  - 贝叶斯信息准则：BIC(G, D) = log P(D | θ_MLE, G) - (d/2) log N，其中d是参数个数，N是样本数。惩罚复杂模型。
  - 贝叶斯狄利克雷评分：基于参数的后验概率，有坚实的贝叶斯理论基础。
- 搜索策略：图结构空间是超大的离散空间。常用爬山法、贪婪搜索，从一个空图或随机图出发，通过增、删、反转单条边来寻找邻居中得分更高的图。更高级的用模拟退火、遗传算法。
马尔可夫网络的结构学习比贝叶斯网络更困难，因为评估一个无向结构的得分通常需要执行推断来计算似然，计算代价极高。近年来，基于L1正则化的稀疏学习方法（如Graphical Lasso，用于高斯图模型）取得了很大成功，它通过最大化带有L1惩罚的对数似然，可以同时得到稀疏的精度矩阵（即图结构）。

第六章：总结与展望

概率图模型以其优雅的框架，统一了概率论与图论，为我们提供了表示、推断和学习复杂概率关系的系统性工具。贝叶斯网络与马尔可夫网络，作为该领域的两大支柱，各有侧重，互为补充。

贝叶斯网络擅长表示非对称的因果关系和诱导依赖，其参数学习和结构学习相对成熟，在诊断、决策和因果分析中应用广泛。
马尔可夫网络擅长表示对称的关联和软约束，特别适合处理具有循环依赖和空间结构的问题，如图像分析和自然语言处理，但其推断和学习的计算挑战更大。

核心挑战与前沿方向：

可扩展的推断与学习：对于大规模、高维数据，开发更高效、更鲁棒的近似算法始终是核心。
深度学习与PGM的结合：深度神经网络具有强大的函数逼近和特征学习能力，但缺乏结构化概率语义。深度概率模型（如变分自编码器、生成对抗网络、深度信念网络、图神经网络）正试图融合二者的优势。
因果推断：贝叶斯网络是因果图模型的基础。将统计关联与因果干预区分开，是下一代人工智能系统需要具备的能力。
非参数化和灵活建模：传统的PGM假设参数形式固定，未来趋势是结合非参数贝叶斯方法，让数据本身决定模型的复杂度。

掌握概率图模型的基本原理，就如同获得了一套强大的“结构化思维”工具箱。它不仅能帮助你理解和构建复杂的机器学习系统，更能提升你在面对不确定性时进行严谨分析和推理的能力。从基础的朴素贝叶斯到前沿的深度生成模型，PGM的思想无处不在，是现代人工智能和数据科学工作者不可或缺的理论基石。

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/30 22:11:21

Stack-Chan终极指南：快速打造你的专属智能机器人伙伴

Stack-Chan终极指南：快速打造你的专属智能机器人伙伴【免费下载链接】stack-chan A JavaScript-driven M5Stack-embedded super-kawaii robot. 项目地址: https://gitcode.com/gh_mirrors/sta/stack-chan 想要亲手制作一个既可爱又智能的机器人吗&#xff1…

作者头像

李华

网站建设 2026/6/30 21:16:08

5个oil.nvim排序技巧：让文件管理效率翻倍

5个oil.nvim排序技巧：让文件管理效率翻倍【免费下载链接】oil.nvim Neovim file explorer: edit your filesystem like a buffer 项目地址: https://gitcode.com/gh_mirrors/oi/oil.nvim oil.nvim作为Neovim的革新性文件浏览器，其强大的排序功能…

作者头像

李华

网站建设 2026/6/30 2:00:49

27.红黑树（上）

从根节点走到空算一条路径，这个有9条路径。最短最长不一定存在。插入相同节点，avl高度更低，左右很均衡，红黑树不那么均衡，但效率不差，最短路径把他切开，就是满二叉树avl树比红黑树更接近logN&am…

作者头像

李华

网站建设 2026/6/30 23:35:34

快速上手指南：5分钟掌握ffmpeg-python视频处理核心技术

快速上手指南：5分钟掌握ffmpeg-python视频处理核心技术【免费下载链接】ffmpeg-python Python bindings for FFmpeg - with complex filtering support 项目地址: https://gitcode.com/gh_mirrors/ff/ffmpeg-python ffmpeg-python是强大的FFmpeg Python绑定…

作者头像

李华

网站建设 2026/7/1 5:35:02

TensorNetwork终极指南：快速掌握MERA算法实战与性能优化

TensorNetwork终极指南：快速掌握MERA算法实战与性能优化【免费下载链接】TensorNetwork A library for easy and efficient manipulation of tensor networks. 项目地址: https://gitcode.com/gh_mirrors/te/TensorNetwork 你是否在量子多体系统模拟中遭遇计…

作者头像

李华

网站建设 2026/6/30 19:33:32

OpenVoice语音克隆终极指南：5分钟快速上手免费神器

OpenVoice语音克隆终极指南：5分钟快速上手免费神器【免费下载链接】OpenVoice 项目是MyShell AI开源的即时语音克隆技术OpenVoice，旨在提供一种能够快速从少量语音样本中准确复制人类声音特征，并实现多种语言及语音风格转换的解决方案。项…

作者头像

李华