17.2 马尔科夫图及其性质
17.2 马尔科夫图及其性质¶
这部分我们讨论图作为随机变量集的联合分布的模型的基本性质。我们将下面两部分的讨论放在后面的章节中,其中一部分是 (a) 根据数据对边的参数的估计和参量化,另一部分是 (b) 估计图的拓扑结构。
图 17.2 显示了无向图的四个例子。图
图 17.2. 无向图模型或者马尔科夫网络的例子。每个结点或顶点表示一个随机变量,两个结点之间缺失边表示条件独立。举个例子,在图 (a) 中,在给定
的情况下, 和 是独立的。在图 (b) 中, 与 中的每一个都是独立的。
假设我们有图
其中 “rest” 表示图中所有的其他结点。举个例子,在图 17.2 (a) 中
如果
分离集有良好的性质,它们将图分解成条件独立的部分。特别地,在含有
这称作
note “weiya 注:三种等价的 Markov 性质” pairwise Markov properties: 对于所有的非邻接顶点
和 , 为剩余结点的集合,则 ,
global Markov properties: 对于所有的不相交的子集 $a$, $b$ 和 $c$,若 $a$ 分离 $b$ 和 $c$,则 $X_b\ind X_c\mid X_a$,
local Markov properties: 对于每个顶点 $i$,$a=\mathrm{bd}(i)$ 是边界集,$b$ 为剩余结点的集合,则 $X_i\ind X_b\mid X_a$。
全局马尔科夫性质允许我们将图分解成更小的易控制的片段,因此在计算和解释性上有本质上的简化。基于这个目的,我们将图分解成 团 (clique)。团是一个完全子图——所有顶点都与其他点邻接的顶点集;如果一个团,没有其他顶点可以加进去仍保持是一个团的称为最大团。图 17.2 的最大团为
尽管接下来连续和离散的分布都要考虑,但是大部分的发展是针对后者的(离散分布)。马尔科夫图
其中
note “原书脚注:” 如果团是分离的,则势可以是密度,但一般不是这种情形。
下值
是标准化常数,也称作 分割 (partition) 函数。另外,式
注解: 一般地,对于取值为
的随机变量 的集合,势函数 (potential function) 为 ,分割函数 (partition function) 定义如下
很多图的估计和计算的方法首先将图分解成最大团。然后在单个团中计算相关的量,接着在整个图上进行累加。一个著名的例子是根据联合分布计算边缘和低阶概率的 join tree(或 junction tree)算法。可以在 Pearl (1986)3,Lauritzen and Spiegelhalter (1988)4,Pearl (1988)5,Shenoy and Shafer (1988)6,Jensen et al. (1990)7,或者 Koller and Friedman (2007)8 中找到具体细节。
tip “weiya 注:junction tree” Søren Højsgaard 的 Notes: Graphical Models with R 中通过一个简单的三结点的有向图展示了如何通过 Message Passing in Junction Tree 计算边缘分布的概率。Søren Højsgaard et al. 的 Graphical Models with R 介绍了更一般的 Message Passing in Junction Tree,主要分为两个过程,work inwards towards root 和 work outwards from root。另外,可以参考 Mark A. Paskin 的 A Short Course on Graphical Models。
图模型并不总能唯一确定联合概率分布的高阶依赖结构。考虑图 17.3 的三结点完全图。它可以表示下面任一分布的依赖性结构
第一个仅仅明确了二阶依赖性(并且可以用更少的参数表示)。离散数据的图模型是 loglinear models for multiway contingency tables 的一种特殊情形(如,Bishop et al., 19759);这种情形下
图 17.3. 没有唯一地指定变量的联合分布中的高阶依赖性结构的完全图。
本章的剩余部分我们关注 成对马尔科夫图 (pairwise Markov graphs) (Koller and Friedman, 20078)。对于每条边都有势能函数(如上面
- 1
Hammersley, J. M. and Clifford, P. (1971). Markov field on finite graphs and lattices, unpublished.
- 2
Clifford, P. (1990). Markov random fields in statistics, in G. R. Grimmett and D. J. A. Welsh (eds), Disorder in Physical Systems. A Volume in Honour of John M. Hammersley, Clarendon Press, Oxford, pp. 19–32.
- 3
Pearl, J. (1986). On evidential reasoning in a hierarchy of hypotheses, Artificial Intelligence 28: 9–15.
- 4
Lauritzen, S. and Spiegelhalter, D. (1988). Local computations with proba- bilities on graphical structures and their application to expert systems, J. Royal Statistical Society B. 50: 157–224.
- 5
Pearl, J. (1988). Probabilistic reasoning in intelligent systems: networks of plausible inference, Morgan Kaufmann, San Francisco, CA.
- 6
Shenoy, P. and Shafer, G. (1988). An axiomatic framework for Bayesian and belief-function propagation, AAAI Workshop on Uncertainty in AI, North-Holland, pp. 307–314.
- 7
Jensen, F. V., Lauritzen, S. and Olesen, K. G. (1990). Bayesian updating in recursive graphical models by local computation, Computational Statistics Quarterly 4: 269–282.
- 8(1,2)
Koller, D. and Friedman, N. (2007). Structured Probabilistic Models, Stanford Bookstore Custom Publishing. (Unpublished Draft).
- 9
Bishop, Y., Fienberg, S. and Holland, P. (1975). Discrete Multivariate Analysis, MIT Press, Cambridge, MA. 下载