马尔可夫随机场和条件随机场有什么区别？

19

如果我固定观察到的MRF节点的值，它会变成CRF吗？

— 某人
source

另请参阅：是否每个条件随机场都只是结构受限的马尔可夫随机场？

— Martin Thoma

而正是MRF和CRF之间的区别是什么

— 马丁托马

而什么是马尔可夫随机场（MRF的）和条件随机域（CRF的）之间的区别？我什么时候应该使用另一个？

— Martin Thoma

11

好吧，我自己找到了答案：

条件随机场（CRF）是Markov随机场（MRF）的特例。

1.5.4条件随机场

条件随机字段（CRF）是MRF的一种形式，它为变量x给定数据z定义了后验，就像上面的隐藏MRF一样。但是，与隐藏的MRF不同，没有明确分解为数据分布P（x | z）和先验P（x）[288]。这样就可以将x对z的复杂依赖关系直接写在后验分布中，而无需明确分解。（鉴于P（x | z），这样的因式分解总是存在，但是-实际上有很多分解式-因此没有建议CRF比隐藏的MRF更笼统，只是建议它可能更方便处理）

资料来源：布雷克，科利和罗瑟：马尔可夫用于视觉和图像处理的随机场。2011。

条件随机场或CRF（Lafferty等人，2001），有时是区分性随机场（Kumar和Hebert，2003），只是MRF的一种形式，其中所有集团势均以输入特征为条件：[...]

CRF相对于MRF的优势类似于判别式分类器相对于生成式分类器的优势（请参见第8.6节），即，我们不需要“浪费资源”对我们一直观察到的事物进行建模。[...]

CRF比MRF的缺点是它们需要标记的训练数据，并且训练较慢[...]

资料来源：凯文·P·墨菲：机器学习：概率论视角

回答我的问题：

如果我固定观察到的MRF节点的值，它会变成CRF吗？

是。固定值与对其进行条件化相同。但是，您应该注意，培训也有所不同。

在Coursera上观看了许多关于PGM（概率图形模型）的讲座对我有很大帮助。

— 马丁·托马
source

0

MRF与贝叶斯网络：不太（但通常）而言，有两种类型的图形模型：无向图形模型和有向图形模型（另一种类型，例如Tanner图）。前者也被称为马尔可夫随机场/马尔可夫网络，而后者又被称为贝叶斯网络/贝叶斯网络。（有时两者的独立性假设都可以通过弦图表示）

马尔可夫暗示了它分解和随机场的方式意味着无向模型所定义的那些之间的特定分布。

CRF $\in$ MRF：当某些变量被观察到的，我们可以使用相同的无向图表示（作为无向图）和参数来编码一个条件分布 $P(Y|X)$ 其中 $Y$ 是一组目标变量和 $X$ 是（不相交）一组观测变量。

唯一的区别在于，对于标准Markov网络，归一化项在X和Y上求和，而对于CRF，归一化项在Y上仅求和。

参考：

无向图模型（马尔可夫随机场）
概率图形模型原理与技术（2009年，麻省理工学院出版社）
马尔可夫随机场

— 张乐纳
source

0

让我们将使用MRF的条件推理与使用CRF的建模进行对比，并沿途确定定义，然后解决原始问题。

MRF

关于图 $G$ 马尔可夫随机场（MRF）为

一组与 $G$ 的节点相对应的随机变量（或您可能喜欢的随机“元素”）（因此称为“随机字段”）
$G$ $V_i$ $V_j$ $V_i$ $V_j$ $\mathcal{B}_i$ $P(\{V_i\})$ $G$

MRF下的条件推理

由于MRF表示服从马尔可夫约束的许多变量的联合分布，因此我们可以在给定某些变量的观测值的情况下计算条件概率分布。

例如，如果我有四个随机变量的联合分布：IsRaining，SprinklerOn，SidewalkWet和GrassWet，那么在星期一，我可能要推断IsRaining和SprinklerOn的联合概率分布，因为我已经观察到SidewalkWet = False和GrassWet =真正。考虑到我观察到SidewalkWet = True和GrassWet = True，在星期二，我可能想推断IsRaining和SprinklerOn的联合概率分布。

换句话说，我们可以使用相同的MRF模型在这两种不同情况下进行推断，但是我们不会说我们已经更改了模型。实际上，尽管我们在此处介绍的两种情况下都观察到了SidewalkWet和GrassWet，但是MRF本身本身并没有“观察到的变量”-所有变量在MRF的眼中都具有相同的状态，因此MRF也可以建模，例如，SidewalkWet和GrassWet的联合发行。

慢性肾功能衰竭

$G$

一组与的节点相对应的随机变量 $G$ $\{X_i\}_{i=1}^n$ $\{Y_i\}_{i=1}^m$
$P(\{Y_i\}_{i=1}^m|\{X_i\}_{i=1}^n)$ $G$

区别

$G$

将变量的子集指定为“已观察”
仅在未观察到的给定观察变量上定义条件分布；它不会对观察到的变量的概率进行建模（如果用参数表示分布，这通常被认为是一种好处，因为参数不会浪费在解释将永远为人所知的事物的概率上）
$G$

$\{X_i\}$ $G$ $G'$ $\{Y_i\}$ $\{Y_i\}$ $\{X_i\}$ $\{Y_i\}$ $\{X_i\}$

例

$Y_i$ $X_1, X_2, ... X_{n-1}$ $X_n$

$G$ $\{X_i\}$ $\{Y_i\}$ $\{X_i\}$

结论

$G$ $G$ $G$ $G$ $G$ $G$

除了可能节省模型参数，提高条件模型的表达能力和保持推理效率外，关于CRF公式的最后一个重要要点是，对于离散模型（以及很大一部分非离散模型），尽管存在为了表达CRF族，可以将对数似然表示为功能参数的凸函数，从而允许使用梯度下降进行全局优化。

另请参阅：crf原始纸和本教程

— 用户名
source