图形模型和玻尔兹曼机器在数学上相关吗?


10

虽然我实际上是在物理课上用玻尔兹曼机进行编程的,但我对它们的理论特性并不熟悉。相反,我对图形模型的理论了解很少(关于Lauritzen的《图形模型》的前几章)。

问题:图形模型和玻尔兹曼机器之间是否存在有意义的关系?玻尔兹曼机是图形模型的一种吗?

显然,玻尔兹曼机是一种神经网络。我听说有些神经网络在数学上与图形模型有关,而有些则没有。

CrossValidated上的相关问题没有回答我的问题:
这类似于之前已经问过的先前问题:层次模型,神经网络,图形模型,贝叶斯网络之间的关系是什么?但更具体。

此外,对该问题的公认答案并不能澄清我的困惑-即使神经网络的标准图形表示中的节点不表示随机变量,也不一定意味着不存在这种表示形式。具体来说,我正在考虑马尔可夫链的典型图形表示中的节点如何表示可能状态的集合,而不是随机变量,但是也可以创建一个图形,显示之间的条件依赖关系XiXi,这表明每个马尔可夫链实际上都是一个马尔可夫随机场。答案还说,神经网络(可能包括Boltzmann机器)是“判别性的”,但没有更详细地解释该主张的含义,也没有明显的后续问题“图形模型不是可判别的吗?” 已解决。同样,可接受的答案链接到凯文·墨菲(Kevin Murphy)的网站(当我学习贝叶斯网络时,我实际上阅读了他的博士学位论文),但是该网站讨论贝叶斯网络,而根本没有提及神经网络,因此无法阐明它们的方式。是不同的。

这另一个问题可能与我的最相似:将神经网络数学建模为图形模型但是,没有一个答案被接受,同样也仅提供参考,但不解释参考(例如,此答案)。希望有一天我能够理解这些参考资料,但现在我已经具备基本的知识水平,并且最希望得到一个尽可能简化的答案。此外,链接到顶部答案(http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml)的多伦多课程解决了此问题,但没有非常详细。此外,可能无法回答我的问题的一次讲座的笔记也没有公开。

3月25日,讲座13b:信仰网7:43。对于此幻灯片,请记住Boltzmann Machines。那里也有隐藏的单位和可见的单位,而且都是概率性的。BM和SBN的共同点是多于区别。9:16 如今,“图形模型”有时被视为神经网络的特殊类别,但在此处描述的历史中,它们被认为是非常不同的系统类型。

Answers:


7

玻尔兹曼机与受限玻尔兹曼机

AFAIK的Boltzmann机器是一种图形模型,与神经网络相关的模型是受限的Boltzmann机器(RBM)。

从《机器学习的概率论》一书中,玻尔兹曼机与受限玻尔兹曼机之间的区别 在此处输入图片说明

RBM与神经网络

对于RBM(请参阅:Geoffrey Hinton培训受限玻尔兹曼机器的实用指南) ,其中和对应于上图中的可见和隐藏单元,而是Sigmoid函数。

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
p(vi=1|h)=σ(ai+hjwij)
vhσ()

条件概率是以网络层的相同形式计算的,因此,RBM的训练权重可以直接用作神经网络的权重或训练的起点。

我认为RBM本身更像是图形模型,而不是一种神经网络,因为它是无向的,具有良好的条件独立性,并且使用自己的训练算法(例如,对比发散)。


2
好的,这是一个非常有用的参考答案。这也使我想更早地开始阅读墨菲教授的书。感谢您花费时间做出完整的答案。
Chill2Macht

2
@威廉很高兴能为您提供帮助:)
dontloo's

2
好答案。您能再说明一下符号吗?(我最近读了一些与我猜想相关的东西,所以我可以识别可见节点,隐藏节点,后勤函数,但其​​他人可能不知道。)最好包含完整的引文,以防止链接-腐烂。h = σ =v=h=σ()=
GeoMatt22 2016年

2
@ GeoMatt22谢谢,我已经更新了答案。
dontloo

3

这只是确认/验证了公认的答案,即Boltzmann机器确实是图形模型的一种特殊情况。具体而言,在方框4.C中,Koller(弗里德曼)的《概率图形模型:原理与技术》第127-127页解决了这个问题。

马尔可夫网络模型的最早类型之一是伊辛模型,它最初是在统计物理学中出现的,它是涉及原子相互作用系统的物理系统的能量的模型。与伊辛模型相关的是玻尔兹曼机器分布。可以根据伊辛模型(练习4.12)来重新计算产生的能量。

Ising模型(最初是统计力学文献中的一个概念)如何被公式化为图形模型,在约旦Wainwright的第3.1-3.3节,第41-43页,图形模型,指数中详细介绍。族和变分推理

显然,伊辛模型在1970年代末和1980年代初为图形模型领域奠定了基础,至少基于Steffen Lauritzen在其《图形模型》的序言和引言中所说。上面引用的Koller和Friedman的4.8节似乎也支持这种解释。

根据Koller和Friedman的同一部分,从Ising模型开发的Boltzmann机器也可能是独立发生的,该节声称“ Boltzmann机器最初是由Hinton和Sejnowski(1983)提出的”,似乎具有发生在将马氏随机场作为Ising模型的概括而进行的最初工作之后,尽管该论文的工作可能早于1983年开始。


当我一年多以前写这个问题时,我对这种关系的困惑是由于我在物理学文献中第一次遇到了伊辛模型和神经元的玻尔兹曼机器模型。正如Koller和Friedman所提到的,统计物理领域中有关Ising模型和相关概念的文献确实非常丰富。

以我的经验,这也是相当孤立的,在某种意义上,虽然研究图形模型的统计学家和计算机科学家会提到该领域与统计力学的关系,但我从统计物理学文献中找不到的任何参考文献都提到与其他领域或领域的联系。尝试利用它。(因此,我对与其他领域可能存在任何这种联系的观念感到怀疑和困惑。)

有关物理学家对Ising模型和Boltzmann机器的观点的示例,请参阅我第一次学习该课程时的教科书。如果我没记错的话,它还提到了均值域方法,上面引用的Jordan和Wainwright文章中也讨论了这种方法。


2
该连接可能非常薄,并且主要基于使用分区函数,该函数是统计力学的基础,并且采用了内积总和的指数形式。softmax函数也使用这种形式,因此命名法保留了术语的传统,并且许多物理学家在ML中工作(例如Christopher Bishop)。
Vass
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.