ML中的softmax函数与热力学中的玻耳兹曼分布之间的联系有多深?


12

softmax函数通常在神经网络中用于将实数转换为概率,它与Boltzmann分布(在热力学中在给定温度T时,在整个能量平衡中,处于热平衡状态的粒子的概率分布)具有相同的函数。

我可以看到一些明显的启发性原因,这是可行的:

  • 无论输入值是否为负,softmax都会输出正值,总和为1。
  • 它总是可区分的,对于反向传播很方便。
  • 它具有一个“温度”参数,用于控制网络对较小值的宽容度(当T很大时,所有结果均可能发生,当T很小时,仅选择输入最大的值)。

出于实际原因,玻尔兹曼函数是否仅用作softmax,还是与热力学/统计物理学有更深的联系?


1
我不明白为什么这会吸引接近的选票-这是一个完全合理的问题。
马特·克劳斯

2
+1到@MattKrause-神经网络肯定是话题性的,正如我认为-统计物理学一样。
肖恩·复活节

从某种意义上说,我不是在寻找解决问题的方法,而是在寻求更多常识,我可以看到这个问题比大多数SO问题更“开放”。但是,我想不出一个更好的地方去问这个问题,或者想出一个更具体的方法去问它。
Ahura

Answers:


3

据我所知,除了许多在感知器阶段以外使用神经网络的人都是物理学家之外,没有更深层次的原因。

除了上述优点外,此特定选择还具有更多优点。如前所述,它具有确定输出行为的单个参数。进而可以对其本身进行优化或调整。

简而言之,它是一种非常方便且众所周知的功能,可以实现某种“正则化”,就连最大的输入值也受到限制。

当然,还有许多其他可能的功能可以满足相同的要求,但在物理学界却鲜为人知。而且在大多数情况下,它们更难使用。


2

softmax函数也用于离散选择建模中,它与logit模型相同,如果您假设每个类都有一个效用函数,并且该效用函数等于神经网络的输出+ Gumbel之后的误差项分布,属于一个类的概率等于以神经网络为输入的softmax函数。参见:https : //eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

有logit模型的替代方案,例如概率模型,其中误差项假定遵循标准正态分布,这是一个更好的假设。但是,这种可能性难以解决并且解决起来计算量大,因此在神经网络中并不常用

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.