softmax函数通常在神经网络中用于将实数转换为概率,它与Boltzmann分布(在热力学中在给定温度T时,在整个能量平衡中,处于热平衡状态的粒子的概率分布)具有相同的函数。
我可以看到一些明显的启发性原因,这是可行的:
- 无论输入值是否为负,softmax都会输出正值,总和为1。
- 它总是可区分的,对于反向传播很方便。
- 它具有一个“温度”参数,用于控制网络对较小值的宽容度(当T很大时,所有结果均可能发生,当T很小时,仅选择输入最大的值)。
出于实际原因,玻尔兹曼函数是否仅用作softmax,还是与热力学/统计物理学有更深的联系?
1
我不明白为什么这会吸引接近的选票-这是一个完全合理的问题。
—
马特·克劳斯
+1到@MattKrause-神经网络肯定是话题性的,正如我认为-统计物理学一样。
—
肖恩·复活节
从某种意义上说,我不是在寻找解决问题的方法,而是在寻求更多常识,我可以看到这个问题比大多数SO问题更“开放”。但是,我想不出一个更好的地方去问这个问题,或者想出一个更具体的方法去问它。
—
Ahura