Answers:
严格来说,神经网络适合非线性函数。
如果选择了适当的激活函数并且遵守了某些条件,则可以将它们解释为拟合概率密度函数(值必须为正, 1,等等。)。但这是您如何选择解释其输出的问题,而不是他们实际上在做什么。在后台,它们仍然是非线性函数估计器,您可以选择将其应用于PDF估计的特定问题。
通常,神经网络不用于建模完整的概率密度。他们的重点是仅对分布的均值建模(或者在确定性情况下仅对非线性函数建模)。然而,通过神经网络对完整的概率密度建模是很有可能的。
一种简单的方法来做到这一点是例如对于高斯的情况是从一个输出和方差从所述网络的另一输出发射的平均值,然后最小化的功能的一部分训练过程,而不是常见平方误差。这是神经网络的最大似然过程。
一旦训练你塞的这个网络每次值作为输入它会给你的μ和σ,那么可以插整个三重ÿ ,μ ,σ的密度˚F (Ý | X )〜Ñ (μ ,σ )获得您喜欢的任何y的密度值。在此阶段,您可以根据实际的域损失函数选择要使用的y值。要记住的一件事是,对于μ,输出激活应该不受限制,以便您可以发出-到 + inf,而 σ应该是唯一的正激活。
总的来说,除非我们遵循确定性函数,否则神经网络中使用的标准平方损失训练与我上面描述的过程几乎相同。引擎盖下一个分布假设隐含没有关于关心σ和如果仔细检查- 升Ö 克Ñ (Ý | X ; μ ,σ )为您提供了平方损失(一种表达的损失高斯最大似然估计器的函数)但是,在这种情况下,不是y根据您的喜好值,每次给定新的x值时,您始终会发出。
对于分类的输出将是一个分布代替ģ 一个ü 小号小号我一个Ñ,它有一个单一的参数来发射。如另一个答案中所指定,此参数在0到1之间,因此应该相应地激活输出。它可以是逻辑功能,也可以是达到相同目的的其他功能。
一种更复杂的方法是Bishop的混合物密度网络。您可以在以下经常参考的文章中阅读有关它的信息:
我不同意的答案是,在大多数令人印象深刻的实际应用中(例如那些在媒体上获得最多报道的应用),它既不是功能也不是概率。他们执行随机决策。
表面上看起来NN只是拟合函数,排队通用逼近参考。在某些情况下,当使用某些激活函数和特定假设(例如高斯误差)时,或者在贝叶斯网络上阅读论文时,看来NN可以产生概率分布。
但是,这只是顺便说一句。NN打算做的是对决策建模。当汽车由AI驱动时,其NN不会尝试计算其前方有物体的概率,因此假定存在一个物体来计算其为人的概率。它也没有计算传感器输入到各种对象的映射。不,NN应该根据所有输入做出决策,以进行侧向操纵或继续行驶。它不是在计算概率,而是在告诉汽车要做什么。