激励神经网络中的S型输出单元,以和线性非标准化对数概率开始


12

背景:我正在研究Ian Goodfellow,Yoshua Bengio和Aaron Courville撰写的《深度学习》第6章。在第6.2.2.2节(在此处可以查看 183页的182页中,鼓励使用S形输出。P(y=1|x)

为了总结一些材料,他们使是应用激活之前的输出神经元,其中是先前隐藏层的输出,是权重的向量,是标量偏差。输入向量表示为(是其函数),输出值表示为,其中是S型函数。该书希望使用值定义的概率分布。从第183页的第二段:

z=wTh+b
hwbxhy=ϕ(z)ϕyz

我们暂时忽略对的依赖,以讨论如何使用值定义的概率分布。可以通过构造未归一化的概率分布来激发S形,该概率分布之和不等于1。然后,我们可以除以适当的常数以获得有效的概率分布。如果我们假设未归一化的对数概率在和是线性的,则我们可以求幂以获得未归一化的概率。然后,我们进行标准化处理,以查看产生的z的S形变换控制的伯努利分布: xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

问题:我对两件事感到困惑,尤其是第一件事:

  1. 最初的假设来自哪里?为什么未归一化的对数概率在和呈线性关系?有人可以给我一些有关作者如何以开头的观点吗?yzlogP~(y)=yz
  2. 最后一行如何?

Answers:


8

有两种可能的结果。这很重要,因为此属性更改了乘法的含义。有两种可能的情况:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

另外需要注意的是,未归一化对数概率是恒定的。此属性源自主要假设。将任何确定性函数应用于常数值将产生常数输出。当我们对所有可能的概率进行归一化时,此属性将简化最终公式,因为我们只需要知道归一化概率,而对于则始终为常数。由于网络输出的对数概率未归一化,因此我们只需要一个输出,因为另一输出假定为常数。y=0y=1y=0

接下来,我们将求幂应用于非归一化对数概率,以获得非归一化概率。

P~(y=1)=ezP~(y=0)=e0=1

接下来,我们仅对概率进行归一化,将每个未归一化概率除以所有可能的未归一化概率之和。

P(y=1)=ez1+ezP(y=0)=11+ez

我们仅对感兴趣,因为这就是S型函数表示的概率。乍看之下,获得的函数看起来不像S型,但它们是相等的,很容易显示。P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

起初,最后一个语句可能会造成混淆,但这只是表明最终概率函数是S形的一种方式。该值转换到和到(或者我们可以说,这将是没有变化)。(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

如我们所见,这只是显示与之间关系的一种方式σP(y)


“另外重要的是要注意到未归一化对数概率是恒定的。此属性源自主要假设。” 假设是我们已经确定?y=0y=1
HBeel

我认为我的困惑来自于这样一个事实,即S型曲线给模型的概率与实际标签无关。谢谢!y=1
HBeel

在这里并不是要厚,而是在和是线性的。我希望形式为。我意识到在乘积上的将产生一个总和,这将使我更趋近于线性,但这似乎与作者所说的并不直接相关。y×zyzay+bz+clogyz
zebullon

我知道,这实际上是一个有趣的问题。第一次阅读问题时,我并没有注意此声明。现在对我来说也很奇怪。一个问题是y二进制变量,我不确定在这种情况下如何检查线性函数的属性。我想如果您提出单独的问题会很有意义,也许有人可以向您解释为什么以这种方式编写。
itdxer

2

我还发现本书的这一部分内容很难遵循,而且itdxer的上述答案对于那些不太熟练地运用概率和数学思维的人也应该有相当长的时间来理解。我是通过向后阅读答案来实现的,所以从z的S形开始

P(y=1)=ez1+ez=11+ez

并尝试返回。

logP~(y)=yz

然后就可以理解为什么他们以yz开始解释了-这是设计使然,与最终版本相同

σ((2y1)z)

通过构造,对于y = 0可以得到-1,对于y = 1可以得到1,这是在伯努利方法下y唯一可能的值。


0

这里有一个更正式的措词,将吸引那些具有量度理论背景的人。

令为Bernoulli rv,令表示前推量度,即对于,,令表示其非标准化对应项。YPYy{0,1}PY(y)=P(Y=y)P~Y

我们具有以下含义:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

最后一个等式是映射的一个聪明的办法到{0,1}{1,1}

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.