激励神经网络中的S型输出单元,以和线性非标准化对数概率开始
背景:我正在研究Ian Goodfellow,Yoshua Bengio和Aaron Courville撰写的《深度学习》第6章。在第6.2.2.2节(在此处可以查看 183页的182页中,鼓励使用S形输出。P(y=1|x)P(y=1|x)P(y=1|x) 为了总结一些材料,他们使是应用激活之前的输出神经元,其中是先前隐藏层的输出,是权重的向量,是标量偏差。输入向量表示为(是其函数),输出值表示为,其中是S型函数。该书希望使用值定义的概率分布。从第183页的第二段:z=wTh+bz=wTh+bz = w^Th+bhhhwwwbbbxxxhhhy=ϕ(z)y=ϕ(z)y=\phi(z)ϕϕ\phiyyyzzz 我们暂时忽略对的依赖,以讨论如何使用值定义的概率分布。可以通过构造未归一化的概率分布来激发S形,该概率分布之和不等于1。然后,我们可以除以适当的常数以获得有效的概率分布。如果我们假设未归一化的对数概率在和是线性的,则我们可以求幂以获得未归一化的概率。然后,我们进行标准化处理,以查看产生的z的S形变换控制的伯努利分布: xxxyyyzzzP~(y)P~(y)\tilde P(y)yyyzzzlogP~(y)P~(y)P(y)P(y)=yz=exp(yz)=exp(yz)∑1y′=0exp(y′z)=ϕ((2y−1)z)logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)∑y′=01exp(y′z)P(y)=ϕ((2y−1)z)\begin{align} \log\tilde P(y) &= yz \\ \tilde P(y) &= \exp(yz) \\ P(y) &= \frac{\exp(yz)}{\sum_{y'=0}^1 \exp(y'z) } \\ P(y) &= \phi((2y-1)z) \end{align} 问题:我对两件事感到困惑,尤其是第一件事: 最初的假设来自哪里?为什么未归一化的对数概率在和呈线性关系?有人可以给我一些有关作者如何以开头的观点吗?yyyzzzlogP~(y)=yzlogP~(y)=yz\log\tilde P(y) = yz 最后一行如何?