背景:我正在研究Ian Goodfellow,Yoshua Bengio和Aaron Courville撰写的《深度学习》第6章。在第6.2.2.2节(在此处可以查看 183页的182页中,鼓励使用S形输出。
为了总结一些材料,他们使是应用激活之前的输出神经元,其中是先前隐藏层的输出,是权重的向量,是标量偏差。输入向量表示为(是其函数),输出值表示为,其中是S型函数。该书希望使用值定义的概率分布。从第183页的第二段:
我们暂时忽略对的依赖,以讨论如何使用值定义的概率分布。可以通过构造未归一化的概率分布来激发S形,该概率分布之和不等于1。然后,我们可以除以适当的常数以获得有效的概率分布。如果我们假设未归一化的对数概率在和是线性的,则我们可以求幂以获得未归一化的概率。然后,我们进行标准化处理,以查看产生的z的S形变换控制的伯努利分布:
问题:我对两件事感到困惑,尤其是第一件事:
- 最初的假设来自哪里?为什么未归一化的对数概率在和呈线性关系?有人可以给我一些有关作者如何以开头的观点吗?
- 最后一行如何?