在名为“ 深度学习和信息瓶颈原理”的论文中,作者在II A)节中指出:
单神经元只能对线性可分离的输入进行分类,因为它们只能在其输入空间实现超平面。当输入是独立的时,超平面可以对数据进行最佳分类。
为了说明这一点,他们得出以下结论。使用贝叶斯定理,他们得到:
(1)
其中是输入,y是类别,y '是预测类别(我假设,y '未定义)。继续,他们说:
(2)
其中是输入维度,n不确定(同样,两者均未定义)。考虑一个S型神经元,S型激活函数σ (u )= 1和预激活u,将(2)插入(1)后,我们得到最佳权重值wj=logp(xj|y)和b=logp(y),当输入值ħĴ=Ñp(XĴ)。
现在我的问题。我知道将(2)插入(1)会导致最佳权重和输入值。我不明白的是以下内容:
- (1)如何使用贝叶斯定理导出?
- (2)如何得出?什么是?它是什么意思?我认为这与条件独立性有关
- 即使x的尺寸是有条件独立的,如何能说出x等于其缩放的概率?(即如何陈述?)
编辑:变量是一个二进制类变量。据此,我认为y '是“其他”类。这将解决问题1.您是否同意?