当输入条件独立时,超平面可以对数据进行最佳分类-为什么?
在名为“ 深度学习和信息瓶颈原理”的论文中,作者在II A)节中指出: 单神经元只能对线性可分离的输入进行分类,因为它们只能在其输入空间实现超平面。当输入是独立的时,超平面可以对数据进行最佳分类。u=wh+bu=wh+bu = wh+b 为了说明这一点,他们得出以下结论。使用贝叶斯定理,他们得到: (1)p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})} 其中是输入,y是类别,y '是预测类别(我假设,y '未定义)。继续,他们说:xxxyyyy′y′y'y′y′y' (2)p(x|y)p(x|y′)=∏Nj=1[p(xj|y)p(xj|y′)]np(xj)p(x|y)p(x|y′)=∏j=1N[p(xj|y)p(xj|y′)]np(xj)\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)} 其中是输入维度,n不确定(同样,两者均未定义)。考虑一个S型神经元,S型激活函数σ (u )= 1NNNnnn和预激活u,将(2)插入(1)后,我们得到最佳权重值wj=logp(xj|y)σ(u)=11+exp(−u)σ(u)=11+exp(−u)\sigma(u) = \frac{1}{1+exp(-u)}uuu和b=logp(y)wj=logp(xj|y)p(xj|y′)wj=logp(xj|y)p(xj|y′)w_j = log\frac{p(x_j|y)}{p(x_j|y')},当输入值ħĴ=Ñp(XĴ)。b=logp(y)p(y′)b=logp(y)p(y′)b=log\frac{p(y)}{p(y')}hj=np(xj)hj=np(xj)h_j=np(x_j) 现在我的问题。我知道将(2)插入(1)会导致最佳权重和输入值。我不明白的是以下内容:w,b,hw,b,hw,b,h (1)如何使用贝叶斯定理导出? (2)如何得出?什么是?它是什么意思?我认为这与条件独立性有关nnn 即使x的尺寸是有条件独立的,如何能说出x等于其缩放的概率?(即如何陈述?)hj=np(xj)hj=np(xj)h_j=np(x_j) 编辑:变量是一个二进制类变量。据此,我认为y '是“其他”类。这将解决问题1.您是否同意?yyyy′y′y'