当输入条件独立时,超平面可以对数据进行最佳分类-为什么?


10

在名为“ 深度学习和信息瓶颈原理”的论文中,作者在II A)节中指出:

单神经元只能对线性可分离的输入进行分类,因为它们只能在其输入空间实现超平面。当输入是独立的时,超平面可以对数据进行最佳分类。u=wh+b

为了说明这一点,他们得出以下结论。使用贝叶斯定理,他们得到:

(1)p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y))

其中是输入,y是类别,y '是预测类别(我假设,y '未定义)。继续,他们说:xyyy

(2)p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj)

其中是输入维度,n不确定(同样,两者均未定义)。考虑一个S型神经元,S型激活函数σ u = 1Nn和预激活u,将(2)插入(1)后,我们得到最佳权重值wj=logpxj|yσ(u)=11+exp(u)ub=logpywj=logp(xj|y)p(xj|y),当输入值ħĴ=ÑpXĴb=logp(y)p(y)hj=np(xj)

现在我的问题。我知道将(2)插入(1)会导致最佳权重和输入值。我不明白的是以下内容:w,b,h

  1. (1)如何使用贝叶斯定理导出?
  2. (2)如何得出?什么是?它是什么意思?我认为这与条件独立性有关n
  3. 即使x的尺寸是有条件独立的,如何能说出x等于其缩放的概率?(即如何陈述?)hj=np(xj)

编辑:变量是一个二进制类变量。据此,我认为y '是“其他”类。这将解决问题1.您是否同意?yy


尽管论文作者(Tishby教授)在答案中指出了指针,但我仍在努力努力理解方程2的来源。我确实了解来自条件独立性假设的部分。但是,我不确定指数 -为什么在那?np(xj)
IcannotFixThis

Answers:


5

对我们短篇论文中缺少的细节感到抱歉,但是似然比检验和乙状神经元之间的这些联系和联系当然并不是新鲜事物,可以在教科书中找到(例如Bishop 2006)。在我们的论文中,“ N”是输入维数,“ n”是测试样本量(假设SNR像sqrt(n)一样增长,它实际上转化为输入SNR)。作为类的后部,通过贝叶斯规则完成与S形函数的连接。本文的其余部分和我们2017年以来更新且更重要的文章均不依赖此内容。

纳夫塔利·提斯比(Naftali Tishby)


2
感谢您在此处对此进行澄清。在这个社区中,标准做法是撰写完整的引文,以便感兴趣的读者可以查找源。您能为Bishop(2006)做到这一点吗?
mkt-恢复莫妮卡

5

这是一个模型设置,其中作者使用特殊形式的贝叶斯定理,该贝叶斯定理在您具有感兴趣的二进制变量时适用。他们首先将贝叶斯定理的这种特殊形式推导为方程式(1),然后证明方程式(2)中的条件将它们引向为其网络指定的线性形式。重要的是要注意,后面的方程式不是从先前的条件中得出的,而是它是用于其网络的线性形式的条件


yyY

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

x=(x1,...,xN)N

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

因此,在这种情况下,我们得到后验形式:

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

nxy


n

谢谢-我已经编辑了答案以反映此附加信息。
本-恢复莫妮卡

4

对于1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

yi

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

并从那里获得对数的属性,以得出最终形式(此时应足够清楚,如果不是,请告诉我)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.