Questions tagged «information-theory»

数学/统计的一个分支,用于确定通道的信息承载能力,无论是用于通信的通道还是以抽象方式定义的通道。熵是信息理论家可以量化预测随机变量所涉及的不确定性的一种方法。

2
互信息作为概率
莫非在联合熵的互信息: 0 ≤ 我(X,Y)H(X,Y)≤ 10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 被定义为:“将一条信息从X传递到Y的概率”? 我很天真,对不起,但是我从未学习过信息理论,我只是在试图理解其中的一些概念。


3
信息论中心极限定理
信息理论CLT的最简单形式如下: 设X1,X2,…X1,X2,…X_1, X_2,\dots等于均值000和方差111。令fnfnf_n为归一化总和∑ n i = 1 X i的密度∑ni=1Xin√∑i=1nXin\frac{\sum_{i=1}^n X_i}{\sqrt{n}}ϕϕ\phiD(fn∥ϕ)=∫fnlog(fn/ϕ)dxD(fn‖ϕ)=∫fnlog⁡(fn/ϕ)dxD(f_n\|\phi)=\int f_n \log(f_n/\phi) dxnnnD(fn∥ϕ)→0D(fn‖ϕ)→0D(f_n\|\phi)\to 0n→∞n→∞n\to \infty 从某种意义上说,由于Pinsker不等式,这种收敛肯定比文献中公认的收敛,分布收敛和 -metric 收敛“更强”。即,KL散度的收敛意味着分布的收敛和距离的收敛。L1L1L_1(∫|fn−ϕ|)2≤2⋅∫fnlog(fn/ϕ)(∫|fn−ϕ|)2≤2⋅∫fnlog⁡(fn/ϕ)\left(\int |f_n-\phi|\right)^2\le 2\cdot \int f_n \log(f_n/\phi)L1L1L_1 我想知道两件事。 结果什么?D(fn∥ϕ)→0D(fn‖ϕ)→0D(f_n\|\phi)\to 0 难道仅仅是因为在第三段指出,我们说收敛KL散度(的原因,即,)是强?D(fn∥ϕ)→0D(fn‖ϕ)→0D(f_n\|\phi)\to 0 注意:我前段时间在math.stackexchange中问了这个问题,但没有得到任何答案。

2
两个卡片组之间的相关性?
我编写了一个程序来模拟手牌洗牌。 每张卡都有编号,西装CLUBS, DIAMONDS, HEARTS, SPADES的等级从2到10,然后是Jack,Queen,King和Ace。因此,两家具乐部的个数为1,三家具乐部的个数为2 .... A俱乐部数为13,黑桃A为52。 确定卡片混洗程度的方法之一是将其与未混洗的卡片进行比较,并查看卡片的顺序是否相关。 也就是说,我可能拥有这些卡,并使用未洗牌的卡进行比较: Unshuffled Shuffled Unshuffled number Shuffled number Two of Clubs Three of Clubs 1 2 Three of Clubs Two of Clubs 2 1 Four of Clubs Five of Clubs 3 4 Five of Clubs Four of Clubs 4 3 皮尔森法的相关性为:0.6 使用大量的卡片(共52张),您可能会看到图案出现。我的假设是,经过更多的改组,您将获得更少的相关性。 但是,有很多方法可以测量相关性。 …

2
为了选择零件数量,有什么好的指标可以评估PCA配合的质量?
评估主成分分析(PCA)质量的良好指标是什么? 我在数据集上执行了该算法。我的目标是减少功能数量(信息非常冗余)。我知道保留的方差百分比可以很好地表明我们保留了多少信息,是否可以使用其他信息指标来确保我删除了冗余信息并且没有“丢失”此类信息?


1
如何计算共同信息?
我有点困惑。有人可以向我解释如何基于以二进制项出现为权重的项文档矩阵计算两个项之间的互信息吗? d ø Ç ù 米ë Ñ 吨1d ø Ç ù 米ë Ñ 吨2d ø Ç ù 米ë Ñ 吨3′w ^^ h ÿ′1个1个1个′HØ w ^′1个01个′w ^ħ È Ñ′1个1个1个′w ^^ h è [R é′1个00′w ^Hÿ′′HØw′′w ^HËñ′′w ^HË[RË′dØCü米ËñŤ1个1个1个1个1个dØCü米ËñŤ21个01个0dØCü米ËñŤ31个1个1个0 \begin{matrix} & 'Why' & 'How' & 'When' & 'Where' \\ Document1 & 1 & …

3
在Matlab中使用互信息进行特征选择
我正在尝试将互信息的思想应用于特征选择,如这些讲义(第5页)中所述。 我的平台是Matlab。我从经验数据计算互信息时发现的一个问题是,数字总是向上偏移。我在Matlab Central上找到了大约3〜4个不同的文件来计算MI,当我输入独立的随机变量时,它们都给出了很大的数字(例如> 0.4)。 我不是专家,但是问题似乎是,如果仅使用联合和边际密度来计算MI,则会在过程中引入偏差,因为MI从定义上说是积极的。是否有人对如何准确估计互信息有实用建议? 一个相关的问题是,在实践中,人们实际上如何使用MI选择功能?对我而言,如何得出一个阈值并不明显,因为理论上MI是无界的。还是人们只是按MI对要素进行排名并采用前k个要素?

2
假设检验和总变异距离与Kullback-Leibler散度的关系
在我的研究中,我遇到了以下一般性问题:在同一个域中有两个分布和,以及来自这些分布的大量(但有限)样本。样本是从这两个分布之一独立且相同地分布的(尽管分布可能是相关的:例如,可能是和其他分布的混合。)零假设是样本来自,替代假设是样本来自。Q Q P P QPPPQQQQQQPPPPPPQQQ 我试图表征I型和测试样品,了解发行第二类错误和。特别是,除了对和的了解之外,我还对限制一个错误和另一个错误感兴趣。Q P QPPPQQQPPPQQQ 我问了一个关于math.SE 的问题,关于和之间的总变异距离与假设检验的关系,并收到了我接受的答案。这个答案是有道理的,但是我仍然无法将总变化距离和假设检验之间更深层的含义笼罩在脑海中,因为这与我的问题有关。因此,我决定转向这个论坛。QPPPQQQ 我的第一个问题是:总变化是否与 I类错误和II类错误的概率之和无关,而与所采用的假设检验方法无关?本质上,只要存在可能由任一分布生成样本的非零概率,至少一个错误的概率就必须为非零。基本上,无论您进行多少信号处理,您都无法避免假设检验器会出错的可能性。而总变化限制了确切的可能性。我的理解正确吗? I型和II型错误与潜在的概率分布和之间还有另一关系:KL散度。因此,我的第二个问题是:KL散度约束是否仅适用于一种特定的假设检验方法(似乎很多涉及对数似然比方法),还是可以将其普遍适用于所有假设检验方法?如果它适用于所有假设检验方法,那么为什么它似乎与总变异范围有很大不同?它的行为是否有所不同?QPPPQQQ 我的基本问题是:在规定的条件下我应该使用约束还是纯粹为了方便起见?什么时候应该使用一个绑定推导结果并使用另一个绑定? 如果这些问题无关紧要,我深表歉意。我是计算机科学家(所以对我来说,这似乎是一个奇特的模式匹配问题:)。)我对信息论非常了解,并且也具有概率论的毕业背景。但是,我才刚刚开始学习所有这些假设检验的知识。如果需要,我将尽力澄清我的问题。

3
当输入条件独立时,超平面可以对数据进行最佳分类-为什么?
在名为“ 深度学习和信息瓶颈原理”的论文中,作者在II A)节中指出: 单神经元只能对线性可分离的输入进行分类,因为它们只能在其输入空间实现超平面。当输入是独立的时,超平面可以对数据进行最佳分类。u=wh+bu=wh+bu = wh+b 为了说明这一点,他们得出以下结论。使用贝叶斯定理,他们得到: (1)p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})} 其中是输入,y是类别,y '是预测类别(我假设,y '未定义)。继续,他们说:xxxyyyy′y′y'y′y′y' (2)p(x|y)p(x|y′)=∏Nj=1[p(xj|y)p(xj|y′)]np(xj)p(x|y)p(x|y′)=∏j=1N[p(xj|y)p(xj|y′)]np(xj)\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)} 其中是输入维度,n不确定(同样,两者均未定义)。考虑一个S型神经元,S型激活函数σ (u )= 1NNNnnn和预激活u,将(2)插入(1)后,我们得到最佳权重值wj=logp(xj|y)σ(u)=11+exp(−u)σ(u)=11+exp(−u)\sigma(u) = \frac{1}{1+exp(-u)}uuu和b=logp(y)wj=logp(xj|y)p(xj|y′)wj=logp(xj|y)p(xj|y′)w_j = log\frac{p(x_j|y)}{p(x_j|y')},当输入值ħĴ=Ñp(XĴ)。b=logp(y)p(y′)b=logp(y)p(y′)b=log\frac{p(y)}{p(y')}hj=np(xj)hj=np(xj)h_j=np(x_j) 现在我的问题。我知道将(2)插入(1)会导致最佳权重和输入值。我不明白的是以下内容:w,b,hw,b,hw,b,h (1)如何使用贝叶斯定理导出? (2)如何得出?什么是?它是什么意思?我认为这与条件独立性有关nnn 即使x的尺寸是有条件独立的,如何能说出x等于其缩放的概率?(即如何陈述?)hj=np(xj)hj=np(xj)h_j=np(x_j) 编辑:变量是一个二进制类变量。据此,我认为y '是“其他”类。这将解决问题1.您是否同意?yyyy′y′y'


2
计算互信息时的箱数
我想使用互信息来量化两个变量A和B之间的关系。计算它的方法是对观察值进行分箱(请参见下面的示例Python代码)。但是,什么因素决定合理数量的箱?我需要计算速度快,所以我不能简单地使用很多垃圾箱来保证安全。 from sklearn.metrics import mutual_info_score def calc_MI(x, y, bins): c_xy = np.histogram2d(x, y, bins)[0] mi = mutual_info_score(None, None, contingency=c_xy) return mi

1
神经网络是否使用有效的编码?
我的问题与有效编码假设之间的关系有关,该假设在Wikipedia页面上概述了有效编码与神经网络学习算法之间的关系。 有效编码假设和神经网络之间有什么关系? 是否有任何有效编码假设明确启发的神经网络模型? 或者说所有神经网络学习算法至少隐式地基于有效编码会更公平吗?

1
信息论在应用数据科学中的应用
今天,我翻阅了詹姆斯·斯通(James Stone)的《信息理论:教程简介》一书,并思考了一两个片刻,以探讨信息理论在应用 数据科学中的应用程度(如果您不满意这个仍然有些模糊的术语,想想数据分析,这是恕我直言数据科学的荣耀版)。我很清楚的显著使用的信息理论为基础的途径,方法和措施,特别是熵,引擎盖下的各种统计技术和数据分析方法。 但是,我对应用社会科学家成功选择和应用这些概念,方法和工具所需要的知识的程度/水平感到好奇,而不必深入理论的数学渊源。我期待您的回答,这些回答可能会在上述书籍(或其他类似书籍-随时推荐)或总体上解决我的关注。 我还要感谢一些针对印刷或在线资源的建议,这些建议在(与之相比)其他(更多)传统统计方法(常客和贝叶斯方法)的背景下讨论信息理论及其概念,方法,方法和措施。

2
log(p(x,y))如何规范逐点相互信息?
我正在尝试理解逐点相互信息的规范化形式。 n p m i =p m i (x ,y)升Ò 克(p (x ,y))ñp米一世=p米一世(X,ÿ)升ØG(p(X,ÿ))npmi = \frac{pmi(x,y)}{log(p(x,y))} 为什么对数联合概率将逐点相互信息归一化为[-1,1]之间? 逐点相互信息是: pmi=log(p(x,y)p(x)p(y))pmi=log(p(x,y)p(x)p(y))pmi = log(\frac{p(x,y)}{p(x)p(y)}) p(x,y)的边界是[0,1],所以log(p(x,y))的边界是(,0]。看来log(p(x,y))应该以某种方式平衡变化分子,但是我不知道怎么做,这也让我想起了熵 h=−log(p(x))h=−log(p(x))h=-log(p(x)),但我仍然不了解确切的关系。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.