统计和大数据 mutual-information

4

为什么以及何时应该在统计相关性度量（例如“皮尔森”，“长矛手”或“肯德尔的头”）上使用互惠信息？

51 correlation mathematical-statistics mutual-information

3

最近，我读了两篇文章。第一个是相关性的历史，第二个是称为最大信息系数（MIC）的新方法。我需要您的帮助以了解MIC方法来估算变量之间的非线性相关性。此外，可以在作者的网站上找到有关在R中使用它的说明（在下载下）：我希望这将是一个讨论和理解此方法的好平台。我有兴趣讨论这种方法背后的一种直觉以及如何扩展该方法，如作者所说。 “ ... ...我们需要将MIC（X，Y）扩展到MIC（X，Y | Z）。我们将想知道需要多少数据才能获得MIC的稳定估计值，离群值有多容易受到影响，这三个-或更高维度的关系将丢失，甚至更多。MIC是向前迈出的重要一步，但还有更多步骤需要采取。 ”

20 correlation nonparametric bioinformatics information-theory mutual-information

2

有界互信息在点向互信息上有界

假设我有两个集合和以及在这些集合的联合概率分布。令和分别表示和的边际分布。XXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY 和之间的相互信息定义为： XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) 即它是点向互信息pmi的平均值。(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) 假设我知道pmi上限和下限：即，我知道对于所有，以下成立： -k \ leq \ log \ left（\ frac {p（x，y）} {p（ x）p（y）} \右）\ leq k(x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k 这意味着I（X; Y）的上限I(X;Y)I(X;Y)I(X; Y)。当然，这意味着I(X;Y)≤kI(X;Y)≤kI(X; Y) \leq k，但是如果可能的话，我希望有一个更严格的界限。这在我看来是合理的，因为p定义了概率分布，并且pmi (x,y)(x,y)(x,y)不能针对xxx和y的每个值取其最大值（甚至是非负数）yyy。

18 entropy mutual-information information-theory

1

在原假设下，可交换样本背后的直觉是什么？

排列检验（也称为随机检验，重新随机检验或精确检验）非常有用，并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是，在使用这种检验时，一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是，当有两个以上的示例（如在coinR包中实现的示例）时，也可以应用这种方法。您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗？这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。注意：提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。更新：假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1：1。分别Par1在V1（基准），V2（3个月后）和V3（1年后）时测量了参数1 。根据特征A，所有50个主题都可以分为2组；正值= 20，负值=30。它们也可以基于特征B细分为另外2组；B阳性= 15，B阴性=35。现在，我具有Par1所有访问中所有受试者的值。在可交换性的假设下，如果可以，我是否可以在Par1使用置换测试的水平之间进行比较： -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较？ -将具有特征A的对象与具有V2的特征B的对象进行比较？ -比较在V2具有特征A的对象与在V3具有特征A的对象？ -在哪种情况下，这种比较是无效的，并且违反了可交换性的假设？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

相关性和相互信息之间的主要区别是什么？

我的问题特别适用于网络重建

15 correlation mutual-information

1

距离相关与互信息

我已经使用共同信息一段时间了。但是我发现“关联世界”中有一个非常新的度量，也可以用来度量分布独立性，即所谓的“距离相关”（也称为布朗相关）：http : //en.wikipedia.org/wiki/Brownian_covariance。我检查了引入此措施的论文，但没有发现对相互信息的任何暗示。因此，我的问题是：他们解决完全相同的问题吗？如果不是，那么这些问题有何不同？并且，如果可以肯定地回答上一个问题，那么使用一个或另一个有什么好处？

15 correlation mutual-information distance-covariance

1

互信息矩阵的特征向量是什么意思？

当查看协方差矩阵的特征向量时，我们得到最大方差的方向（第一个特征向量是数据变化最大的方向，等等）；这称为主成分分析（PCA）。我想知道查看互信息矩阵的特征向量/值是什么意思，它们会指向最大熵的方向吗？

14 pca entropy mutual-information eigenvalues

1

使用互信息估计连续变量和分类变量之间的相关性

至于标题，其思想是在MI前后使用互信息来估计连续变量和分类变量之间的“相关性”（定义为“当我知道B时我对A有多少了解”）。稍后，我会告诉您我的想法，但在我建议您阅读CrossValidated上的其他问题/答案之前，因为它包含一些有用的信息。现在，由于我们无法对分类变量进行积分，因此需要离散化连续变量。在R（这是我进行大多数分析时所用的语言）中，可以很容易地做到这一点。我更喜欢使用该cut函数，因为它也为值取别名，但也可以使用其他选项。问题的关键是，人们必须决定先验可以做任何离散化之前“箱”（离散状态）的数量。但是，主要问题是另一个问题：MI的范围是0到∞，因为它是未标准化的度量，单位是位。这使得很难将其用作相关系数。这可以通过全局相关系数部分地解决，在这里和之后的GCC是MI的标准版本。GCC定义如下：参考：该公式摘自AndreiaDionísio，Rui Menezes和Diana Mendes，2010年，《互助信息作为分析股市全球化的非线性工具》。 GCC的范围是0到1，因此可以轻松地用来估计两个变量之间的相关性。问题解决了吧？好吧，有点。因为所有这些过程在很大程度上取决于我们决定在离散化过程中使用的“箱”的数量。这是我的实验结果：在y轴上有GCC，在x轴上有我决定用于离散化的“ bin”数。这两行指的是我对两个不同（尽管非常相似）的数据集进行的两个不同的分析。在我看来，一般而言，尤其是GCC的MI用法仍存在争议。但是，这种混乱可能是我一方错误的结果。无论哪种情况，我都很想听听您对此事的看法（此外，您是否可以使用其他方法来估计分类变量和连续变量之间的相关性？）。

13 correlation information-theory mutual-information

2

互信息作为概率

莫非在联合熵的互信息： 0 ≤ 我（X，Y）H（X，Y）≤ 10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 被定义为：“将一条信息从X传递到Y的概率”？我很天真，对不起，但是我从未学习过信息理论，我只是在试图理解其中的一些概念。

11 information-theory mutual-information

1

互信息增益值可以大于1吗

我有一个非常基本的疑问。对不起，如果这激怒了很少。我知道相互信息值应大于0，但应小于1吗？它是否受任何上限限制？谢谢，阿米特。

11 information-theory mutual-information

1

在SVD之前在单词共生矩阵上应用逐点互信息的利弊是什么？

生成单词嵌入的一种方法如下（mirror）：获得一个语料库，例如“我喜欢飞行。我喜欢NLP。我喜欢深度学习。” 从中建立单词共现矩阵：在上执行SVD ，并保留U 的前列。XXXķķk 子矩阵每一行都是该行表示的单词的单词嵌入（行1 =“ I”，行2 =“ like”，…）。ü1 ： | V| ，1：kü1个：|V|，1个：ķU_{1:|V|,1:k} 在第2步和第3步之间，有时会应用逐点相互信息（例如A. Herbelot和EM Vecchi。2015。构建共享世界：映射分布到模型理论语义空间。）在2015年自然语言处理经验方法会议上的发言（葡萄牙里斯本）。在SVD之前在单词共生矩阵上应用逐点互信息的利弊是什么？

11 natural-language svd mutual-information word-embeddings language-models

1

人们为什么使用“证据权重”一词，它与“逐点相互信息”有何区别？

在这里，“证据权重”（WOE）是已发表的科学和政策制定文献中的常用术语，在风险评估的背景下最常见，其定义如下： w(e:h)=logp(e|h)p(e|h¯¯¯)w(e:h)=log⁡p(e|h)p(e|h¯)w(e : h) = \log\frac{p(e|h)}{p(e|\overline{h})} 其中是证据，是假设。eeehhh 现在，我想知道PMI（逐点相互信息）的主要区别是什么 pmi(e,h)=logp(e,h)p(e)∗p(h)pmi(e,h)=log⁡p(e,h)p(e)∗p(h)pmi(e,h)=\log\frac{p(e,h)}{p(e)*p(h)}

11 probability bayesian mutual-information

1

统计人员为什么不使用相互信息来衡量关联？

我看过一些非统计学家的谈话，他们似乎在使用互信息而不是回归（或等效/密切相关的统计检验）来重新发明相关度量。我认为统计学家不采用这种方法是有充分理由的。我的外行人的理解是，熵/互信息的估计量往往有问题且不稳定。因此，我认为功能也是有问题的：他们声称自己没有使用参数测试框架来尝试解决此问题。通常，这种工作不会影响功效计算，甚至不会影响置信度/可信度区间。但是，采取恶魔的拥护者立场，当数据集非常大时，慢速收敛是否有那么大的意义呢？同样，有时这些方法似乎在某种意义上是“有效的”，即关联性已通过后续研究验证。反对使用互信息来衡量关联的最佳批评是什么？为什么不将其广泛用于统计实践中？编辑：此外，是否有涵盖这些问题的好论文？

10 correlation mutual-information

1

如何计算共同信息？

我有点困惑。有人可以向我解释如何基于以二进制项出现为权重的项文档矩阵计算两个项之间的互信息吗？ d ø Ç ù 米ë Ñ 吨1d ø Ç ù 米ë Ñ 吨2d ø Ç ù 米ë Ñ 吨3′w ^^ h ÿ′1个1个1个′HØ w ^′1个01个′w ^ħ È Ñ′1个1个1个′w ^^ h è [R é′1个00′w ^Hÿ′′HØw′′w ^HËñ′′w ^HË[RË′dØCü米ËñŤ1个1个1个1个1个dØCü米ËñŤ21个01个0dØCü米ËñŤ31个1个1个0 \begin{matrix} & 'Why' & 'How' & 'When' & 'Where' \\ Document1 & 1 & …

10 python information-theory mutual-information numpy pandas

3

在Matlab中使用互信息进行特征选择

我正在尝试将互信息的思想应用于特征选择，如这些讲义（第5页）中所述。我的平台是Matlab。我从经验数据计算互信息时发现的一个问题是，数字总是向上偏移。我在Matlab Central上找到了大约3〜4个不同的文件来计算MI，当我输入独立的随机变量时，它们都给出了很大的数字（例如> 0.4）。我不是专家，但是问题似乎是，如果仅使用联合和边际密度来计算MI，则会在过程中引入偏差，因为MI从定义上说是积极的。是否有人对如何准确估计互信息有实用建议？一个相关的问题是，在实践中，人们实际上如何使用MI选择功能？对我而言，如何得出一个阈值并不明显，因为理论上MI是无界的。还是人们只是按MI对要素进行排名并采用前k个要素？

10 matlab feature-selection information-theory mutual-information

Questions tagged «mutual-information»