统计和大数据 mutual-information

2

我想使用互信息来量化两个变量A和B之间的关系。计算它的方法是对观察值进行分箱（请参见下面的示例Python代码）。但是，什么因素决定合理数量的箱？我需要计算速度快，所以我不能简单地使用很多垃圾箱来保证安全。 from sklearn.metrics import mutual_info_score def calc_MI(x, y, bins): c_xy = np.histogram2d(x, y, bins)[0] mi = mutual_info_score(None, None, contingency=c_xy) return mi

10 information-theory mutual-information binning

2

log（p（x，y））如何规范逐点相互信息？

我正在尝试理解逐点相互信息的规范化形式。 n p m i =p m i （x ，y）升Ò 克（p （x ，y））ñp米一世=p米一世（X，ÿ）升ØG（p（X，ÿ））npmi = \frac{pmi(x,y)}{log(p(x,y))} 为什么对数联合概率将逐点相互信息归一化为[-1，1]之间？逐点相互信息是： pmi=log(p(x,y)p(x)p(y))pmi=log(p(x,y)p(x)p(y))pmi = log(\frac{p(x,y)}{p(x)p(y)}) p（x，y）的边界是[0，1]，所以log（p（x，y））的边界是（，0]。看来log（p（x，y））应该以某种方式平衡变化分子，但是我不知道怎么做，这也让我想起了熵 h=−log(p(x))h=−log(p(x))h=-log(p(x))，但我仍然不了解确切的关系。

9 entropy information-theory mutual-information

3

关于联合熵的直觉

我在建立关于联合熵的直觉上遇到困难。 =联合分布不确定性； =不确定性； =不确定性。H(X,Y)H（X，ÿ）H(X,Y)p(x,y)p（X，ÿ）p(x,y)H(X)H(X)H(X)px(x)px(x)p_x(x)H(Y)H(Y)H(Y)py(y)py(y)p_y(y) 如果H（X）高，则分布更加不确定，如果您知道这种分布的结果，则您可以获得更多信息！因此，H（X）也可以量化信息。现在我们可以显示H(X,Y)≤H(X)+H(Y)H(X,Y)≤H(X)+H(Y)H(X,Y) \leq H(X) + H(Y) 但是，如果您知道可以得到和那么从某种意义上说比和拥有更多的信息，所以不应该与p（x，y）有关的不确定性是否大于各个不确定性的总和？p(x,y)p(x,y)p(x,y)px(x)px(x)p_x(x)py(y)py(y)p_y(y)p(x,y)p(x,y)p(x,y)px(x)px(x)p_x(x)py(y)py(y)p_y(y)

9 information-theory mutual-information

1

如何比较观察到的事件与预期的事件？

假设我有一个频率为4个可能的事件的样本： Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和（18），我可以计算事件的预期频率，对吗？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

互相关与互信息

互相关和互信息有什么区别。使用这些措施可以解决什么样的问题，何时才适合使用一个问题。感谢您的评论。为了澄清，这个问题是由对图像分析而不是时间序列分析的兴趣提示的，尽管对该领域的任何启发也将受到赞赏。

9 cross-correlation mutual-information

Questions tagged «mutual-information»