统计和大数据 entropy

3

在没有引用来源的情况下，维基百科将离散分布PPP和的交叉熵定义问问Q为 H×（P; 问）= - ΣXp （x ）日志q（x ）。H×（P;问）=-∑Xp（X）日志⁡q（X）。\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} 谁是第一个开始使用此数量的人？谁发明了这个名词？我看了看： JE Shore和RW Johnson，“最大熵原理和最小交叉熵原理的公理推导”，信息理论，IEEE Transactions 26号 1，第26-37页，1980年1月。我跟随他们的介绍 A. Wehrl，“熵的一般性质”，《现代物理学》评论，第1卷。50，不。》，第2卷，第221-260页，1978年4月。谁从不使用该术语。也没有 S. Kullback和R. Leibler，“关于信息和充分性”，《数学统计年鉴》，第1卷。22号 1卷，第79-86页，1951年。我看着 TM Cover和JA Thomas，信息论要素（电信和信号处理中的Wiley系列）。Wiley-Interscience，2006年。和 I. Good，“假设公式，尤其是多维列联表的最大熵”，《数学统计年鉴》，第1卷。34号 3，第911-934页，1963年。但是这两篇论文都将交叉熵定义为KL散度的同义词。原始纸 CE Shannon，“通信的数学理论”，贝尔系统技术杂志，第1卷。1948年2月27日。没有提到交叉熵（并且对“相对熵”有一个奇怪的定义：“一个源的熵与其在限制于相同符号的情况下可能具有的最大值之比”）。最后，我看了Tribus的一些旧书和论文。有谁知道上面的等式叫什么，谁发明了它或对其进行了很好的介绍？

15 information-theory entropy

1

聚类：我应该使用Jensen-Shannon Divergence还是其平方？

我正在使用“ 相似性传播”算法对概率分布进行聚类，并且计划使用Jensen-Shannon发散作为我的距离度量。将JSD本身用作距离是正确的，还是JSD平方？为什么？选择一个或另一个会导致什么差异？

15 machine-learning clustering entropy distance-functions

4

典型设定概念

我认为典型集合的概念非常直观：如果序列出现的可能性很高，则长度为的序列将属于典型集合A （n ） ϵ。因此，任何可能的序列都将在A （n ） ϵ中。（我避免了与熵有关的形式定义，因为我试图从质上理解它。）nnnA(n)ϵAϵ(n)A_\epsilon ^{(n)}A(n)ϵAϵ(n)A_\epsilon ^{(n)} 但是，我读到，一般而言，最可能的序列不属于典型集合。这让我很困惑。有典型集合的直观定义吗？还是仅仅是一个与常识无关的数学工具？

15 entropy intuition information-theory

1

从质上讲什么是交叉熵

这个问题以公式的形式给出了交叉熵的定量定义。维基百科说，我正在寻找一个更概念上的定义：在信息论中，如果使用编码方案是基于给定的概率分布q而不是“真实”分布p，则两个概率分布之间的交叉熵衡量从一组可能性中识别事件所需的平均位数。。我强调了让我难以理解的部分。我想要一个不错的定义，不需要对熵有单独的（预先存在的）理解。

15 entropy information-theory

1

如何解释微分熵？

我最近看了这个文章的离散概率分布的熵。它描述了一种关于熵的好方法，在给定所用单词的概率分布的，当编码最佳时，对消息进行编码所需的期望位数（至少在熵定义中使用时）。日志2log2\log_2 但是，当扩展到像这样的连续情况时，我认为这种思维方式会，因为对于任何连续概率分布，（如果那是错误的，请纠正我），所以我想知道是否有一种很好的方式来思考连续熵的含义，就像离散情况一样。p （X ）∑Xp （x ）= ∞∑xp(x)=∞\sum_x p(x) = \inftyp （x ）p(x)p(x)

15 entropy information-theory

1

互信息矩阵的特征向量是什么意思？

当查看协方差矩阵的特征向量时，我们得到最大方差的方向（第一个特征向量是数据变化最大的方向，等等）；这称为主成分分析（PCA）。我想知道查看互信息矩阵的特征向量/值是什么意思，它们会指向最大熵的方向吗？

14 pca entropy mutual-information eigenvalues

1

微分熵是否总是小于无穷大？

对于任意连续的随机变量，例如，其微分熵是否始终小于∞？（这是确定如果它是- ∞）。如果不是，有什么必要和充分条件，它是小于∞？XXX∞∞\infty- ∞−∞-\infty∞∞\infty

14 entropy information-theory maximum-entropy

1

熵如何取决于位置和尺度？

密度函数为f的连续分布的熵定义为log （f ）期望值的负值，因此等于Fff日志（f），log⁡(f),\log(f), HF= - ∫∞- ∞日志（f（x ））f（x ）d x 。Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. 我们还说，任何分布具有密度f的随机变量XXX都有熵H f。（即使f为零，该积分也是明确定义的，因为在这样的值下log （f （x （））f （x ）可以等于零。）FffHF。Hf.H_f.Fff日志（f（x ））f（x ）log⁡(f(x))f(x)\log(f(x))f(x) 当XXX和ÿYY是ÿ= X+ μY=X+μY = X+\mu（μμ\mu为常数）的随机变量时，ÿYY被称为是XXX 移位μ 。μ.\mu. 类似地，当ÿ= XσY=XσY = X\sigma（σσ\sigma是正的常数），ÿYY被说成是一个版本XXX 缩放由σ。σ.\sigma.组合秤与换档给出Y=Xσ+μ.Y=Xσ+μ.Y=X\sigma + \mu. 这些关系经常发生。例如，更改XXX的度量单位将对其进行缩放和缩放。如何的熵Y=Xσ+μY=Xσ+μY = X\sigma + \mu涉及于的X?X?X?

14 distributions data-transformation entropy

2

证明具有固定协方差矩阵的最大熵分布是高斯分布

我试图绕过以下证明高斯具有最大熵的证明。加星标的步骤如何有意义？特定的协方差仅固定第二个时刻。第三，第四，第五时刻等会发生什么？

13 entropy information-theory maximum-entropy

1

导出负熵。被卡住

因此，这个问题有些牵连，但我一直在努力使之尽可能简单。目标：长话短说，负向性的派生不涉及高阶累积量，我正试图了解它是如何产生的。背景：（我理解所有这些）我正在自学这本书的“独立组件分析”书。（如果您有一本书-“非多项式函数的熵近似”，则该问题来自第5.6节）。我们有，它是一个随机变量，我们希望从一些观察中估计出其负熵。的PDF 由。负熵只是一个标准化高斯随机变量的微分熵与的微分熵之间的差。此处的微分熵由给出，使得：x p x（ζ ）x 高xxxxxxpx(ζ)px(ζ)p_x(\zeta)xxxHHH H(x)=−∫∞−∞px(ζ)log(px(ζ))dζH(x)=−∫−∞∞px(ζ)log(px(ζ))dζ H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta 因此，负熵由 J(x)=H(v)−H(x)J(x)=H(v)−H(x)J(x) = H(v) - H(x) 其中是标准化的高斯rv，PDF由ϕ （ζ ）给出。vvvϕ(ζ)ϕ(ζ)\phi(\zeta) 现在，作为这种新方法的一部分，我的书得出了的PDF的估算值，其估算公式为：xxx px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)]px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)] p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; F^{i}(\zeta)] （其中。顺便说，我是不是一个电源，但索引代替）。ci=E{Fi(x)}ci=E{Fi(x)}c_i = \mathbb{E}\{F^i(x)\}iii 现在，我“接受”这个新的PDF公式，并在第二天询问。这不是我的主要问题。不过，他现在所做的是将的PDF版本重新插入负熵方程，最后得到：xxx J(x)≈12∑iE{Fi(x)}2J(x)≈12∑iE{Fi(x)}2 J(x) \approx \frac{1}{2}\sum_i\mathbb{E} \{F^i(x)\}^2 请记住，sigma（在此以及在本帖子的其余部分）只是在索引周围循环。例如，如果我们只有两个函数，则信号将在i = …

13 distributions probability pdf entropy

1

是否有数量的任何使用

是否有数量的任何使用 ∫f(x)2dx∫f(x)2dx \int f(x)^2 dx 在统计或信息理论？

13 probability entropy information-theory

1

微分熵

高斯RV的微分熵是。这取决于标准偏差σ。log2(σ2πe−−−√)log2⁡(σ2πe)\log_2(\sigma \sqrt{2\pi e})σσ\sigma 如果我们对随机变量进行归一化，使其具有单位方差，则其微分熵下降。对我来说，这是违反直觉的，因为与熵的减少相比，归一化常数的Kolmogorov复杂度应该很小。可以简单地设计一种编码器解码器，该编码器解码器将归一化常数除以/乘以恢复由该随机变量生成的任何数据集。我的理解可能不正确。你能指出我的缺点吗？

13 information-theory entropy randomness

5

在回归分析中，交叉熵成本是否有意义？

在回归（相对于分类）的上下文中，交叉熵成本是否有意义？如果是这样，您可以通过TensorFlow给出一个玩具示例吗？如果没有，为什么不呢？我正在阅读迈克尔·尼尔森（Michael Nielsen）的《神经网络和深度学习》中的交叉熵，它似乎可以自然地用于回归和分类，但是我不知道您如何在TensorFlow中有效地应用它。损失函数采用logit（我也不是很了解），它们在此处归类

13 regression entropy tensorflow cross-entropy

5

如何在大量数据点中进行值的插补？

我的数据集非常大，大约缺少5％的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

3

为什么我得到的信息熵大于1？

我实现了以下函数来计算熵： from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum 结果： >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using a built-in package # give the same answer >>> entropy([1/7.0, …

11 mathematical-statistics python entropy

Questions tagged «entropy»