Questions tagged «entropy»

设计用来测量随机变量的随机性的数学量。

3
“交叉熵”的定义和起源
在没有引用来源的情况下,维基百科将离散分布PPP和的交叉熵定义问问Q为 H×(P; 问)= - ΣXp (x )日志q(x )。H×(P;问)=-∑Xp(X)日志⁡q(X)。\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} 谁是第一个开始使用此数量的人?谁发明了这个名词?我看了看: JE Shore和RW Johnson,“最大熵原理和最小交叉熵原理的公理推导”,信息理论,IEEE Transactions 26号 1,第26-37页,1980年1月。 我跟随他们的介绍 A. Wehrl,“熵的一般性质”,《现代物理学》评论,第1卷。50,不。》,第2卷,第221-260页,1978年4月。 谁从不使用该术语。 也没有 S. Kullback和R. Leibler,“关于信息和充分性”,《数学统计年鉴》,第1卷。22号 1卷,第79-86页,1951年。 我看着 TM Cover和JA Thomas,信息论要素(电信和信号处理中的Wiley系列)。Wiley-Interscience,2006年。 和 I. Good,“假设公式,尤其是多维列联表的最大熵”,《数学统计年鉴》,第1卷。34号 3,第911-934页,1963年。 但是这两篇论文都将交叉熵定义为KL散度的同义词。 原始纸 CE Shannon,“通信的数学理论”,贝尔系统技术杂志,第1卷。1948年2月27日。 没有提到交叉熵(并且对“相对熵”有一个奇怪的定义:“一个源的熵与其在限制于相同符号的情况下可能具有的最大值之比”)。 最后,我看了Tribus的一些旧书和论文。 有谁知道上面的等式叫什么,谁发明了它或对其进行了很好的介绍?


4
典型设定概念
我认为典型集合的概念非常直观:如果序列出现的可能性很高,则长度为的序列将属于典型集合A (n ) ϵ。因此,任何可能的序列都将在A (n ) ϵ中。(我避免了与熵有关的形式定义,因为我试图从质上理解它。)nnnA(n)ϵAϵ(n)A_\epsilon ^{(n)}A(n)ϵAϵ(n)A_\epsilon ^{(n)} 但是,我读到,一般而言,最可能的序列不属于典型集合。这让我很困惑。 有典型集合的直观定义吗?还是仅仅是一个与常识无关的数学工具?

1
从质上讲什么是交叉熵
这个问题以公式的形式给出了交叉熵的定量定义。 维基百科说,我正在寻找一个更概念上的定义: 在信息论中,如果使用编码方案是基于给定的概率分布q而不是“真实”分布p,则两个概率分布之间的交叉熵衡量从一组可能性中识别事件所需的平均位数。。 我强调了让我难以理解的部分。我想要一个不错的定义,不需要对熵有单独的(预先存在的)理解。

1
如何解释微分熵?
我最近看了这个文章的离散概率分布的熵。它描述了一种关于熵的好方法,在给定所用单词的概率分布的,当编码最佳时,对消息进行编码所需的期望位数(至少在熵定义中使用时)。日志2log2\log_2 但是,当扩展到像这样的连续情况时,我认为这种思维方式会,因为对于任何连续概率分布,(如果那是错误的,请纠正我),所以我想知道是否有一种很好的方式来思考连续熵的含义,就像离散情况一样。p (X )∑Xp (x )= ∞∑xp(x)=∞\sum_x p(x) = \inftyp (x )p(x)p(x)



1
熵如何取决于位置和尺度?
密度函数为f的连续分布的熵定义为log (f )期望值的负值,因此等于Fff日志(f),log⁡(f),\log(f), HF= - ∫∞- ∞日志(f(x ))f(x )d x 。Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. 我们还说,任何分布具有密度f的随机变量XXX都有熵H f。 (即使f为零,该积分也是明确定义的,因为在这样的值下log (f (x ())f (x )可以等于零。)FffHF。Hf.H_f.Fff日志(f(x ))f(x )log⁡(f(x))f(x)\log(f(x))f(x) 当XXX和ÿYY是ÿ= X+ μY=X+μY = X+\mu(μμ\mu为常数)的随机变量时,ÿYY被称为是XXX 移位μ 。μ.\mu. 类似地,当ÿ= XσY=XσY = X\sigma(σσ\sigma是正的常数),ÿYY被说成是一个版本XXX 缩放由σ。σ.\sigma.组合秤与换档给出Y=Xσ+μ.Y=Xσ+μ.Y=X\sigma + \mu. 这些关系经常发生。例如,更改XXX的度量单位将对其进行缩放和缩放。 如何的熵Y=Xσ+μY=Xσ+μY = X\sigma + \mu涉及于的X?X?X?


1
导出负熵。被卡住
因此,这个问题有些牵连,但我一直在努力使之尽可能简单。 目标:长话短说,负向性的派生不涉及高阶累积量,我正试图了解它是如何产生的。 背景:(我理解所有这些) 我正在自学这本书的“独立组件分析”书。(如果您有一本书-“非多项式函数的熵近似”,则该问题来自第5.6节)。 我们有,它是一个随机变量,我们希望从一些观察中估计出其负熵。的PDF 由。负熵只是一个标准化高斯随机变量的微分熵与的微分熵之间的差。此处的微分熵由给出,使得:x p x(ζ )x 高xxxxxxpx(ζ)px(ζ)p_x(\zeta)xxxHHH H(x)=−∫∞−∞px(ζ)log(px(ζ))dζH(x)=−∫−∞∞px(ζ)log(px(ζ))dζ H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta 因此,负熵由 J(x)=H(v)−H(x)J(x)=H(v)−H(x)J(x) = H(v) - H(x) 其中是标准化的高斯rv,PDF由ϕ (ζ )给出。vvvϕ(ζ)ϕ(ζ)\phi(\zeta) 现在,作为这种新方法的一部分,我的书得出了的PDF的估算值,其估算公式为:xxx px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)]px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)] p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; F^{i}(\zeta)] (其中。顺便说,我是不是一个电源,但索引代替)。ci=E{Fi(x)}ci=E{Fi(x)}c_i = \mathbb{E}\{F^i(x)\}iii 现在,我“接受”这个新的PDF公式,并在第二天询问。这不是我的主要问题。不过,他现在所做的是将的PDF版本重新插入负熵方程,最后得到:xxx J(x)≈12∑iE{Fi(x)}2J(x)≈12∑iE{Fi(x)}2 J(x) \approx \frac{1}{2}\sum_i\mathbb{E} \{F^i(x)\}^2 请记住,sigma(在此以及在本帖子的其余部分)只是在索引周围循环。例如,如果我们只有两个函数,则信号将在i = …


1
微分熵
高斯RV的微分熵是。这取决于标准偏差σ。log2(σ2πe−−−√)log2⁡(σ2πe)\log_2(\sigma \sqrt{2\pi e})σσ\sigma 如果我们对随机变量进行归一化,使其具有单位方差,则其微分熵下降。对我来说,这是违反直觉的,因为与熵的减少相比,归一化常数的Kolmogorov复杂度应该很小。可以简单地设计一种编码器解码器,该编码器解码器将归一化常数除以/乘以恢复由该随机变量生成的任何数据集。 我的理解可能不正确。你能指出我的缺点吗?

5
在回归分析中,交叉熵成本是否有意义?
在回归(相对于分类)的上下文中,交叉熵成本是否有意义?如果是这样,您可以通过TensorFlow给出一个玩具示例吗?如果没有,为什么不呢? 我正在阅读迈克尔·尼尔森(Michael Nielsen)的《神经网络和深度学习》中的交叉熵,它似乎可以自然地用于回归和分类,但是我不知道您如何在TensorFlow中有效地应用它。损失函数采用logit(我也不是很了解),它们在此处归类

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
为什么我得到的信息熵大于1?
我实现了以下函数来计算熵: from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum 结果: >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using a built-in package # give the same answer >>> entropy([1/7.0, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.