Questions tagged «information-theory»

数学/统计的一个分支,用于确定通道的信息承载能力,无论是用于通信的通道还是以抽象方式定义的通道。熵是信息理论家可以量化预测随机变量所涉及的不确定性的一种方法。

3
“交叉熵”的定义和起源
在没有引用来源的情况下,维基百科将离散分布PPP和的交叉熵定义问问Q为 H×(P; 问)= - ΣXp (x )日志q(x )。H×(P;问)=-∑Xp(X)日志⁡q(X)。\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} 谁是第一个开始使用此数量的人?谁发明了这个名词?我看了看: JE Shore和RW Johnson,“最大熵原理和最小交叉熵原理的公理推导”,信息理论,IEEE Transactions 26号 1,第26-37页,1980年1月。 我跟随他们的介绍 A. Wehrl,“熵的一般性质”,《现代物理学》评论,第1卷。50,不。》,第2卷,第221-260页,1978年4月。 谁从不使用该术语。 也没有 S. Kullback和R. Leibler,“关于信息和充分性”,《数学统计年鉴》,第1卷。22号 1卷,第79-86页,1951年。 我看着 TM Cover和JA Thomas,信息论要素(电信和信号处理中的Wiley系列)。Wiley-Interscience,2006年。 和 I. Good,“假设公式,尤其是多维列联表的最大熵”,《数学统计年鉴》,第1卷。34号 3,第911-934页,1963年。 但是这两篇论文都将交叉熵定义为KL散度的同义词。 原始纸 CE Shannon,“通信的数学理论”,贝尔系统技术杂志,第1卷。1948年2月27日。 没有提到交叉熵(并且对“相对熵”有一个奇怪的定义:“一个源的熵与其在限制于相同符号的情况下可能具有的最大值之比”)。 最后,我看了Tribus的一些旧书和论文。 有谁知道上面的等式叫什么,谁发明了它或对其进行了很好的介绍?

4
典型设定概念
我认为典型集合的概念非常直观:如果序列出现的可能性很高,则长度为的序列将属于典型集合A (n ) ϵ。因此,任何可能的序列都将在A (n ) ϵ中。(我避免了与熵有关的形式定义,因为我试图从质上理解它。)nnnA(n)ϵAϵ(n)A_\epsilon ^{(n)}A(n)ϵAϵ(n)A_\epsilon ^{(n)} 但是,我读到,一般而言,最可能的序列不属于典型集合。这让我很困惑。 有典型集合的直观定义吗?还是仅仅是一个与常识无关的数学工具?

1
从质上讲什么是交叉熵
这个问题以公式的形式给出了交叉熵的定量定义。 维基百科说,我正在寻找一个更概念上的定义: 在信息论中,如果使用编码方案是基于给定的概率分布q而不是“真实”分布p,则两个概率分布之间的交叉熵衡量从一组可能性中识别事件所需的平均位数。。 我强调了让我难以理解的部分。我想要一个不错的定义,不需要对熵有单独的(预先存在的)理解。

1
如何解释微分熵?
我最近看了这个文章的离散概率分布的熵。它描述了一种关于熵的好方法,在给定所用单词的概率分布的,当编码最佳时,对消息进行编码所需的期望位数(至少在熵定义中使用时)。日志2log2\log_2 但是,当扩展到像这样的连续情况时,我认为这种思维方式会,因为对于任何连续概率分布,(如果那是错误的,请纠正我),所以我想知道是否有一种很好的方式来思考连续熵的含义,就像离散情况一样。p (X )∑Xp (x )= ∞∑xp(x)=∞\sum_x p(x) = \inftyp (x )p(x)p(x)

3
证明使用高斯混合的合理依据
高斯混合模型(GMM)之所以吸引人,是因为它们在分析和实践中都易于使用,并且能够建模某些奇特的分布而不会过于复杂。我们应该保留一些分析属性,这些属性通常并不明确。尤其是: SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? 假设我们有一个连续分布PPP,我们发现了一个NNN分量高斯混合P^P^\hat{P},它的总变化量接近PPP:δ(P,P^)&lt;εδ(P,P^)&lt;ε\delta(P,\hat{P})<\varepsilon。我们可以用\ epsilon约束D(P || \ hat {P})吗?D(P||P^)D(P||P^)D(P||\hat{P})ϵϵ\epsilon 如果我们想通过独立的加性噪声Y \ sim P_Y(真实的,连续的)观察X \ sim P_X,并且我们有GMM \ hat {X} \ sim Q_X,\ hat {Y} \ sim Q_N其中\ delta(P ,Q)&lt;\ epsilon,则此值较小:\ left | \ mathsf {mmse}(X | X + Y)-\ mathsf {mmse}(\ hat {X} | \ hat {X} + …



2
重要性抽样产生的蒙特卡洛估计结果
在过去的一年中,我一直在非常接近地进行重要性抽样工作,并且有一些开放性问题,希望能对此有所帮助。 我在重要性采样方案上的实践经验是,它们有时可以产生出色的低方差和低偏差估计。但是,更常见的是,它们倾向于产生高误差估计值,该估计值具有较低的样本方差,但具有很高的偏差。 我想知道是否有人可以确切解释影响重要性抽样估计有效性的哪些因素?我尤其想知道: 1)当偏倚分布具有与原始分布相同的支持时,重要性抽样估计是否可以保证收敛到正确的结果?如果是这样,为什么在实践中似乎要花这么长时间? 2)通过重要性抽样得出的估计误差与偏差分布的“质量”(即,与零方差分布有多少匹配)之间是否存在可量化的关系? 3)部分基于1)和2)-有没有一种方法可以量化您必须了解的分布“多少”,然后再使用重要性抽样设计比简单的蒙特卡洛方法更好。


1
使用互信息估计连续变量和分类变量之间的相关性
至于标题,其思想是在MI前后使用互信息来估计连续变量和分类变量之间的“相关性”(定义为“当我知道B时我对A有多少了解”)。稍后,我会告诉您我的想法,但在我建议您阅读CrossValidated上的其他问题/答案之前,因为它包含一些有用的信息。 现在,由于我们无法对分类变量进行积分,因此需要离散化连续变量。在R(这是我进行大多数分析时所用的语言)中,可以很容易地做到这一点。我更喜欢使用该cut函数,因为它也为值取别名,但也可以使用其他选项。问题的关键是,人们必须决定先验可以做任何离散化之前“箱”(离散状态)的数量。 但是,主要问题是另一个问题:MI的范围是0到∞,因为它是未标准化的度量,单位是位。这使得很难将其用作相关系数。这可以通过全局相关系数部分地解决,在这里和之后的GCC是MI的标准版本。GCC定义如下: 参考:该公式摘自AndreiaDionísio,Rui Menezes和Diana Mendes,2010年,《互助信息作为分析股市全球化的非线性工具》。 GCC的范围是0到1,因此可以轻松地用来估计两个变量之间的相关性。问题解决了吧?好吧,有点。因为所有这些过程在很大程度上取决于我们决定在离散化过程中使用的“箱”的数量。这是我的实验结果: 在y轴上有GCC,在x轴上有我决定用于离散化的“ bin”数。这两行指的是我对两个不同(尽管非常相似)的数据集进行的两个不同的分析。 在我看来,一般而言,尤其是GCC的MI用法仍存在争议。但是,这种混乱可能是我一方错误的结果。无论哪种情况,我都很想听听您对此事的看法(此外,您是否可以使用其他方法来估计分类变量和连续变量之间的相关性?)。

1
微分熵
高斯RV的微分熵是。这取决于标准偏差σ。log2(σ2πe−−−√)log2⁡(σ2πe)\log_2(\sigma \sqrt{2\pi e})σσ\sigma 如果我们对随机变量进行归一化,使其具有单位方差,则其微分熵下降。对我来说,这是违反直觉的,因为与熵的减少相比,归一化常数的Kolmogorov复杂度应该很小。可以简单地设计一种编码器解码器,该编码器解码器将归一化常数除以/乘以恢复由该随机变量生成的任何数据集。 我的理解可能不正确。你能指出我的缺点吗?

2
不同的AIC定义
在Wikipedia中,Akaike的信息标准(AIC)的定义为,其中是参数的数量,是模型的对数似然性。AIC=2k−2logLAIC=2k−2log⁡L AIC = 2k -2 \log L kkklogLlog⁡L\log L 但是,我们的计量经济学家在一家备受尊敬的大学中指出,。这里是ARMA模型中误差的估计方差,是时间序列数据集中观测值的数量。AIC=log(σ^2)+2⋅kTAIC=log⁡(σ^2)+2⋅kT AIC = \log (\hat{\sigma}^2) + \frac{2 \cdot k}{T} σ^2σ^2 \hat{\sigma}^2 TT T 后一个定义是否等同于第一个定义,但仅针对ARMA模型进行了调整?还是两个定义之间存在某种冲突?

1
Fisher信息的决定因素
(我在math.se上发布了类似的问题。) 在信息几何中,Fisher信息矩阵的行列式是统计流形上的自然体积形式,因此它具有很好的几何解释。例如,它出现在Jeffreys先验的定义中的事实与其在重新参数化下的不变性相关,这是(imho)几何性质。 但是统计中的决定因素是什么?它衡量任何有意义的东西吗?(例如,我想说的是如果它为零,那么参数不是独立的。这会进一步吗?) 此外,至少在某些“简单”情况下,是否有任何封闭的形式可以计算出来?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: &gt; require(nlme) &gt; options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) &gt; m2&lt;-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

5
3个概率分布的Jensen-Shannon发散计算:这样可以吗?
我想根据以下3个分布来计算他的詹森-香农散度。下面的计算是否正确?(我遵循了维基百科的JSD公式): P1 a:1/2 b:1/2 c:0 P2 a:0 b:1/10 c:9/10 P3 a:1/3 b:1/3 c:1/3 All distributions have equal weights, ie 1/3. JSD(P1, P2, P3) = H[(1/6, 1/6, 0) + (0, 1/30, 9/30) + (1/9,1/9,1/9)] - [1/3*H[(1/2,1/2,0)] + 1/3*H[(0,1/10,9/10)] + 1/3*H[(1/3,1/3,1/3)]] JSD(P1, P2, P3) = H[(1/6, 1/5, 9/30)] - [0 + 1/3*0.693 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.