Questions tagged «information-theory»

数学/统计的一个分支,用于确定通道的信息承载能力,无论是用于通信的通道还是以抽象方式定义的通道。熵是信息理论家可以量化预测随机变量所涉及的不确定性的一种方法。

3
模型的Akaike信息标准(AIC)得分是什么意思?
我在这里看到了一些关于外行的含义的问题,但是对于我来说,这些对于我来说太过外行了。我试图从数学上理解AIC分数的含义。 但是同时,我也不想得到一个严格的证据,使我看不到更重要的观点。例如,如果这是微积分,那么我将对无穷小感到满意,而如果这是概率论,那么如果没有度量理论,我将感到满意。 我的尝试 通过在此处阅读以及我自己的一些表示法糖AICm,DAICm,D\text{AIC}_{m,D}是数据集D上模型的AIC准则,如下所示: AIC m ,D = 2 k m − 2 ln (L m ,D) 其中k m为模型m的参数个数,L m ,D是模型m在数据集D上的最大似然函数值。mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD 这是我对上述含义的理解: m=arg maxθPr(D|θ)m=arg maxθPr(D|θ) m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta) 这条路: kmkmk_m是的参数数。mmm Lm,D=Pr(D|m)=L(m|D)Lm,D=Pr(D|m)=L(m|D)L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)。 现在让我们重写AIC: AICm,D===2km−2ln(Lm,D)2km−2ln(Pr(D|m))2km−2loge(Pr(D|m))AICm,D=2km−2ln⁡(Lm,D)=2km−2ln⁡(Pr(D|m))=2km−2loge⁡(Pr(D|m))\begin{split} \text{AIC}_{m,D} =& 2k_m - …


5
信息获取,相互信息及相关措施
Andrew More 将信息获取定义为: IG(Y|X)=H(Y)−H(Y|X)IG(Y|X)=H(Y)−H(Y|X)IG(Y|X) = H(Y) - H(Y|X) 其中H(Y|X)H(ÿ|X)H(Y|X)是条件熵。但是,维基百科称上述数量互为信息。 另一方面,维基百科将信息增益定义为两个随机变量之间的Kullback-Leibler散度(又名信息散度或相对熵): dķ大号(P| | Q)=高(P,Q )− H(P)dķ大号(P||问)=H(P,问)-H(P)D_{KL}(P||Q) = H(P,Q) - H(P) 其中被定义为交叉熵。H(P,Q )H(P,问)H(P,Q) 这两个定义似乎彼此不一致。 我还看到其他作者在谈论另外两个相关概念,即微分熵和相对信息增益。 这些数量之间的确切定义或关系是什么?有没有一本涵盖所有内容的好教科书? 信息获取 相互信息 交叉熵 条件熵 微分熵 相对信息获取

4
两个协方差矩阵之间的相似性或距离的度量
两个对称协方差矩阵(都具有相同的维数)之间是否有相似度或距离的度量? 我在这里考虑的是两个概率分布的KL散度的类比或矢量之间的欧几里得距离,除了适用于矩阵。我想会有很多相似性度量。 理想情况下,我还要检验两个协方差矩阵相同的零假设。

3
没有信息论的Kullback-Leibler散度
经过对Cross Validated的大量拖延之后,我仍然觉得自己离信息理论领域之外的KL分歧越来越近了。对于具有数学背景的人来说,发现它更容易理解信息理论的解释是很奇怪的。 从信息理论背景概述我的理解:如果我们有一个随机变量且结果数量有限,则存在一种最佳编码,该编码可使我们与其他人以平均最短消息进行交流(我发现这最容易图片按位表示)。如果使用最佳编码,则传达结果所需的消息的期望长度由。如果您使用次优编码,则KL散度平均会告诉我们我们的消息会持续多长时间。− ∑αpα日志2(pα)−∑αpαlog2⁡(pα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) 我喜欢这种解释,因为它很直观地处理了KL散度的不对称性。如果我们有两个不同的系统,即两个加载不同的硬币,它们将具有不同的最佳编码。我并没有本能地感觉到,将第二个系统的编码用于第一个系统与将第一个系统的编码用于第二个系统“同样糟糕”。现在,不用经历如何说服自己的思考过程,我对当对使用的编码时,会给您这个“额外的消息长度” 。∑αpα(日志2qα− 日志2pα)∑αpα(log2⁡qα−log2⁡pα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})qqqppp 但是,大多数KL散度的定义(包括Wikipedia)随后做出了这样的陈述(如果将离散点保留下来,以便可以将其与信息理论的解释相比较,后者在离散项下效果更好,因为位是离散的)。分布,然后KL提供一些“它们有多不同”的度量。我还没有看到关于这两个概念如何关联的单一解释。我似乎记得在他的推理书中,戴夫·麦凯(Dave Mackay)提出了关于数据压缩和推理基本上是同一件事的观点,而且我怀疑我的问题确实与此有关。 不管是不是,我想到的问题都是关于推理的问题。(保持离散),如果我们有两个放射性样品,并且我们知道其中一个是具有已知放射性的某种材料(这是可疑的物理学,但我们假装宇宙像那样工作),因此我们知道“真实”分布我们应该测量的放射性点击数应该是已知的泊松分布,是否建立两个样本的经验分布并将它们的KL散度与已知分布进行比较是否公平,并说较低的可能性更大?λλ\lambda 避开可疑物理学,如果我知道两个样本是从同一分布中提取的,但我知道它们不是随机选择的,可以将其KL散度与已知的全局分布进行比较,使我感觉到样本的“偏差程度” ,相对于另一个而言? 最后,如果对以上问题的回答是肯定的,那为什么呢?是否可以仅从统计角度理解这些事情,而无需与信息理论建立任何(可能是脆弱的)联系?

3
最大熵分布的统计解释
我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是,相对于信息论,我还不能对最大熵进行统计解释。换句话说,最大化熵意味着分布的统计特性是什么? 有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息,而只吸引概率概念吗? 作为这种解释的一个例子(不一定是正确的):“对于RV域上任意长度L的间隔(为简单起见,假设其1-d为连续的),可以最小化此间隔中包含的最大概率通过最大熵分布。” 因此,您会看到没有谈论“信息性”或其他更具哲学性的想法,而只是谈论概率问题。

2
GINI得分与对数似然比之间的关系是什么
我正在研究分类树和回归树,拆分位置的一种方法是GINI得分。 现在,当两个分布之间相同数据的似然比的对数为零时,我习惯于确定最佳分割位置,这意味着隶属的可能性同等可能。 我的直觉说,必须存在某种联系,GINI必须在信息数学理论(Shannon)中有良好的基础,但是我对GINI的理解不够深刻,无法自己得出这种关系。 问题: GINI杂质评分作为分裂度量的“第一原理”推导是什么? GINI分数与似然比或其他信息理论基础的对数有何关系(香农熵,pdf和交叉熵是其中的一部分)? 参考文献: 加权基尼标准是如何定义的? 分类和回归树背后的数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (已添加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity 香农的熵描述为: H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) 将其扩展到多元情况下,我们得到: H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件熵的定义如下: H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(X|Y)=Σyp(x,y)logb⁡p(x)p(x,y)or,H(X|Y)=H(X,Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
可以直观地解释用于检测非线性相关性的MIC算法吗?
最近,我读了两篇文章。第一个是相关性的历史,第二个是称为最大信息系数(MIC)的新方法。我需要您的帮助以了解MIC方法来估算变量之间的非线性相关性。 此外,可以在作者的网站上找到有关在R中使用它的说明(在下载下): 我希望这将是一个讨论和理解此方法的好平台。我有兴趣讨论这种方法背后的一种直觉以及如何扩展该方法,如作者所说。 “ ... ...我们需要将MIC(X,Y)扩展到MIC(X,Y | Z)。我们将想知道需要多少数据才能获得MIC的稳定估计值,离群值有多容易受到影响,这三个-或更高维度的关系将丢失,甚至更多。MIC是向前迈出的重要一步,但还有更多步骤需要采取。 ”

2
什么是经验熵?
在共同典型集合的定义中(在“信息论的元素”,第7.6章,第195页)中,我们使用 −1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)}作为序列的经验熵,其中。我以前从未遇到过这种术语。根据书的索引,没有在任何地方明确定义它。nnnp(xn)=∏ni=1p(xi)p(xn)=∏i=1np(xi)p(x^n) = \prod_{i=1}^{n}{p(x_i)} 我的问题基本上是:为什么经验熵不是其中是经验分布?−∑xp^(x)log(p^(x))−∑xp^(x)log⁡(p^(x))-\sum_{x}{\hat p (x) \log(\hat p(x))}p^(x)p^(x)\hat p(x) 这两个公式之间最有趣的区别和相似之处是什么?(就他们共享/不共享的属性而言)。

2
有界互信息在点向互信息上有界
假设我有两个集合和以及在这些集合的联合概率分布。令和分别表示和的边际分布。XXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY 和之间的相互信息定义为: XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) 即它是点向互信息pmi的平均值。(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) 假设我知道pmi上限和下限:即,我知道对于所有,以下成立: -k \ leq \ log \ left(\ frac {p(x,y)} {p( x)p(y)} \右)\ leq k(x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k 这意味着I(X; Y)的上限I(X;Y)I(X;Y)I(X; Y)。当然,这意味着I(X;Y)≤kI(X;Y)≤kI(X; Y) \leq k,但是如果可能的话,我希望有一个更严格的界限。这在我看来是合理的,因为p定义了概率分布,并且pmi (x,y)(x,y)(x,y)不能针对xxx和y的每个值取其最大值(甚至是非负数)yyy。

3
Kullback-Leibler散度分析
让我们考虑以下两个概率分布 P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 我已经计算出等于 Kullback-Leibler散度,我想知道这个数字通常向我显示什么?通常,Kullback-Leibler散度告诉我一个概率分布与另一个概率分布有多远,对吗?它与熵术语相似,但是就数字而言,这意味着什么?如果我得到的结果是0.49,我可以说大约一个分布与另一个分布相差50%吗?0.4928202580.4928202580.492820258

1
为什么KL分歧是非负的?
KL散度为何非负? 从信息论的角度,我有这样一个直观的理解: 假设有两个合奏和,它们由用标记的同一组元素组成。和分别是合奏和上不同的概率分布。B x p (x )q (x )A BAAABBBxxxp(x)p(x)p(x)q(x)q(x)q(x)AAABBB 从信息论的角度来看,log2(P(x))log2⁡(P(x))\log_{2}(P(x))是记录集合A的元素所需的最少比特数。使得期望 Σ X ∈ ë Ñ 小号Ë 米b 升ë - p (X )LN (p (X )) 可以被解释为至少多少位,我们需要用于记录中的一个元素甲平均。xxxAAA∑x∈ensemble−p(x)ln(p(x))∑x∈ensemble−p(x)ln⁡(p(x))\sum_{x \in ensemble}-p(x)\ln(p(x))AAA 由于此公式对我们平均所需的位设置了下限,因此对于带来不同概率分布q (x )的不同集合,它为每个元素x给出的界肯定不会是由p (x )给出,这意味着采用期望值, 该平均长度肯定会大于前一个,这导致∑ xBBBq(x)q(x)q(x)xxxp(x)p(x)p(x) ∑x∈ensemble−p(x)ln(q(x))∑x∈ensemble−p(x)ln⁡(q(x))\sum_{x\in ensemble}-p(x)\ln(q(x)) 因为p(x)和q(x)不同,所以 我在这里不做≥。∑x∈ensemblep(x)ln(p(x))ln(q(x))>0∑x∈ensemblep(x)ln⁡(p(x))ln⁡(q(x))>0\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0≥≥\gep(x)p(x)p(x)q(x)q(x)q(x) 这是我的直觉理解,是否有一种纯粹的数学方法证明KL散度为非负数?该问题可以表述为: 给出和q (X )都为正实上线,和∫ + ∞ …

2
在R中“手工”计算AIC
我试过在R中计算线性回归的AIC,但未使用AIC函数,如下所示: lm_mtcars <- lm(mpg ~ drat, mtcars) nrow(mtcars)*(log((sum(lm_mtcars$residuals^2)/nrow(mtcars))))+(length(lm_mtcars$coefficients)*2) [1] 97.98786 但是,AIC给出了不同的值: AIC(lm_mtcars) [1] 190.7999 有人可以告诉我我在做什么错吗?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.