Questions tagged «entropy»

设计用来测量随机变量的随机性的数学量。


9
测量二维二进制矩阵的熵/信息/模式
我想测量二维二进制矩阵的熵/信息密度/图案相似度。让我显示一些图片以供说明: 此显示应具有较高的熵: 一种) 这应该具有中等熵: B) 最后,这些图片应该都具有接近零的熵: C) D) E) 是否有一些捕获熵的索引,分别。这些显示的“样式”? 当然,每种算法(例如,压缩算法;或ttnphns提出的旋转算法)都对显示器的其他功能敏感。我正在寻找一种尝试捕获以下属性的算法: 旋转和轴向对称 聚类量 重复次数 也许更复杂,算法可能对心理的“ 格式塔原理 ”的属性敏感,尤其是: 接近定律: 对称定律:即使距离很远,对称图像也可以集体感知: 具有这些属性的显示应被赋予“低熵值”;具有相当随机/非结构化点的显示应该被分配一个“高熵值”。 我知道,很可能没有一种算法可以捕获所有这些功能。因此,也非常欢迎提出仅针对某些功能甚至仅针对单个功能的算法的建议。 特别是,我正在寻找具体的,现有的算法或特定的,可实现的想法(我将根据这些标准来授予赏金)。

3
模型的Akaike信息标准(AIC)得分是什么意思?
我在这里看到了一些关于外行的含义的问题,但是对于我来说,这些对于我来说太过外行了。我试图从数学上理解AIC分数的含义。 但是同时,我也不想得到一个严格的证据,使我看不到更重要的观点。例如,如果这是微积分,那么我将对无穷小感到满意,而如果这是概率论,那么如果没有度量理论,我将感到满意。 我的尝试 通过在此处阅读以及我自己的一些表示法糖AICm,DAICm,D\text{AIC}_{m,D}是数据集D上模型的AIC准则,如下所示: AIC m ,D = 2 k m − 2 ln (L m ,D) 其中k m为模型m的参数个数,L m ,D是模型m在数据集D上的最大似然函数值。mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD 这是我对上述含义的理解: m=arg maxθPr(D|θ)m=arg maxθPr(D|θ) m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta) 这条路: kmkmk_m是的参数数。mmm Lm,D=Pr(D|m)=L(m|D)Lm,D=Pr(D|m)=L(m|D)L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)。 现在让我们重写AIC: AICm,D===2km−2ln(Lm,D)2km−2ln(Pr(D|m))2km−2loge(Pr(D|m))AICm,D=2km−2ln⁡(Lm,D)=2km−2ln⁡(Pr(D|m))=2km−2loge⁡(Pr(D|m))\begin{split} \text{AIC}_{m,D} =& 2k_m - …

2
熵告诉我们什么?
我正在阅读有关熵的信息,并且在概念上很难理解连续情况下的含义。Wiki页面指出以下内容: 事件的概率分布与每个事件的信息量一起形成一个随机变量,其期望值为该分布生成的平均信息量或熵。 因此,如果我计算出与连续概率分布相关的熵,那到底能告诉我什么?他们给出了一个有关抛硬币的例子,所以是离散情况,但是如果有一种直观的方式来解释一个连续的例子,那就太好了! 如果有帮助,则连续随机变量的熵定义如下:XXX H(X)=−∫P(x)logbP(x)dxH(X)=−∫P(x)logb⁡P(x)dxH(X)=-\int P(x)\log_b P(x)dx where P(x)P(x)P(x) is a probability distribution function. To try and make this more concrete, consider the case of X∼Gamma(α,β)X∼Gamma(α,β)X\sim \text{Gamma}(\alpha,\beta), then, according to Wikipedia, the entropy is H(X)=E[−ln(P(X))]=E[−αln(β)+ln(Γ(α))+ln(Γ(α))−(α−1)ln(X)+βX]=α−ln(β)+ln(Γ(α))+(1−α)(ddαln(Γ(α)))H(X)=E[−ln⁡(P(X))]=E[−αln⁡(β)+ln⁡(Γ(α))+ln⁡(Γ(α))−(α−1)ln⁡(X)+βX]=α−ln⁡(β)+ln⁡(Γ(α))+(1−α)(ddαln⁡(Γ(α)))\begin{align} H(X)&=\mathbb{E}[-\ln(P(X))]\\ &=\mathbb{E}[-\alpha\ln(\beta)+\ln(\Gamma(\alpha))+\ln(\Gamma(\alpha))-(\alpha-1)\ln(X)+\beta X]\\ &=\alpha-\ln(\beta)+\ln(\Gamma(\alpha))+(1-\alpha)\left(\frac{d}{d\alpha}\ln(\Gamma(\alpha))\right) \end{align} And so now we have calculated the entropy for a …
32 entropy 

6
为什么当概率分布均匀时熵最大?
我知道熵是过程/变量随机性的量度,可以定义如下。对于集合的随机变量:。在MacKay撰写的《熵和信息论》一书中,他在第二章中提供了这一陈述甲ħ (X )= Σ X 我 ∈ 甲 - p (X 我)日志(p (X 我))X∈X∈X \inAAAH(X)=∑xi∈A-p(xi)log(p (xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) 如果p是均匀的,则熵最大。 直观地说,我能够理解,如果像在集合中的所有数据点都以相同的概率拾取(为组的基数),则随机性或熵的增加。但是,如果我们知道集合中的某些点比其他点更有可能发生(例如,在正态分布的情况下,数据点的最大集中度在均值附近,并且标准偏差区域较小,则随机性或熵应减少。1 /米m A AAAA1/m1/m1/mmmm一种一种A一种一种A 但是,对此有任何数学证明吗?像的方程式一样,我针对对其进行微分,并将其设置为0或类似的值。p (x )H(X)H(X)H(X)p(x)p(x)p(x) 附带说明一下,信息理论中出现的熵和化学(热力学)中的熵计算之间是否有联系?

3
基于熵的沙里兹时间悖论贝叶斯后向箭头反驳?
在本文中,才华横溢的研究人员Cosma Shalizi认为,要完全接受一种主观的贝叶斯观点,还必须接受一种非物质的结果,即时间的箭头(由熵流给出)实际上应该向后退。这主要是为了反对ET Jaynes提出和推广的最大熵/完全主观贝叶斯观点。 随着在LessWrong,很多参与方都非常有兴趣在贝叶斯概率理论,并在主观贝叶斯方法作为正式决定理论的基础和垫脚石走向强大的AI 埃利泽·尤多科斯基是一种常见的贡献者那里,我最近在读这篇文章时,我碰到了此评论(在原始帖子的页面上不久之后,还有其他几条很好的评论)。 谁能评论尤德科夫斯基反驳沙里兹的有效性。简而言之,尤德科夫斯基的论点是,推理者更新其信念的物理机制需要工作,因此具有热力学成本,沙利兹正在地毯下扫荡。Yudkowsky在另一条评论中对此辩护说: “如果您从系统外部看一个逻辑上无所不知的完美观察者的观点,那么“熵”的概念就几乎没有意义,“概率”也是如此-您不必使用统计热力学来建模任何东西,您只需使用确定性精确波动方程。” 任何概率论者或统计学家都可以对此发表评论吗?我不太在乎权威人士关于沙利兹或尤德科夫斯基地位的争论,但我真的很想看到尤德科夫斯基的三点观点对沙利兹的文章提出批评的方式的总结。 为了符合FAQ准则并使之成为一个具体可回答的问题,请注意,我要提出一个具体的,逐项的答复,该答复应采用Yudkowsky的三步法论证,并指出在Shalizi文章中这三步法反驳了假设和/或推导,或者,另一方面,指出了在沙利兹的论文中论及尤德科夫斯基论点的地方。 我经常听到吹捧Shalizi的文章是铁定论据,证明无法捍卫成熟的主观贝叶斯主义...但是在阅读了Shalizi文章几次之后,对我来说这似乎是一个玩具论证,永远无法适用观察者与所观察的事物(即所有实际物理学)进行交互。但是Shalizi是一位出色的研究人员,因此我欢迎第二意见,因为我很可能不理解这场辩论的重要内容。

3
没有信息论的Kullback-Leibler散度
经过对Cross Validated的大量拖延之后,我仍然觉得自己离信息理论领域之外的KL分歧越来越近了。对于具有数学背景的人来说,发现它更容易理解信息理论的解释是很奇怪的。 从信息理论背景概述我的理解:如果我们有一个随机变量且结果数量有限,则存在一种最佳编码,该编码可使我们与其他人以平均最短消息进行交流(我发现这最容易图片按位表示)。如果使用最佳编码,则传达结果所需的消息的期望长度由。如果您使用次优编码,则KL散度平均会告诉我们我们的消息会持续多长时间。− ∑αpα日志2(pα)−∑αpαlog2⁡(pα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) 我喜欢这种解释,因为它很直观地处理了KL散度的不对称性。如果我们有两个不同的系统,即两个加载不同的硬币,它们将具有不同的最佳编码。我并没有本能地感觉到,将第二个系统的编码用于第一个系统与将第一个系统的编码用于第二个系统“同样糟糕”。现在,不用经历如何说服自己的思考过程,我对当对使用的编码时,会给您这个“额外的消息长度” 。∑αpα(日志2qα− 日志2pα)∑αpα(log2⁡qα−log2⁡pα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})qqqppp 但是,大多数KL散度的定义(包括Wikipedia)随后做出了这样的陈述(如果将离散点保留下来,以便可以将其与信息理论的解释相比较,后者在离散项下效果更好,因为位是离散的)。分布,然后KL提供一些“它们有多不同”的度量。我还没有看到关于这两个概念如何关联的单一解释。我似乎记得在他的推理书中,戴夫·麦凯(Dave Mackay)提出了关于数据压缩和推理基本上是同一件事的观点,而且我怀疑我的问题确实与此有关。 不管是不是,我想到的问题都是关于推理的问题。(保持离散),如果我们有两个放射性样品,并且我们知道其中一个是具有已知放射性的某种材料(这是可疑的物理学,但我们假装宇宙像那样工作),因此我们知道“真实”分布我们应该测量的放射性点击数应该是已知的泊松分布,是否建立两个样本的经验分布并将它们的KL散度与已知分布进行比较是否公平,并说较低的可能性更大?λλ\lambda 避开可疑物理学,如果我知道两个样本是从同一分布中提取的,但我知道它们不是随机选择的,可以将其KL散度与已知的全局分布进行比较,使我感觉到样本的“偏差程度” ,相对于另一个而言? 最后,如果对以上问题的回答是肯定的,那为什么呢?是否可以仅从统计角度理解这些事情,而无需与信息理论建立任何(可能是脆弱的)联系?

3
最大熵分布的统计解释
我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是,相对于信息论,我还不能对最大熵进行统计解释。换句话说,最大化熵意味着分布的统计特性是什么? 有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息,而只吸引概率概念吗? 作为这种解释的一个例子(不一定是正确的):“对于RV域上任意长度L的间隔(为简单起见,假设其1-d为连续的),可以最小化此间隔中包含的最大概率通过最大熵分布。” 因此,您会看到没有谈论“信息性”或其他更具哲学性的想法,而只是谈论概率问题。

3
MaxEnt,ML,Bayes和其他统计推断方法之间的比较
我绝不是统计学家(我上过数学统计学课程,但仅此而已),最近,在学习信息论和统计力学时,我遇到了一个叫做“不确定性度量” /“熵”的东西。我读过Khinchin推导它的方法来衡量不确定性,这对我来说很有意义。有意义的另一件事是,当您知道样本上一个或多个函数的算术平均值时(假设您接受作为当然的不确定性度量),Jaynes对MaxEnt的描述将获得统计量。 − ∑ p一世lnp一世-∑p一世ln⁡p一世-\sum p_i\ln p_i 因此,我在网上搜索了与其他统计推断方法之间的关系,上帝让我感到困惑。例如该论文表明,假设我得到它的权利,你只得到下一个问题的适当再形成一个ML估计; MacKey在他的书中说,MaxEnt可以给您带来怪异的东西,即使在贝叶斯推断中作初步估计,也不应使用它。等等。我在寻找良好的比较时遇到了麻烦。 我的问题是,作为统计推断方法,可以将MaxEnt的优缺点作为一个解释和/或一个很好的参考,并与其他方法进行定量比较(例如,应用于玩具模型时)?

4
图像的熵
信息/物理学理论上计算图像熵的最正确方法是什么?我现在不在乎计算效率-理论上我希望它尽可能正确。 让我们从灰度图像开始。一种直观的方法是将图像视为像素包,然后计算 ,其中是灰度级的数量,是与灰度级相关的概率。K p k kH= - Σķpķ升Ò 克2(pķ)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) ķKKpķpkp_kķkk 这个定义有两个问题: 它适用于一个频段(即灰度级),但是应该如何以一种统计正确的方式将其扩展到多个频段?例如,对于2个频段,一个人应该基于基于并因此基于PMF 吗?如果一个具有多个( >> 2)波段,则,这似乎是错误的。P (X 1 = X 1,X 2 = X 2)乙P (X 1 = X 1,。。。,X 乙 = X 乙)〜1 / Ñ 乙 → ħ 中号甲X(X1个,X2)(X1,X2)(X_1,X_2)P(X1个= x1个,X2= x2)P(X1=x1,X2=x2)P(X_1=x_1,X_2=x_2)乙BBP(X1个= x1个,。。。,X乙= x乙)〜1 / …

2
什么是经验熵?
在共同典型集合的定义中(在“信息论的元素”,第7.6章,第195页)中,我们使用 −1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)}作为序列的经验熵,其中。我以前从未遇到过这种术语。根据书的索引,没有在任何地方明确定义它。nnnp(xn)=∏ni=1p(xi)p(xn)=∏i=1np(xi)p(x^n) = \prod_{i=1}^{n}{p(x_i)} 我的问题基本上是:为什么经验熵不是其中是经验分布?−∑xp^(x)log(p^(x))−∑xp^(x)log⁡(p^(x))-\sum_{x}{\hat p (x) \log(\hat p(x))}p^(x)p^(x)\hat p(x) 这两个公式之间最有趣的区别和相似之处是什么?(就他们共享/不共享的属性而言)。

6
很好地介绍了各种熵
我正在寻找一本书或在线资源,以解释不同种类的熵,例如样本熵和香农熵以及它们的优缺点。有人可以指出我正确的方向吗?

2
有界互信息在点向互信息上有界
假设我有两个集合和以及在这些集合的联合概率分布。令和分别表示和的边际分布。XXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY 和之间的相互信息定义为: XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) 即它是点向互信息pmi的平均值。(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) 假设我知道pmi上限和下限:即,我知道对于所有,以下成立: -k \ leq \ log \ left(\ frac {p(x,y)} {p( x)p(y)} \右)\ leq k(x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k 这意味着I(X; Y)的上限I(X;Y)I(X;Y)I(X; Y)。当然,这意味着I(X;Y)≤kI(X;Y)≤kI(X; Y) \leq k,但是如果可能的话,我希望有一个更严格的界限。这在我看来是合理的,因为p定义了概率分布,并且pmi (x,y)(x,y)(x,y)不能针对xxx和y的每个值取其最大值(甚至是非负数)yyy。

1
Breiman的随机森林是否使用信息增益或Gini指数?
我想知道Breiman的随机森林(R randomForest包中的随机森林)是用作分割标准(属性选择标准)还是信息增益或基尼系数?我试图在http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm以及R中randomForest包的文档中找到它。但是我发现的唯一发现是,可以将Gini索引用于可变重要性计算。

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.