Questions tagged «maximum-entropy»

最大熵或最大熵是从信息论推导的统计原理。给定约束,最大化熵的分布(在某些约束下)被认为是“最大无信息的”。最大熵可以用于多种目的,例如优先级的选择,采样模型的选择或实验设计。

6
为什么当概率分布均匀时熵最大?
我知道熵是过程/变量随机性的量度,可以定义如下。对于集合的随机变量:。在MacKay撰写的《熵和信息论》一书中,他在第二章中提供了这一陈述甲ħ (X )= Σ X 我 ∈ 甲 - p (X 我)日志(p (X 我))X∈X∈X \inAAAH(X)=∑xi∈A-p(xi)log(p (xi))H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) 如果p是均匀的,则熵最大。 直观地说,我能够理解,如果像在集合中的所有数据点都以相同的概率拾取(为组的基数),则随机性或熵的增加。但是,如果我们知道集合中的某些点比其他点更有可能发生(例如,在正态分布的情况下,数据点的最大集中度在均值附近,并且标准偏差区域较小,则随机性或熵应减少。1 /米m A AAAA1/m1/m1/mmmm一种一种A一种一种A 但是,对此有任何数学证明吗?像的方程式一样,我针对对其进行微分,并将其设置为0或类似的值。p (x )H(X)H(X)H(X)p(x)p(x)p(x) 附带说明一下,信息理论中出现的熵和化学(热力学)中的熵计算之间是否有联系?

3
基于熵的沙里兹时间悖论贝叶斯后向箭头反驳?
在本文中,才华横溢的研究人员Cosma Shalizi认为,要完全接受一种主观的贝叶斯观点,还必须接受一种非物质的结果,即时间的箭头(由熵流给出)实际上应该向后退。这主要是为了反对ET Jaynes提出和推广的最大熵/完全主观贝叶斯观点。 随着在LessWrong,很多参与方都非常有兴趣在贝叶斯概率理论,并在主观贝叶斯方法作为正式决定理论的基础和垫脚石走向强大的AI 埃利泽·尤多科斯基是一种常见的贡献者那里,我最近在读这篇文章时,我碰到了此评论(在原始帖子的页面上不久之后,还有其他几条很好的评论)。 谁能评论尤德科夫斯基反驳沙里兹的有效性。简而言之,尤德科夫斯基的论点是,推理者更新其信念的物理机制需要工作,因此具有热力学成本,沙利兹正在地毯下扫荡。Yudkowsky在另一条评论中对此辩护说: “如果您从系统外部看一个逻辑上无所不知的完美观察者的观点,那么“熵”的概念就几乎没有意义,“概率”也是如此-您不必使用统计热力学来建模任何东西,您只需使用确定性精确波动方程。” 任何概率论者或统计学家都可以对此发表评论吗?我不太在乎权威人士关于沙利兹或尤德科夫斯基地位的争论,但我真的很想看到尤德科夫斯基的三点观点对沙利兹的文章提出批评的方式的总结。 为了符合FAQ准则并使之成为一个具体可回答的问题,请注意,我要提出一个具体的,逐项的答复,该答复应采用Yudkowsky的三步法论证,并指出在Shalizi文章中这三步法反驳了假设和/或推导,或者,另一方面,指出了在沙利兹的论文中论及尤德科夫斯基论点的地方。 我经常听到吹捧Shalizi的文章是铁定论据,证明无法捍卫成熟的主观贝叶斯主义...但是在阅读了Shalizi文章几次之后,对我来说这似乎是一个玩具论证,永远无法适用观察者与所观察的事物(即所有实际物理学)进行交互。但是Shalizi是一位出色的研究人员,因此我欢迎第二意见,因为我很可能不理解这场辩论的重要内容。

3
最大熵分布的统计解释
我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是,相对于信息论,我还不能对最大熵进行统计解释。换句话说,最大化熵意味着分布的统计特性是什么? 有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息,而只吸引概率概念吗? 作为这种解释的一个例子(不一定是正确的):“对于RV域上任意长度L的间隔(为简单起见,假设其1-d为连续的),可以最小化此间隔中包含的最大概率通过最大熵分布。” 因此,您会看到没有谈论“信息性”或其他更具哲学性的想法,而只是谈论概率问题。





1
千斤顶有当代用途吗?
问题是: 自举优于捆绑。但是,我想知道是否存在套刀技术是唯一或至少可行的方法来表征参数估计值的不确定性。此外,在实际情况下,相对于自举,斜切是如何产生偏见/不准确的,在开发更复杂的引导程序之前,斜切结果能否提供初步的见解? 某些情况: 朋友正在使用黑盒机器学习算法(MaxEnt)对“仅在场”或“仅在场”的地理数据进行分类。一般模型评估通常使用交叉验证和ROC曲线进行。但是,她正在使用模型的输出来导出模型输出的单个数字描述,并希望该数字周围有一个置信区间;折磨似乎是表征此值不确定性的一种合理方法。引导似乎没有意义,因为每个数据点都是地图上的唯一位置,无法通过替换进行重新采样。建模程序本身也许能够最终提供她所需要的东西。但是,我对一般情况是否有用/什么时候使您感兴趣。

3
仅给出边际计数的联合分布的最大似然估计
令是两个类别变量的联合分布,其中。说从该分布中抽取了样本,但仅给出了边际计数,即: X ,ÿ X ,ÿ ∈ { 1 ,... ,ķ } Ñ Ĵ = 1 ,... ,ķpx,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, 给定,的最大似然估计是?这是已知的吗?计算上可行吗?除了机器学习之外,还有其他合理的方法来解决这个问题吗?小号Ĵ,Ť Ĵpx,ypx,yp_{x,y}Sj,TjSj,TjS_j,T_j

2
如何确定时间序列的可预测性?
预报员面临的重要问题之一是给定的序列是否 可以预报? 我偶然发现了彼得·卡特(Peter Catt)题为“ 熵作为可预测性的先验指标 ”的文章,该文章使用近似熵(ApEn) 作为确定给定时间序列的相对度量是可预测的。 文章说, “较小的ApEn值表示一组数据后面将跟随相似数据的可能性较大(规则性)。相反,较大的ApEn值表示重复相似数据的可能性较小(规则性)。因此,较大的ApEn值会带来更多混乱,随机性和系统复杂性。” 然后是用于计算ApEn的数学公式。这是一个有趣的方法,因为它提供了一个可用于相对意义上评估可预测性的数值。我不知道“近似熵”的含义,我正在阅读有关它的更多内容。 有一个叫包pracma中R,可以让你计算近似熵。为了说明目的,我使用了3个不同的时间序列并计算了ApEn数。 系列1:著名的AirPassenger时间序列-具有高度确定性,我们应该能够轻松进行预测。 系列2:黑子时间序列-定义明确,但比系列1更难预测。 系列3:随机数无法预测此系列。 因此,如果我们计算ApEn,则系列1应该小于系列2,而系列3应该非常非常少。 以下是为所有三个系列计算ApEn的R代码段。 library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609 这不是我所期望的。随机序列的数目比定义明确的AirPassenger序列的数目要少。即使将随机数增加到100,我仍然得到以下值,该值小于定义明确的2 / Sunspot.yealry系列。 > series3 <- approx_entropy(rnorm(1:100)) > series3 …

1
对于已知的平均绝对偏差,哪种分布具有最大熵?
我正在阅读Hacker News上有关标准偏差而不是平均绝对偏差等其他指标的使用的讨论。那么,如果我们遵循最大熵的原理,如果仅知道分布的均值和平均绝对偏差,我们将使用哪种分布? 还是使用中位数和与中位数的平均绝对偏差更有意义? 我发现Grechuk,Molyboha和Zabarankin撰写了一篇论文《具有最大偏差量度的最大熵原理》,该文章似乎掌握了我所好奇的信息,但是花了我一段时间才能对其进行解密。

1
“以来
简短的问题:为什么如此? 长问题: 很简单,我试图找出第一个方程式的理由。我正在阅读的书的作者(如果需要,请在此处提供,但不是必需的)声称以下内容: 由于存在近似高斯的假设,我们可以这样写: p0(ξ)= Aϕ (ξ)e x p (一个n + 1ξ+ (一个n + 2+1个2)ξ2+∑我= 1ñ一个一世G一世(ξ))p0(ξ)=Aϕ(ξ)exp(an+1ξ+(an+2+12)ξ2+∑i=1naiGi(ξ)) p_0(\xi) = A \; \phi(\xi) \; exp( a_{n+1}\xi + (a_{n+2} + \frac{1}{2})\xi^2 + \sum_{i=1}^{n} a_i G_i(\xi)) 其中是具有最大熵的观测数据的PDF,假设您仅观测到一系列期望(简单数),其中和是标准化高斯变量的PDF,即0个均值和单位方差。p0(ξ)p0(ξ)p_0(\xi)C一世,我= 1 。。。ñci,i=1...nc_i, i = 1 ... nC一世= E {G一世(ξ)}ci=E{Gi(ξ)}c_i = \mathbb{E}\{G_i(\xi)\}ϕ (ξ)ϕ(ξ)\phi(\xi) 所有这些都是他将上述方程式作为简化PDF的出发点,我知道他是怎么做的,但我没有得到他如何证明上述方程式的正当性,即,起点。p0(ξ)p0(ξ)p_0(\xi) 我试图保持简短,以免混淆任何人,但是如果您需要其他详细信息,请在评论中让我知道。谢谢!

1
从现有的多输入最大熵分类器创建最大熵马尔可夫模型
最大熵马尔可夫模型(MEMM)的概念引起了我的兴趣,我正在考虑将其用于词性(POS)标记器。目前,我正在使用常规的最大熵(ME)分类器来标记每个单词。这使用了许多功能,包括前面的两个标签。 MEMM使用维特比算法找到通过马尔可夫链的最优路径(即为句子找到完整的最优标签集,而不是为每个单词找到单独的最优值)。读到它,这似乎具有奇妙的优雅和简约。但是,每个阶段仅依赖于上一个阶段的“结果”(即,根据马尔可夫链)。 但是,我的ME模型使用了前两个阶段(即前两个单词的标签)。看来我有两种可能的方法: 与传统的Viterbi实现一样,使用根据一个(上一个)阶段存储的一组路径。我的ME分类器将使用此阶段和此阶段之前的“冻结”阶段(冻结到所考虑的路径中)来产生传递函数。 或者我编写算法来跟踪两个阶段。这更加复杂,将不再是真正的马尔可夫模型,因为每个传递函数(即,来自ME模型)将取决于前两个阶段而不是一个阶段。 令我惊讶的是,第二秒将更加准确,尽管它将更加复杂。 在文献搜索过程中,我还没有找到任何示例。是否尝试过?两阶段方法是否改善了整体精度?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.