Questions tagged «kullback-leibler»

概率分布之间距离(​​或相异性)的非对称度量。在替代假设下,它可能被解释为对数似然比的期望值。

2
两个单变量高斯之间的KL散度
我需要确定两个高斯之间的KL散度。我正在将我的结果与这些结果进行比较,但是我无法复制它们的结果。我的结果显然是错误的,因为KL(p,p)的KL不为0。 我想知道我在哪里做错了,问是否有人可以发现它。 令和。从Bishop的PRML我知道p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1)q(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = N(\mu_2, \sigma_2) KL(p,q)=−∫p(x)logq(x)dx+∫p(x)logp(x)dxKL(p,q)=−∫p(x)log⁡q(x)dx+∫p(x)log⁡p(x)dxKL(p, q) = - \int p(x) \log q(x) dx + \int p(x) \log p(x) dx 在所有实线上完成集成的地方 ∫p(x)logp(x)dx=−12(1+log2πσ21),∫p(x)log⁡p(x)dx=−12(1+log⁡2πσ12),\int p(x) \log p(x) dx = -\frac{1}{2} (1 + \log 2 \pi \sigma_1^2), 所以我将自己限制为,我可以写成∫p(x)logq(x)dx∫p(x)log⁡q(x)dx\int p(x) \log q(x) dx −∫p(x)log1(2πσ22)(1/2)e−(x−μ2)22σ22dx,−∫p(x)log⁡1(2πσ22)(1/2)e−(x−μ2)22σ22dx,-\int p(x) \log \frac{1}{(2 \pi \sigma_2^2)^{(1/2)}} e^{-\frac{(x-\mu_2)^2}{2 …

5
关于Kullback-Leibler(KL)分歧的直觉
我了解了KL散度背后的直觉,因为模型分布函数与数据的理论/真实分布有多大差异。我正在阅读的资料继续说,这两个分布之间的“距离”的直观理解是有帮助的,但不应从字面上理解,因为对于两个分布和,KL散度在和不是对称的。PPP问QQPPP问QQ 我不确定如何理解最后的陈述,还是“距离”的直觉被打破了? 我希望看到一个简单但有见地的例子。

1
两个多元高斯之间的KL散度
假设两个多元正态分布,我在推导KL散度公式时遇到麻烦。我已经很轻松地完成了单变量案例。但是,自从我获得数学统计数据以来已经有一段时间了,因此在将其扩展到多元案例时遇到了一些麻烦。我确定我只是缺少一些简单的东西。 这就是我所拥有的... 假设二者和q是正态分布的与装置的PDF文件μ 1和μ 2和方差Σ 1和Σ 2分别。从q到p的Kullback-Leibler距离为:pppqqqμ1个μ1\mu_1μ2μ2\mu_2Σ1个Σ1\Sigma_1Σ2Σ2\Sigma_2qqqppp ,对于两个多元法线为:∫[ 日志(p (x ))- 对数(q((x ))] p (x )d X∫[log⁡(p(x))−log⁡(q(x))] p(x) dx\int \left[\log( p(x)) - \log( q(x)) \right]\ p(x)\ dx 12[log|Σ2||Σ1|−d+Tr(Σ−12Σ1)+(μ2−μ1)TΣ−12(μ2−μ1)]12[log⁡|Σ2||Σ1|−d+Tr(Σ2−1Σ1)+(μ2−μ1)TΣ2−1(μ2−μ1)]\frac{1}{2}\left[\log\frac{|\Sigma_2|}{|\Sigma_1|} - d + Tr(\Sigma_2^{-1}\Sigma_1) + (\mu_2 - \mu_1)^T \Sigma_2^{-1}(\mu_2 - \mu_1)\right] 遵循与此证明相同的逻辑,在陷入困境之前,请先到达此处: =∫[d2log|Σ2||Σ1|+12((x−μ2)TΣ−12(x−μ2)−(x−μ1)TΣ−12(x−μ1))]×p(x)dx=∫[d2log⁡|Σ2||Σ1|+12((x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ2−1(x−μ1))]×p(x)dx=\int \left[ \frac{d}{2} \log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2} \left((x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_2^{-1}(x-\mu_1) \right) …




4
两个协方差矩阵之间的相似性或距离的度量
两个对称协方差矩阵(都具有相同的维数)之间是否有相似度或距离的度量? 我在这里考虑的是两个概率分布的KL散度的类比或矢量之间的欧几里得距离,除了适用于矩阵。我想会有很多相似性度量。 理想情况下,我还要检验两个协方差矩阵相同的零假设。

4
Kullback-Leibler距离的改编?
看这张图片: 如果我们从红色密度中抽取一个样本,那么某些值预计将小于0.25,而不可能从蓝色分布中生成这样的样本。结果,从红色密度到蓝色密度的Kullback-Leibler距离是无穷大。但是,在某种“自然意义上”,两条曲线并没有那么明显。 这是我的问题:是否存在对Kullback-Leibler距离的适应,从而允许这两条曲线之间有有限的距离?

3
与Kullback-Leibler散度相比,Wasserstein度量标准有什么优势?
Wasserstein度量和Kullback-Leibler散度之间的实际区别是什么?Wasserstein度量标准也称为推土机距离。 从维基百科: Wasserstein(或Vaserstein)度量是在给定度量空间M上的概率分布之间定义的距离函数。 和 Kullback-Leibler散度是一种概率分布与第二个预期概率分布之间的差异的度量。 我已经看到KL被用于机器学习实现中,但是最近我遇到了Wasserstein指标。关于何时使用一种或另一种有很好的指南吗? (我的信誉不足,无法使用Wasserstein或创建新标签Earth mover's distance。)

3
没有信息论的Kullback-Leibler散度
经过对Cross Validated的大量拖延之后,我仍然觉得自己离信息理论领域之外的KL分歧越来越近了。对于具有数学背景的人来说,发现它更容易理解信息理论的解释是很奇怪的。 从信息理论背景概述我的理解:如果我们有一个随机变量且结果数量有限,则存在一种最佳编码,该编码可使我们与其他人以平均最短消息进行交流(我发现这最容易图片按位表示)。如果使用最佳编码,则传达结果所需的消息的期望长度由。如果您使用次优编码,则KL散度平均会告诉我们我们的消息会持续多长时间。− ∑αpα日志2(pα)−∑αpαlog2⁡(pα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) 我喜欢这种解释,因为它很直观地处理了KL散度的不对称性。如果我们有两个不同的系统,即两个加载不同的硬币,它们将具有不同的最佳编码。我并没有本能地感觉到,将第二个系统的编码用于第一个系统与将第一个系统的编码用于第二个系统“同样糟糕”。现在,不用经历如何说服自己的思考过程,我对当对使用的编码时,会给您这个“额外的消息长度” 。∑αpα(日志2qα− 日志2pα)∑αpα(log2⁡qα−log2⁡pα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})qqqppp 但是,大多数KL散度的定义(包括Wikipedia)随后做出了这样的陈述(如果将离散点保留下来,以便可以将其与信息理论的解释相比较,后者在离散项下效果更好,因为位是离散的)。分布,然后KL提供一些“它们有多不同”的度量。我还没有看到关于这两个概念如何关联的单一解释。我似乎记得在他的推理书中,戴夫·麦凯(Dave Mackay)提出了关于数据压缩和推理基本上是同一件事的观点,而且我怀疑我的问题确实与此有关。 不管是不是,我想到的问题都是关于推理的问题。(保持离散),如果我们有两个放射性样品,并且我们知道其中一个是具有已知放射性的某种材料(这是可疑的物理学,但我们假装宇宙像那样工作),因此我们知道“真实”分布我们应该测量的放射性点击数应该是已知的泊松分布,是否建立两个样本的经验分布并将它们的KL散度与已知分布进行比较是否公平,并说较低的可能性更大?λλ\lambda 避开可疑物理学,如果我知道两个样本是从同一分布中提取的,但我知道它们不是随机选择的,可以将其KL散度与已知的全局分布进行比较,使我感觉到样本的“偏差程度” ,相对于另一个而言? 最后,如果对以上问题的回答是肯定的,那为什么呢?是否可以仅从统计角度理解这些事情,而无需与信息理论建立任何(可能是脆弱的)联系?

2
GINI得分与对数似然比之间的关系是什么
我正在研究分类树和回归树,拆分位置的一种方法是GINI得分。 现在,当两个分布之间相同数据的似然比的对数为零时,我习惯于确定最佳分割位置,这意味着隶属的可能性同等可能。 我的直觉说,必须存在某种联系,GINI必须在信息数学理论(Shannon)中有良好的基础,但是我对GINI的理解不够深刻,无法自己得出这种关系。 问题: GINI杂质评分作为分裂度量的“第一原理”推导是什么? GINI分数与似然比或其他信息理论基础的对数有何关系(香农熵,pdf和交叉熵是其中的一部分)? 参考文献: 加权基尼标准是如何定义的? 分类和回归树背后的数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (已添加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity 香农的熵描述为: H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) 将其扩展到多元情况下,我们得到: H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件熵的定义如下: H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(X|Y)=Σyp(x,y)logb⁡p(x)p(x,y)or,H(X|Y)=H(X,Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

3
Fisher度量与相对熵之间的联系
有人能以纯粹的数学严格方式证明 Fisher信息量度与相对熵(或KL散度)之间的以下联系吗? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) 其中a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n),gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) p(x;a) dxg_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dx和gi,jdaidaj:=∑i,jgi,jdaidajgi,jdaidaj:=∑i,jgi,jdaidajg_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j是爱因斯坦求和约定。 我在John Baez的漂亮博客中找到了上述内容,Vasileios Anagnostopoulos在评论中谈到了这一点。

3
Kullback-Leibler散度分析
让我们考虑以下两个概率分布 P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 我已经计算出等于 Kullback-Leibler散度,我想知道这个数字通常向我显示什么?通常,Kullback-Leibler散度告诉我一个概率分布与另一个概率分布有多远,对吗?它与熵术语相似,但是就数字而言,这意味着什么?如果我得到的结果是0.49,我可以说大约一个分布与另一个分布相差50%吗?0.4928202580.4928202580.492820258

1
为什么KL分歧是非负的?
KL散度为何非负? 从信息论的角度,我有这样一个直观的理解: 假设有两个合奏和,它们由用标记的同一组元素组成。和分别是合奏和上不同的概率分布。B x p (x )q (x )A BAAABBBxxxp(x)p(x)p(x)q(x)q(x)q(x)AAABBB 从信息论的角度来看,log2(P(x))log2⁡(P(x))\log_{2}(P(x))是记录集合A的元素所需的最少比特数。使得期望 Σ X ∈ ë Ñ 小号Ë 米b 升ë - p (X )LN (p (X )) 可以被解释为至少多少位,我们需要用于记录中的一个元素甲平均。xxxAAA∑x∈ensemble−p(x)ln(p(x))∑x∈ensemble−p(x)ln⁡(p(x))\sum_{x \in ensemble}-p(x)\ln(p(x))AAA 由于此公式对我们平均所需的位设置了下限,因此对于带来不同概率分布q (x )的不同集合,它为每个元素x给出的界肯定不会是由p (x )给出,这意味着采用期望值, 该平均长度肯定会大于前一个,这导致∑ xBBBq(x)q(x)q(x)xxxp(x)p(x)p(x) ∑x∈ensemble−p(x)ln(q(x))∑x∈ensemble−p(x)ln⁡(q(x))\sum_{x\in ensemble}-p(x)\ln(q(x)) 因为p(x)和q(x)不同,所以 我在这里不做≥。∑x∈ensemblep(x)ln(p(x))ln(q(x))>0∑x∈ensemblep(x)ln⁡(p(x))ln⁡(q(x))>0\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0≥≥\gep(x)p(x)p(x)q(x)q(x)q(x) 这是我的直觉理解,是否有一种纯粹的数学方法证明KL散度为非负数?该问题可以表述为: 给出和q (X )都为正实上线,和∫ + ∞ …

2
两个伽马分布之间的Kullback–Leibler散度
选择通过pdf g (x ; b ,c )= 1参数化伽马分布Γ(b,c)Γ(b,c)\Gamma(b,c)g(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c) = \frac{1}{\Gamma(c)}\frac{x^{c-1}}{b^c}e^{-x/b} 之间的相对熵Γ(bq,cq)Γ(bq,cq)\Gamma(b_q,c_q)和Γ(bp,cp)Γ(bp,cp)\Gamma(b_p,c_p)是由为[1]中给出 KLGa(bq,cq;bp,cp)=(cq−1)Ψ(cq)−logbq−cq−logΓ(cq)+logΓ(cp)+cplogbp−(cp−1)(Ψ(cq)+logbq)+bqcqbpKLGa(bq,cq;bp,cp)=(cq−1)Ψ(cq)−log⁡bq−cq−log⁡Γ(cq)+log⁡Γ(cp)+cplog⁡bp−(cp−1)(Ψ(cq)+log⁡bq)+bqcqbp\begin{align} KL_{Ga}(b_q,c_q;b_p,c_p) &= (c_q-1)\Psi(c_q) - \log b_q - c_q - \log\Gamma(c_q) + \log\Gamma(c_p)\\ &\qquad+ c_p\log b_p - (c_p-1)(\Psi(c_q) + \log b_q) + \frac{b_qc_q}{b_p} \end{align} 我猜Ψ(x):=Γ′(x)/Γ(x)Ψ(x):=Γ′(x)/Γ(x)\Psi(x):= \Gamma'(x)/\Gamma(x)是digamma函数。 这是没有派生的。我找不到任何可以得出这一点的参考。有什么帮助吗?一个好的参考就足够了。困难的部分是将与gamma pdf 集成。logxlog⁡x\log x [1] WD Penny,法线,伽马,狄利克雷和Wishart密度的KL散度,请访问:www.fil.ion.ucl.ac.uk/~wpenny/publications/densities.ps

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.