Questions tagged «kullback-leibler»

概率分布之间距离(​​或相异性)的非对称度量。在替代假设下,它可能被解释为对数似然比的期望值。

3
在实践中计算Kullback-Leibler散度?
我使用KL散度作为2 之间差异的量度。米。f 。p.m.f.p.m.f.p.m.f. PPP和QQQ。 DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) 如果P(Xi)=0P(Xi)=0P(X_i)=0 那么我们可以轻松地计算出 P(Xi)ln(Q(Xi))=0P(Xi)ln(Q(Xi))=0P(X_i)ln\left(Q(X_i)\right)=0 P(Xi)ln(P(Xi))=0P(Xi)ln(P(Xi))=0P(X_i)ln\left(P(X_i)\right)=0 但是,如果且Q (X i)= 0,则 如何计算P (X i)l n ( Q (X i))P(Xi)≠0P(Xi)≠0P(X_i)\ne0Q(Xi)=0Q(Xi)=0Q(X_i)=0P(Xi)ln(Q(Xi))P(Xi)ln(Q(Xi))P(X_i)ln\left(Q(X_i)\right)

3
Kullback-Leibler(KL)散度的最大值是多少
我将在我的python代码中使用KL散度,并获得了本教程。 在该教程中,实现KL散度非常简单。 kl = (model * np.log(model/actual)).sum() 据我所知,的概率分布model和actual应<= 1。 我的问题是,k的最大界限/最大可能值是多少?我需要知道我代码中的最大界限,即kl distance的最大可能值。

4
关于KL分歧有疑问吗?
我正在用KL散度比较两个分布,这给我返回了一个非标准化数字,根据我对这一度量的了解,该数字是将一种假设转换为另一种假设所需的信息量。我有两个问题: a)有没有一种方法可以量化KL散度,使其具有更有意义的解释,例如像效应大小或R ^ 2?任何形式的标准化? b)在R中,使用KLdiv(flexmix软件包)时,可以设置“ esp”值(标准esp = 1e-4),该值将所有小于esp的点设置为某个标准,以提供数值稳定性。我一直在使用不同的esp值,并且对于我的数据集,我选择的数字越小,KL散度就越来越大。到底是怎么回事?我希望esp越小,结果应该越可靠,因为它们会让更多的“真实值”成为统计数据的一部分。没有?我必须更改esp,因为否则它不会计算统计信息,而只会在结果表中显示为NA ...


1
特殊概率分布
如果是在上具有非零值的概率分布,则对于哪种类型,存在常数,使得 对于所有吗?p(x)p(x)p(x)[0,+∞)[0,+∞)[0,+\infty)p(x)p(x)p(x)c>0c>0c\gt 0∫∞0p(x)logp(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2∫0∞p(x)log⁡p(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2\int_0^{\infty}p(x)\log{\frac{ p(x)}{(1+\epsilon)p({x}(1+\epsilon))}}dx \leq c \epsilon^20<ϵ<10<ϵ<10\lt\epsilon\lt 1 上面的不等式实际上是分布及其压缩版本之间的Kullback-Leibler散度。我发现这种不等式适用于指数分布,伽玛分布和威布尔分布,并且我想知道这是否适用于更大的概率分布类别。(1 + ϵ ) p (x (1 + ϵ ))p(x)p(x)p(x)(1+ϵ)p(x(1+ϵ))(1+ϵ)p(x(1+ϵ)){(1+\epsilon)}p({x}{(1+\epsilon)}) 知道不平等意味着什么吗?


1
解释概率测度之间的Radon-Nikodym导数?
我在某些点上已经看到了相对于另一种概率度量使用Radon-Nikodym导数,最明显的是在Kullback-Leibler散度中,其中它是模型对某些任意参数的概率度量的导数。关于真实参数:θ 0θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} 这些都是在参数值条件下对数据点空间的概率度量。Pθ(D)=P(D|θ)Pθ(D)=P(D|θ)P_\theta(D)=P(D|\theta) 在Kullback-Leibler散度中或更普遍地在两个概率测度之间,这种Radon-Nikodym导数的解释是什么?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
两种高斯混合物之间的距离以评估聚类解
我正在运行一个快速仿真以比较不同的群集方法,并且目前遇到了尝试评估群集解决方案的障碍。 我知道各种验证指标(许多在R 中的cluster.stats()中找到),但是我假设如果估计的集群数量实际上等于集群的真实数量,则最好使用这些验证指标。我想保持一种能力,可以测量在原始模拟中未指定正确数量的聚类解决方案时聚类解决方案的性能(即,模拟为具有4个聚类的三个聚类解决方案模型数据的性能如何)解)。仅作为您的参考,对群集进行模拟以拥有相同的协方差矩阵。 我认为高斯的两种混合之间的KL散度将对实现有用,但是不存在封闭形式的解决方案(Hershey和Olson(2007年)),实现蒙特卡洛模拟的计算开始变得昂贵。 是否还有其他可能易于实现的解决方案(即使只是一个近似值)?

2
两个样本的Kullback-Leibler散度
我尝试对两个样本实施Kullback-Leibler散度的数值估计。要调试的执行从两个正态分布绘制样品N(0,1)N(0,1)\mathcal N (0,1)和N(1,2)N(1,2)\mathcal N (1,2)。 为了进行简单的估算,我生成了两个直方图,并尝试在数值上近似积分。我不得不处理直方图的那些部分,其中直方图之一的bin为零,这样我要么以零除或以零的对数结束。我该如何处理? 我想到一个相关的问题:如何精确计算两个不同均匀分布之间的KL散度?我是否必须将积分限制为两个分布的支持的并集?

2
如何计算Kullback-Leibler的散度/距离?
我有三个数据集X,Y和Z。每个数据集定义事件发生的频率。例如: 数据集X:E1:4,E2:0,E3:10,E4:5,E5:0,E6:0等等。 数据集Y:E1:2,E2:3,E3:7,E4: 6,E5:0,E6:0等。 数据集Z:E1:0,E2:4,E3:8,E4:4,E5:1,E6:0等。 我必须找到X和Y之间的KL散度;在X和Z之间。如您所见,对于某些事件,将有0和非零值。对于某些事件,所有三个数据集均为0。 如果有人可以帮助我找到KL的分歧,我将不胜感激。我不是统计学家,所以我没有太多想法。就我的理解而言,我在网上查看的教程过于复杂。

2
假设检验和总变异距离与Kullback-Leibler散度的关系
在我的研究中,我遇到了以下一般性问题:在同一个域中有两个分布和,以及来自这些分布的大量(但有限)样本。样本是从这两个分布之一独立且相同地分布的(尽管分布可能是相关的:例如,可能是和其他分布的混合。)零假设是样本来自,替代假设是样本来自。Q Q P P QPPPQQQQQQPPPPPPQQQ 我试图表征I型和测试样品,了解发行第二类错误和。特别是,除了对和的了解之外,我还对限制一个错误和另一个错误感兴趣。Q P QPPPQQQPPPQQQ 我问了一个关于math.SE 的问题,关于和之间的总变异距离与假设检验的关系,并收到了我接受的答案。这个答案是有道理的,但是我仍然无法将总变化距离和假设检验之间更深层的含义笼罩在脑海中,因为这与我的问题有关。因此,我决定转向这个论坛。QPPPQQQ 我的第一个问题是:总变化是否与 I类错误和II类错误的概率之和无关,而与所采用的假设检验方法无关?本质上,只要存在可能由任一分布生成样本的非零概率,至少一个错误的概率就必须为非零。基本上,无论您进行多少信号处理,您都无法避免假设检验器会出错的可能性。而总变化限制了确切的可能性。我的理解正确吗? I型和II型错误与潜在的概率分布和之间还有另一关系:KL散度。因此,我的第二个问题是:KL散度约束是否仅适用于一种特定的假设检验方法(似乎很多涉及对数似然比方法),还是可以将其普遍适用于所有假设检验方法?如果它适用于所有假设检验方法,那么为什么它似乎与总变异范围有很大不同?它的行为是否有所不同?QPPPQQQ 我的基本问题是:在规定的条件下我应该使用约束还是纯粹为了方便起见?什么时候应该使用一个绑定推导结果并使用另一个绑定? 如果这些问题无关紧要,我深表歉意。我是计算机科学家(所以对我来说,这似乎是一个奇特的模式匹配问题:)。)我对信息论非常了解,并且也具有概率论的毕业背景。但是,我才刚刚开始学习所有这些假设检验的知识。如果需要,我将尽力澄清我的问题。

2
单位为高斯的KL损失
我一直在执行VAE,并且在网上注意到简化的单变量高斯KL散度的两种不同实现。原始发散按照这里是 如果我们假设我们事先是单位高斯即μ2=0和σ2=1,这简化向下 ķ大号升ö小号小号=-日志(σ1)+σ 2 1 +μ 2 1ķ大号升Ø 小号小号= 日志(σ2σ1个)+ σ21个+ (μ1个- μ2)22个σ22− 12KLloss=log⁡(σ2σ1)+σ12+(μ1−μ2)22σ22−12 KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2} μ2= 0μ2=0\mu_2=0σ2= 1σ2=1\sigma_2=1 这就是我的困惑所在。尽管我发现上述实现有一些晦涩的github仓库,但我更常用的是:ķ大号升Ø 小号小号= - 日志(σ1个)+ σ21个+ μ21个2− 12KLloss=−log⁡(σ1)+σ12+μ122−12 KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2} ķ大号升Ø 小号小号= - 12(2 日志(σ1个)- σ21个- μ21个+ 1 )KLloss=−12(2log⁡(σ1)−σ12−μ12+1) KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1) = - 12(日志(σ1个)- σ1个- μ21个+ 1 )=−12(log⁡(σ1)−σ1−μ12+1) =-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1) 例如在官方Keras自动编码器教程中。我的问题是,这两者之间我想念什么?主要区别是在对数项上降低因子2,而不是对方差求平方。从分析上讲,我成功地使用了后者,以获取其价值。在此先感谢您的帮助!

3
用蒙特卡洛估计Kullback Leibler(KL)的散度
我想估计两个连续分布f和g之间的KL散度。但是,我无法写下f或g的密度。我可以通过某种方法(例如,马尔可夫链蒙特卡洛)从f和g中采样。 从f到g的KL散度定义如下 dķ大号(f| | G)= ∫∞- ∞F(x )日志(f(x )G(x )) dXdķ大号(F||G)=∫-∞∞F(X)日志⁡(F(X)G(X))dXD_{KL}(f || g) = \int_{-\infty}^{\infty} f(x) \log\left(\frac{f(x)}{g(x)}\right) dx 这是关于f 的期望,因此您可以想象一些蒙特卡洛估计日志(f(x )G(x ))日志⁡(F(X)G(X))\log\left(\frac{f(x)}{g(x)}\right) 1个ñ∑一世ñ日志(f(x一世)G(x一世))1个ñ∑一世ñ日志⁡(F(X一世)G(X一世))\frac{1}{N}\sum_i^N \log\left(\frac{f(x_i)}{g(x_i)}\right) 其中i索引从f提取的N个样本(即,对于i = 1,...,N,X一世〜˚F()X一世〜F()x_i \sim f()) 但是,由于我不知道f()和g(),因此甚至无法使用此蒙特卡洛估计。在这种情况下估算KL的标准方法是什么? 编辑:我不知道f()或g()的非归一化密度

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.