有限的高斯混合与高斯之间的距离是多少?


12

假设我混合了有限数量的具有已知权重,均值和标准差的高斯。手段不平等。当然,由于力矩是组分力矩的加权平均值,因此可以计算出混合物的平均值和标准偏差。混合不是正态分布,但是离正态有多远?

高斯混合与标准差相同且均值和方差相等的高斯相差2个标准差

上图显示了高斯混合物的概率密度,其中高斯混合物的均值由标准差(各组分的标准差)隔开,而一个高斯混合物的均值和方差相同。2

高斯混合模型与具有相同均值和方差的高斯模型相隔1个标准偏差

1


动机:我不同意一些懒惰的人关于他们尚未测量的一些实际分布,他们认为这些分布接近正常值,因为那样很好。我也很懒 我也不想测量分布。我想能够说出他们的假设是不一致的,因为他们说的是,高斯与不同均值的有限混合是不正确的高斯。我不仅要说尾巴的渐近形状是错误的,因为这些只是近似值,仅应在均值的几个标准偏差内合理地准确。我想说的是,如果这些分量被正态分布很好地近似,那么混合就不是,并且我想能够对此进行量化。


L121/4


2
如果混合物非常接近正常,那么使用正态近似值并不懒惰,这只是一种简化,可能是一个很好的方法。但是,在您的示例中,与最佳逼近法线相比,您看到的混合气体在中心比果盘更平坦,在中间扩散更多,在尾巴更短。我认为您可能想看看两个CDF之间的某种集成差异。不是KS量度,因为最大差异可能不会很大,但是一个区域的平均差异可能会相对较大。
Michael R. Chernick 2012年

我们是否可以假设存在高斯近似混合的高斯统计上的统计显着证据?如果已知差异具有统计学意义,我们只需要担心差异是否具有实际意义。迈克尔斯(Michaels)对类似安德森·达林(Anderson-Darling)统计数据之类的建议将是一个合理的起点。
Dikran有袋动物2012年

1/22

3
听起来您似乎在问一个模型选择问题:给模型一些数据,什么时候应该比混合物更喜欢正态分布(或更普遍的是,应该如何选择混合物成分的数量)?像这样重新定义问题可以使您可以访问此网站上的数百个相关问题:-)。
ub

@whuber:到法线的距离可以表示为旨在将混合物与单个高斯分离的测试的(平均)功效。
西安

Answers:


9

KL散度将是自然的,因为您具有自然的基本分布,即单一高斯分布,混合物将从中散布。另一方面,两个高斯混合物之间的KL散度(或其对称的“距离”形式)似乎很难解决,您的问题是特例。 好时和奥尔森(Hershey and Olson,2007)似乎是对可用近似值的合理总结,其中包括可能提供更容易界限的变分方法。

但是,如果您想对假设某物确实是高斯时的不良影响进行辩论,那么最好对您实际感兴趣的结果有个好主意-比“犯错”更具体的东西”(这是@ Michael-Chernick的观点)。例如,测试的结果,间隔或类似结果。混合物的两个明显影响是过度分散(可以保证)和多峰(multimodality),这会使最大化器产生混淆。


1

让我继续考虑错误的分配规范的后果。无需使用诸如KL Divergence之类的通用距离度量,而是可以评估定制的“差异”度量,该度量与当前的后果密切相关。

例如,如果要将分布用于风险计算,例如确定失败概率足够低,那么唯一适合的事情就是极端尾部的概率计算。这可能与数十亿美元计划的决策有关,涉及生死攸关的问题。

正常假设最不准确的地方在哪里?在许多情况下,对于这些至关重要的风险计算而言,最重要的地方是唯一的地方。例如,如果您的真实分布是均值相同但标准差不同的正态混合,则混合物分布的尾部比均值和标准差相同的正态分布的尾部胖。这很容易导致极端尾部概率的数量级差异(风险低估)。

UP(XMixture>U)P(XNormal>U)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.