如何测量分布的不均匀性?


28

我正在尝试提出一个指标,用于衡量我正在运行的实验的分布不均匀性。我有一个随机变量,该变量在大多数情况下应均匀分布,并且我希望能够识别(并且可能测量)数据集示例,其中该变量在一定范围内不均匀分布。

三个数据系列的示例每个都有10个测量值,它们代表我正在测量的事物的发生频率,可能是这样的:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

我希望能够区分c之类的分布与a和b之类的分布,并测量c与均匀分布的偏差。同样,如果存在度量分布均匀性的标准(标准偏差接近零?),我也许可以用它来区分具有高方差的分布。但是,我的数据可能只有一个或两个异常值,例如上面的c示例,并且不确定是否可以通过这种方式轻松检测到。

我可以破解一些软件来实现此目的,但是我正在寻找统计方法/方法来正式证明这一点。几年前,我上过一堂课,但统计数据不是我的专长。这似乎应该采用众所周知的方法。对不起,如果其中任何一个完全是脑残。提前致谢!


Answers:


18

如果您不仅具有频率,还具有实际计数,则可以对每个数据系列使用拟合优度检验。特别是,您希望将测试用于离散的均匀分布。这为您提供了一个很好的测试,它使您能够找出哪些数据序列可能不是由均匀分布生成的,但却没有提供一致性的度量。χ2

还有其他可能的方法,例如计算每个序列的 -均匀分布使熵最大化,因此,如果熵可疑地低,您将得出结论,您可能没有均匀分布。从某种意义上说,这可以作为衡量一致性的标准。

另一个建议是使用Kullback-Leibler散度之类的度量,该度量度量两个分布的相似性。


关于您的答复,我有两个问题:1.为什么您说卡方不能给出统一性?具有均匀分布的拟合检验不是衡量均匀性的方法吗?2.我们怎么知道什么时候应该使用卡方或熵?
kanzen_master 2012年

@kanzen_master:我猜卡方统计量可以看作是均匀性的量度,但是它有一些缺点,例如缺乏收敛性,对任意放置的箱的依赖,单元中期望计数的数量需要不过,使用哪种度量/测试只是一个问题,而且熵也不是没有问题(特别是分布的熵有许多不同的估计量)。对我来说,熵似乎是一种不太随意的度量,并且更易于解释。
MånsT

8

除了@MansT的好主意之外,您还可以提出其他措施,但这取决于您所说的“非均匀性”。为了简单起见,让我们看一下4个级别。完美的一致性很容易定义:

25 25 25 25

但是以下哪个更不一致?

20 20 30 30或20 20 25 35

还是同样不均匀?

如果您认为它们同样不均匀,则可以使用基于与法线偏差的绝对值之和的度量,并按可能的最大值进行缩放。那么第一个是5 + 5 + 5 + 5 = 20,第二个是5 + 5 + 0 + 10 =20。但是,如果您认为第二个更加不均匀,则可以使用基于平方偏差的值,在这种情况下第一个得到25 + 25 + 25 + 25 = 100,第二个得到25 + 25 + 0 + 100 = 150。


1
彼得,您似乎将“均匀分布”解释为“相等”。OP的意图是否值得提出,但确实应该作为对该问题的评论。
whuber

嗨,@ whuber,从问题上看,这似乎就是他的意思。这还意味着什么?
彼得·弗洛姆

2
“等于”表示对于,CDF为,对于,,而“均匀”表示用于。您从第一个意义上定义 “完美的一致性”,而第二个是标准统计意义。X μ ˚F X = 0 X < μ ˚F X = X - α / θ X [ α α + θ ]F(x)=1xμF(x)=0x<μF(x)=(xα)/θx[α,α+θ]
whuber

@whuber,在我看来,第一件事更接近原始海报“制服”的含义。再看一看,他/她似乎在用“制服”来表示“低方差”。
2012年

就是这样,Macro:我们不能说真的。这个问题需要得到澄清,才能得到答案,恕我直言。公认的答案表明OP在标准统计意义上使用了“统一”。
ub

6

这是一个简单的试探法:如果假设任何向量中的元素之和为(或简单地用总和对每个元素进行归一化以实现此目的),则均匀性可用L2范数表示,范围为到,其中是向量的维数。11 1d1d1d

下限对应于均匀性,上限对应于向量。 11d1

要将其缩放到到之间的分数,可以使用,其中是L2范数。1 n * 01nnd1d1n

为简单起见,从您的示例中修改了一个示例,其中元素的总和为,所有向量的维数相同。1

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

下面将产生,,以及的行:0.0051 0.45290.00280.00510.4529

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

1
很好。但是,为什么(或在什么情况下)优先于任何其他规范或该线程上提供的其他解决方案呢?Lp
ub

@whuber我不知道,对此我也没有任何研究。基本上,这是我用作启发式的东西,可能适合OP的需求,但我并不是真的认为这是首选的方法。
user495285'2014-04-2

@whuber-您能从理论上弄清楚为什么如此有效吗?我需要引用这个。
Ketan

@ user495285-这似乎可以直接使用值,而不仅仅是频率。以您的经验,最好只在频率上使用它,还是可以直接在矢量上使用它?
Ketan

我建议不要引用@Ketan,因为它是启发式的,理论上不受支持。(由于它不依赖于采样变化的任何考虑,因此没有进一步的分析就无法说出它是否有好处。)尽管如此,范数与拟合优度检验中使用的统计量就是它可能适用于测量非均匀性的原因。χ 2L2χ2
豪伯

0

据我了解,最近偶然发现了这个,并添加到@ user495285的答案中:

当值归一化并求和为1时,则均匀分布为的单位球面,使用范数计算的是使用a的距离度量值与单位球面的偏差给定,即与的均匀分布的偏差与几何距离度量。L p p R n pRnLppRnp

所述规范地方上从单位球在任何给定维度的大偏差更高的权重,而较小的值的地方少的大的偏差的重量。 pL2p

当基础分布是单位球面时,分子在以下等式中等于零: 其中是范数,是向量长度。nL2d

nd1d1
nL2d

我认为,当假设描述的空间的每个位置(维度)均以相等的比例尺(例如,所有可能相等的分布计数)进行测量时,几何度量的有用性就适用了。像PCA / SVD这样的基础更改所基于的相同假设在这里可能相似。但是话又说回来,我不是数学家,所以我会向知识渊博的人开放。


听起来很有帮助。请给我一些参考,以便我可以更好地理解这一点?我实际上需要引用这一点。
Ketan

您可以引用覆盖Lp范数的任何线性代数文本;这是几何学中非常常见的主题:如何计算N维空间中两点之间的距离。根据您的领域,您甚至不必引用它。
lakinsm '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.