如何测量分布的不均匀性？

28

我正在尝试提出一个指标，用于衡量我正在运行的实验的分布不均匀性。我有一个随机变量，该变量在大多数情况下应均匀分布，并且我希望能够识别（并且可能测量）数据集示例，其中该变量在一定范围内不均匀分布。

三个数据系列的示例每个都有10个测量值，它们代表我正在测量的事物的发生频率，可能是这样的：

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

我希望能够区分c之类的分布与a和b之类的分布，并测量c与均匀分布的偏差。同样，如果存在度量分布均匀性的标准（标准偏差接近零？），我也许可以用它来区分具有高方差的分布。但是，我的数据可能只有一个或两个异常值，例如上面的c示例，并且不确定是否可以通过这种方式轻松检测到。

我可以破解一些软件来实现此目的，但是我正在寻找统计方法/方法来正式证明这一点。几年前，我上过一堂课，但统计数据不是我的专长。这似乎应该采用众所周知的方法。对不起，如果其中任何一个完全是脑残。提前致谢！

— 锦江
source

相关： stats.stackexchange.com/questions/66186/...

— 的Kjetil b HALVORSEN

18

如果您不仅具有频率，还具有实际计数，则可以对每个数据系列使用拟合优度检验。特别是，您希望将测试用于离散的均匀分布。这为您提供了一个很好的测试，它使您能够找出哪些数据序列可能不是由均匀分布生成的，但却没有提供一致性的度量。 $\chi^2$

还有其他可能的方法，例如计算每个序列的熵 -均匀分布使熵最大化，因此，如果熵可疑地低，您将得出结论，您可能没有均匀分布。从某种意义上说，这可以作为衡量一致性的标准。

另一个建议是使用Kullback-Leibler散度之类的度量，该度量度量两个分布的相似性。

— 曼斯
source

关于您的答复，我有两个问题：1.为什么您说卡方不能给出统一性？具有均匀分布的拟合检验不是衡量均匀性的方法吗？2.我们怎么知道什么时候应该使用卡方或熵？

— kanzen_master 2012年

@kanzen_master：我猜卡方统计量可以看作是均匀性的量度，但是它有一些缺点，例如缺乏收敛性，对任意放置的箱的依赖，单元中期望计数的数量需要不过，使用哪种度量/测试只是一个问题，而且熵也不是没有问题（特别是分布的熵有许多不同的估计量）。对我来说，熵似乎是一种不太随意的度量，并且更易于解释。

— MånsT

8

除了@MansT的好主意之外，您还可以提出其他措施，但这取决于您所说的“非均匀性”。为了简单起见，让我们看一下4个级别。完美的一致性很容易定义：

25 25 25 25

但是以下哪个更不一致？

20 20 30 30或20 20 25 35

还是同样不均匀？

如果您认为它们同样不均匀，则可以使用基于与法线偏差的绝对值之和的度量，并按可能的最大值进行缩放。那么第一个是5 + 5 + 5 + 5 = 20，第二个是5 + 5 + 0 + 10 =20。但是，如果您认为第二个更加不均匀，则可以使用基于平方偏差的值，在这种情况下第一个得到25 + 25 + 25 + 25 = 100，第二个得到25 + 25 + 0 + 100 = 150。

— 彼得富勒姆-恢复莫妮卡
source

1

彼得，您似乎将“均匀分布”解释为“相等”。OP的意图是否值得提出，但确实应该作为对该问题的评论。

— whuber

嗨，@ whuber，从问题上看，这似乎就是他的意思。这还意味着什么？

— 彼得·弗洛姆

2

“等于”表示对于，CDF为，对于，，而“均匀”表示用于。您从第一个意义上定义 “完美的一致性”，而第二个是标准统计意义。

F (x) = 1

$F(x) = 1$

x \geq μ

$x\ge \mu$

F (x) = 0

$F(x) = 0$

x < μ

$x\lt \mu$

F (x) = (x - α) / θ

$F(x) = (x-\alpha)/\theta$

x \in [α, α + θ]

$x \in [\alpha, \alpha+\theta]$

— whuber

@whuber，在我看来，第一件事更接近原始海报“制服”的含义。再看一看，他/她似乎在用“制服”来表示“低方差”。

— 2012年

就是这样，Macro：我们不能说真的。这个问题需要得到澄清，才能得到答案，恕我直言。公认的答案表明OP在标准统计意义上使用了“统一”。

— ub

6

这是一个简单的试探法：如果假设任何向量中的元素之和为（或简单地用总和对每个元素进行归一化以实现此目的），则均匀性可用L2范数表示，范围为到，其中是向量的维数。 $1$ $\frac{1}{\sqrt d}$ $1$ $d$

下限对应于均匀性，上限对应于向量。 $\frac{1}{\sqrt d}$ $1$

要将其缩放到到之间的分数，可以使用，其中是L2范数。 $0$ $1$ $\frac{n*\sqrt d - 1}{\sqrt d - 1}$ $n$

为简单起见，从您的示例中修改了一个示例，其中元素的总和为，所有向量的维数相同。 $1$

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

下面将产生，，以及的行： $0.0028$ $0.0051$ $0.4529$

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

— 用户495285
source

1

很好。但是，为什么（或在什么情况下）优先于任何其他规范或该线程上提供的其他解决方案呢？

L_{p}

$L_p$

— ub

@whuber我不知道，对此我也没有任何研究。基本上，这是我用作启发式的东西，可能适合OP的需求，但我并不是真的认为这是首选的方法。

— user495285'2014-04-2

@whuber-您能从理论上弄清楚为什么如此有效吗？我需要引用这个。

— Ketan

@ user495285-这似乎可以直接使用值，而不仅仅是频率。以您的经验，最好只在频率上使用它，还是可以直接在矢量上使用它？

— Ketan

我建议不要引用@Ketan，因为它是启发式的，理论上不受支持。（由于它不依赖于采样变化的任何考虑，因此没有进一步的分析就无法说出它是否有好处。）尽管如此，范数与拟合优度检验中使用的统计量：这就是它可能适用于测量非均匀性的原因。

L_{2}

$L_2$

χ^{2}

$\chi^2$

— 豪伯

0

据我了解，最近偶然发现了这个，并添加到@ user495285的答案中：

当值归一化并求和为1时，则均匀分布为的单位球面，使用范数计算的是使用a的距离度量值与单位球面的偏差给定，即与的均匀分布的偏差与几何距离度量。 $\mathbb{R}^n$ $L_p$ $p$ $\mathbb{R}^n$ $p$

所述规范地方上从单位球在任何给定维度的大偏差更高的权重，而较小的值的地方少的大的偏差的重量。 $L_2$ $p$

当基础分布是单位球面时，分子在以下等式中等于零：其中是范数，是向量长度。

\frac{n \sqrt{d} - 1}{\sqrt{d} - 1}

$\frac{n\sqrt{d} - 1}{\sqrt{d} - 1}$

n

$n$

L_{2}

$L_2$

d

$d$

我认为，当假设描述的空间的每个位置（维度）均以相等的比例尺（例如，所有可能相等的分布计数）进行测量时，几何度量的有用性就适用了。像PCA / SVD这样的基础更改所基于的相同假设在这里可能相似。但是话又说回来，我不是数学家，所以我会向知识渊博的人开放。

— 拉金斯
source

听起来很有帮助。请给我一些参考，以便我可以更好地理解这一点？我实际上需要引用这一点。

— Ketan

您可以引用覆盖Lp范数的任何线性代数文本；这是几何学中非常常见的主题：如何计算N维空间中两点之间的距离。根据您的领域，您甚至不必引用它。

— lakinsm '16