我正在尝试提出一个指标,用于衡量我正在运行的实验的分布不均匀性。我有一个随机变量,该变量在大多数情况下应均匀分布,并且我希望能够识别(并且可能测量)数据集示例,其中该变量在一定范围内不均匀分布。
三个数据系列的示例每个都有10个测量值,它们代表我正在测量的事物的发生频率,可能是这样的:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
我希望能够区分c之类的分布与a和b之类的分布,并测量c与均匀分布的偏差。同样,如果存在度量分布均匀性的标准(标准偏差接近零?),我也许可以用它来区分具有高方差的分布。但是,我的数据可能只有一个或两个异常值,例如上面的c示例,并且不确定是否可以通过这种方式轻松检测到。
我可以破解一些软件来实现此目的,但是我正在寻找统计方法/方法来正式证明这一点。几年前,我上过一堂课,但统计数据不是我的专长。这似乎应该采用众所周知的方法。对不起,如果其中任何一个完全是脑残。提前致谢!