我有测试数据,其中有一些来自离散分布的大型样本,这些样本被用作经验分布。我想测试分布是否实际上不同,以及那些实际上不同的分布的均值差异是什么。
由于它们是离散分布,因此我的理解是,由于潜在的连续分布假设,Kolmogorov-Smirnov检验无效。对于分布是否实际不同,Chi-Squared检验是否是正确的检验?
对于均值差异,我将使用什么测试?更好的方法是从分布中取样并获取差异,然后对差异的分布进行分析吗?
我有测试数据,其中有一些来自离散分布的大型样本,这些样本被用作经验分布。我想测试分布是否实际上不同,以及那些实际上不同的分布的均值差异是什么。
由于它们是离散分布,因此我的理解是,由于潜在的连续分布假设,Kolmogorov-Smirnov检验无效。对于分布是否实际不同,Chi-Squared检验是否是正确的检验?
对于均值差异,我将使用什么测试?更好的方法是从分布中取样并获取差异,然后对差异的分布进行分析吗?
Answers:
1)Kolmogorov-Smirnov仍然可以使用,但是如果使用列表中的临界值,它将是保守的(这只是一个问题,因为它会降低功率曲线)。更好地获取统计信息的排列分布,以便您的显着性水平是您选择的重要水平。如果有很多联系,这只会有很大的不同。此更改非常容易实现。(但是,KS测试并不是唯一的这种比较;如果无论如何正在计算置换分布,则还有其他可能性。)
2)在我看来,对离散数据进行拟合检验的香草卡方检验的优缺点通常是一个非常糟糕的主意。如果上述潜在的功率损耗使您无法使用KS测试,则卡方问题通常会更加严重-它会抛出最关键的信息,这是类别(观察值)之间的排序,从而降低了其功率通过将其分布在不考虑顺序的替代方案中,这样在检测平滑替代方案时就更糟了-例如位置和规模的变化。即使存在以上严格关系的不利影响,在很多情况下,KS测试仍然具有更好的性能(同时仍降低了I型错误率)。
也可以修改卡方以考虑排序(通过正交多项式将卡方划分为线性,二次方,三次方分量,并且仅使用低阶的几个项(4至6是常见选择)。Rayner和Best(及其他)的论文讨论了这种方法,这种方法源于Neyman-Barton平滑测试。这是一个好方法,但是如果您无法使用它的软件,则可能需要一些设置。
两种修改方法都可以,但是如果您不打算修改任何一种方法,则卡方不一定比KS测试更好-在某些情况下可能会更好...或者可能会更糟。
如果联系不是很重(即数据采用许多不同的值),我将按原样考虑KS。如果它们适中,我将计算出排列分布。如果它们很繁琐(即数据仅采用几个不同的值),则纯卡方可能具有竞争力。