我不会将“指数”称为高度偏斜。例如,它的对数明显是左偏斜,其力矩偏斜仅为2。
1)使用指数数据且接近500 的t检验是n 可以的:
a)检验统计量的分子应该是好的:如果数据是具有共同标度的独立指数(并且没有比其重得多的尾数),则它们的平均值将以形状参数等于观测数量的伽玛分布。当形状参数大于40左右时,它的分布看起来非常正常(取决于需要精确到尾部的距离)。
这可以进行数学证明,但是数学不是科学。当然,您可以通过模拟进行经验检查,但是如果您对指数不正确,则可能需要更大的样本。当n = 40时,这就是指数数据的样本总和(即样本均值)的分布:
非常轻微的倾斜。这种偏斜随着样本大小的平方根减小。因此,在n = 160时,它的倾斜度是一半。在n = 640时,其倾斜度为四分之一:
通过将其翻转到均值上方并将其绘制在顶部,可以看出它实际上是对称的:
蓝色是原始的,红色是翻转的。如您所见,它们几乎是偶然的。
--
b)更重要的是,两个这样的伽玛分布变量(例如,您使用指数方法获得)之差更接近正常,并且在零值(您需要的地方)下,偏度为零。这是:n=40
也就是说,在小于样本大小下,t统计量的分子非常接近于法线。n=500
--
c)然而,真正重要的是整个统计量在零值下的分布。分子的正态性不足以使t统计量具有t分布。但是,在指数数据的情况下,这也不是什么大问题:
红色曲线是df = 78时t统计量的分布,直方图是在指数样本上使用Welch t检验得到的结果(均等值为零;真实的Welch-Satterthwaite自由度为给定的样本往往会比78小一些)。特别是,您的重要性级别区域中的尾部区域应该相似(除非您有一些非常不寻常的重要性级别,否则它们是)。请记住,这是,而不是。在更好。n=40n=500n=500
但是请注意,对于实际指数数据,只有在均值不同的情况下,标准差才会不同。如果是指数推定,则在零假设下,无需特别担心不同的总体方差,因为它们仅在替代条件下发生。因此,均方差t检验仍然可以(在这种情况下,您在直方图中看到的上述良好近似甚至可能会更好)。
2)尽管可以记录日志,但仍然可以理解它
如果null为true,并且您具有指数分布,则说明正在测试比例参数的相等性。对日志的均值进行位置测试将针对日志中的位置偏移备选方案(原始值的比例更改)测试比例参数的日志是否相等。如果您在中的位置测试中得出结论,逻辑与得出。因此,使用t检验对原木进行测试可以很好地测试原始假设。logλ1≠logλ2λ1≠λ2
[如果您在日志中进行该测试,那么在这种情况下,我倾向于建议进行均方差测试。]
因此-与上面我所讲的类似,仅用一两个句子就可以证明联系的合理性-您应该能够得出结论,而不是关于参与度量的对数,而是关于参与度量本身。
3)您还可以做很多其他事情!
a)您可以进行适合指数数据的测试。容易得出基于似然比的测试。碰巧的是,对于指数数据,在一种尾部情况下,您会针对这种情况获得小样本F检验(基于均值比);对于小样本量,两个尾部的LRT在每个尾部中通常不会有相等的比例。(这应该具有比t检验更好的功效,但是t检验的功效应该是相当合理的,我希望您的样本量不会有太大差异。)
b)您可以进行置换检验-如果愿意,甚至可以基于t检验。因此,唯一改变的是p值的计算。或者,您可以进行其他一些重采样测试,例如基于引导的测试。尽管应该部分取决于您选择的测试统计量(相对于您的分布),它应该具有良好的性能。
c)您可以进行基于等级的非参数检验(例如Wilcoxon-Mann-Whitney)。如果您假设分布不同,那么它们仅相差一个比例因子(适用于各种偏斜分布,包括指数),那么您甚至可以获得比例参数比率的置信区间。
[为此,我建议使用对数刻度(日志中的位置偏移为刻度偏移的对数)。它不会更改p值,但是它将允许您对点估计值和CI限取幂,以获取刻度位移的间隔。]
如果您处于指数状态,那么它也应该具有相当好的功效,但是可能不如使用t检验那么好。
对于位置偏移的替代方案(例如,在零值下具有方差和偏度异质性的情况),考虑了相当广泛的一组情况的参考文献是
Fagerland,MW和L.山特维克(2009),
“五两样本位置的测试用于与不等方差,偏斜分布性能”
当代临床试验,30,490-496
通常倾向于推荐Welch U检验(Welch考虑的几种测试中的一项,也是唯一一项测试)。如果您使用的Welch统计数据不完全相同,则建议可能会有所不同(尽管可能相差不大)。[请注意,如果您的分布是指数分布的,那么除非您使用对数,否则您会对比例尺替代感兴趣...在这种情况下,您不会有不相等的方差。]