我可以对偏斜和非正常数据使用Z分数吗?[关闭]


12

我一直在处理一些过程周期时间数据,并使用标准的z分数进行缩放,以便在整个周期时间的各个部分之间进行比较。

由于数据严重右偏/非正常,我是否应该使用其他转换?(“异常值”永远不会花费消极时间,并且通常比“平均”花费更长的时间)

使用z分数似乎仍然“有效” ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

5
zz

Answers:


5

如果X高度偏斜,则Z统计量将不会呈正态分布(如果必须估计标准偏差,则t不会呈正态分布。因此Z的百分位数将不是标准正态分布。因此在这种情况下它将不起作用。


据我了解,X高度偏斜意味着样本大小不够大(中心极限定理)。但是我不确定总体是否需要正常才能使Z统计工作。可以?
安德烈·吉斯

1
OP谈论的是人口分布,而不是平均值的分布。因此,样本大小和中心极限定理不适用。
Michael R. Chernick '18

2

R代码将起作用,但z分数将与句子“葡萄在轻轻地给钢笔打电话”一样有意义。这是一个有效的句子,但没有传达任何有意义的信息。

从您的R代码来看,似乎您认为您的数据是Weibull分布的。在这种情况下,除非绝对必要,否则我将只使用Weibull统计信息,而不缩放任何内容。即使在每个入门统计课程中都教授z分数,这并不意味着您应该一直使用它们,尤其是当您没有对称数据时尤其如此。


1

如果人口分布不正常。在这种情况下,根据中心极限定理,bar(X){样本均值}的分布接近正态分布;适用于大样本量。尽管从理论上讲我们说我们使用的是Student-t,但是对于更高的n值(样本大小或自由度),t分布和Z分布几乎相等。


-4

Z测试不需要您的数据正常。(2002年,城镇)然而,方差应该近似相等。要检查是否对两个数据集进行了F检验,并且如果方差近似相等,则Z检验结果是有用的。否则,请转换数据。


9
问题是关于变量的转换而不是测试,因此我认为您的答案不适用。另外,如果您提供完整的参考文献,而不仅仅是名称-年份参考文献,并且有人反对SHOUTING,则可能会提供更多信息。
Maarten Buis

我同意@MaartenBuis,但与他不同的是,我会拒绝投票。
Erik
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.