Answers:
你有正确的主意。这可以系统地,全面地并且通过相对简单的计算来完成。结果图称为正态概率图(有时也称为PP图)。从中你可以看到很多比出现在其他图形表示更多的细节,特别是直方图,并稍加练习,你甚至可以学习到确定如何重新表达你的数据,使它们更接近于正常的情况下即是合理的。
这是一个例子:
数据在列中A
(并命名为Data
)。剩下的都是计算,尽管您可以控制用于使参考线适合图的“铰链等级”值。
此图是一个散点图,将数据与通过独立于标准正态分布绘制的数字获得的值进行比较。当点沿对角线排列时,它们接近法线;水平偏差(沿数据轴)表示偏离正常状态。在这个例子中,这些点非常靠近参考线。最大偏离发生在最高值,该值位于行的左侧约单位。因此,我们一眼便看到这些数据非常接近于正态分布,但右尾可能略微“轻”。这对于进行t检验非常好。
纵轴上的比较值分两步计算。首先,每个数据值从到排序(数据量显示在单元格的字段中)。它们按比例转换为到范围内的值。一个好的公式是 (有关来源,请参见http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm。)然后通过函数将它们转换为标准的Normal值。这些值出现在列中。右边的图是的XY散点图Count
F2
NormSInv
Normal score
Normal Score
反对数据。(在某些参考资料中,您会看到此图的转置,这也许更自然,但Excel倾向于将最左列放在水平轴上,而将最右边的列放在垂直轴上,因此我让它按照自己的意愿进行操作。 )
(如您所见,我从均值和标准差的正态分布中独立地随机抽取了这些数据,因此概率图看起来如此好也就不足为奇了。)实际上只有两个公式可以输入,您向下传播以匹配数据:它们出现在单元格中,并依赖于cell中计算的值。除了绘图外,这实际上就是所有内容。B2:C2
Count
F2
本表的其余部分不是必需的,但对于判断绘图很有帮助:它提供了参考线的可靠估计。这是通过从绘图的左右两侧等距选择两个点并将它们与一条线连接来完成的。在该例子中这些点是第三最低和第三高,如由所确定的在细胞,。另外,其斜率和截距分别是标准偏差和数据均值的可靠估计。Hinge Rank
F3
绘制基准线,在两个极端点被计算并添加到情节:发生在列及其计算I:J
,标记的X
和Y
。
您可以使用Excel中的数据分析工具包绘制直方图。图形方法更可能传达非正态程度,这通常与假设测试更为相关(请参见对正态的讨论)。
如果您要求描述性统计并选择“摘要统计”选项,则Excel中的数据分析工具包还将为您提供偏度和峰度。例如,您可能会认为偏斜值高于或减去一个是实质性非正态性。
也就是说,使用t检验的假设是残差是正态分布的,而不是变量。此外,它们还具有相当强的鲁棒性,以至于即使存在大量的非正态性,p值仍然相当有效。
这个问题也与统计理论接壤-使用有限的数据测试正态性可能会令人怀疑(尽管我们所有人有时都会这样做)。
或者,您可以查看峰度和偏度系数。来自Hahn和Shapiro:《工程学中的统计模型》提供了有关Beta1和Beta2属性(第42至49页)和第197页图6-1的一些背景知识。其背后的其他理论可以在Wikipedia上找到(请参阅Pearson Distribution)。
基本上,您需要计算所谓的属性Beta1和Beta2。Beta1 = 0和Beta2 = 3表示数据集接近正态性。这是一个粗略的测试,但由于数据有限,因此可以认为任何测试都可以视为粗略的测试。
Beta1与时刻2和3或方差和偏度有关。在Excel中,这些是VAR和SKEW。其中...是您的数据数组,公式为:
Beta1 = SKEW(...)^2/VAR(...)^3
Beta2与时刻2和4或方差和峰度有关。在Excel中,它们是VAR和KURT。其中...是您的数据数组,公式为:
Beta2 = KURT(...)/VAR(...)^2
然后,您可以分别对照0和3的值进行检查。这具有潜在地识别其他分布(包括Pearson分布I,I(U),I(J),II,II(U),III,IV,V,VI,VII)的优点。例如,可以从这些属性指示许多常用分布,例如均匀分布,正态分布,学生t分布,β,伽玛,指数和对数正态分布:
Where: 0 <= Beta1 <= 4
1 <= Beta2 <= 10
Uniform: [0,1.8] [point]
Exponential: [4,9] [point]
Normal: [0,3] [point]
Students-t: (0,3) to [0,10] [line]
Lognormal: (0,3) to [3.6,10] [line]
Gamma: (0,3) to (4,9) [line]
Beta: (0,3) to (4,9), (0,1.8) to (4,9) [area]
Beta J: (0,1.8) to (4,9), (0,1.8) to [4,6*] [area]
Beta U: (0,1.8) to (4,6), [0,1] to [4.5) [area]
Impossible: (0,1) to (4.5), (0,1) to (4,1] [area]
Undefined: (0,3) to (3.6,10), (0,10) to (3.6,10) [area]
Values of Beta1, Beta2 where brackets mean:
[ ] : includes (closed)
( ) : approaches but does not include (open)
* : approximate
这些在Hahn和Shapiro图6-1中进行了说明。
当然,这是一个非常粗糙的测试(存在一些问题),但是您可能希望在进行更严格的测试之前将其作为初步检查。
对于数据有限的Beta1和Beta2的计算,还有一些调整机制-但这已超出了本文的范围。