Answers:
注意:正态性的假设通常与变量无关,而是与误差有关,误差由残差估算。例如,在线性回归中 ; 没有假设是正态分布的,只有是正态分布的。
在这里可以找到有关错误的正常假设的相关问题(如果我们对数据没有先验知识,则可以更一般地对数据进行假设)。
基本上,
在那里,有一个重要的注释是,正如陶伦(Terence Tao)在这里所说:“大致来说,该定理断言,如果一个统计量是许多独立且随机波动的成分的组合,而没有一个成分对整体具有决定性的影响。 ,则该统计数据将根据称为正态分布的定律进行近似分布”。
为了清楚起见,让我写一个Python代码段
# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem
@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""
import scipy, scipy.stats
import numpy as np
import pylab
#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random
y = y / sum(y);
N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)
# Plotting details
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])
#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
y = np.convolve(y,y)
y = y / sum(y);
x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
ax = pylab.subplot(N+1,1,i+1)
pylab.plot(x,y)
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_xticks([2**i * 10])
ax.set_yticks([round(np.max(y),3)])
pylab.show()
从图中可以看出,所得分布(总和)倾向于正态分布,而与各个分布类型无关。因此,如果我们没有足够的有关数据中潜在影响的信息,则正态性假设是合理的。
您不知道是否存在常态,这就是为什么您必须做出假设。您只能通过统计检验证明不存在正态性。
更糟糕的是,当您处理现实世界的数据时,几乎可以肯定的是,您的数据没有真正的常态。
这意味着您的统计测试总是有点偏差。问题是您是否可以忍受偏见。为此,您必须了解您的数据以及统计工具假定的正态性。
这就是为什么频繁性工具与贝叶斯工具一样主观的原因。您无法根据正态分布的数据来确定。你必须假设正常。
其他答案涵盖了什么是正常性以及建议的正常性测试方法。克里斯蒂安强调说,在实践中,完美的常态几乎不存在。
我强调指出,观察到的偏离正态性并不一定意味着不能使用假设正态性的方法,并且正态性检验可能不是很有用。
在这三个假设中,2)和3)比1)重要得多!因此,您应该更加专注于他们。乔治·伯克(George Box)说:“对差异进行初步测试,就像在行海中排查条件是否足以让远洋客轮离开港口!”-[Box,“ Non -normality和方差检验”,1953年,Biometrika 40,第318-335页]
这意味着,不均等的方差是一个值得关注的问题,但实际上很难对其进行检验,因为检验受非正态性的影响如此之小,以至于对均值检验不重要。如今,对于不等方差的非参数检验应明确使用。
简而言之,首先要关注不均等的方差,然后是正态性。当您对它们发表意见后,就可以考虑正常性了!
这里有很多好的建议:http : //rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt