什么是正常现象?


Answers:


29

正态性的假设只是感兴趣的基础随机变量正态分布或近似正态分布的假设。直观上,正常性可以理解为大量独立随机事件之和的结果。

更具体地说,正态分布由以下函数定义:

替代文字

其中和分别是均值和方差,其显示如下:μσ2

替代文字

可以通过多种方式进行检查,这可能通过其特征(例如n的大小)或多或少地适合您的问题。基本上,他们都测试了分布是否为正态时预期的特征(例如,预期的分位数分布)。


33

注意:正态性的假设通常与变量无关,而是与误差有关,误差由残差估算。例如,在线性回归中 ; 没有假设是正态分布的,只有是正态分布的。ÿ=一种+bX+ËÿË


16
+1。 最后,有人指出了这个问题的最重要方面:在大多数情况下,“正态性”对于残差或统计数据的抽样分布很重要,而与总体分布无关!
Whuber

4
我还要补充一点,如果是正态分布的,那么Y至少也有条件地是正态的。我认为这是被遗漏的-人们认为Y 处于边际正常状态,但实际上需要有条件正常状态。最简单的例子是一种方差分析。Ë
概率

有条件的是什么?
bill_e 2014年

1
@bill_e自变量
Glen_b-恢复莫妮卡

10

这里可以找到有关错误的正常假设的相关问题(如果我们对数据没有先验知识,则可以更一般地对数据进行假设)。

基本上,

  1. 在数学上使用正态分布很方便。(与最小二乘拟合有关,易于通过伪逆求解)
  2. 由于中心极限定理,我们可以假设存在许多影响过程的潜在事实,并且这些单个效应的总和往往表现得像正态分布。实际上,情况似乎是这样。

在那里,有一个重要的注释是,正如陶伦(Terence Tao)在这里所说:“大致来说,该定理断言,如果一个统计量是许多独立且随机波动的成分的组合,而没有一个成分对整体具有决定性的影响。 ,则该统计数据将根据称为正态分布的定律进行近似分布”。

为了清楚起见,让我写一个Python代码段

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

随机分布

指数分布

均匀分布

从图中可以看出,所得分布(总和)倾向于正态分布,而与各个分布类型无关。因此,如果我们没有足够的有关数据中潜在影响的信息,则正态性假设是合理的。


1
CLT 不允许我们在任何给定的过程中假设有很多个体效应-如果我们得出结论,有很多不是太依赖个体因素来进行测量(没有一个个体因素占总数的太多)变化),我们可以通过调用CLT来假设其正常。假设许多贡献是在CLT应用之前进行的,但在任何意义上都不是CLT的结果。否则,一切都会正常,而实际上有时只是大致正确。
Glen_b-恢复莫妮卡2014年

5

您不知道是否存在常态,这就是为什么您必须做出假设。您只能通过统计检验证明不存在正态性。

更糟糕的是,当您处理现实世界的数据时,几乎可以肯定的是,您的数据没有真正的常态。

这意味着您的统计测试总是有点偏差。问题是您是否可以忍受偏见。为此,您必须了解您的数据以及统计工具假定的正态性。

这就是为什么频繁性工具与贝叶斯工具一样主观的原因。您无法根据正态分布的数据来确定。你必须假设正常。


5
您无法使用统计数据证明任何事情。证明是准确的。统计信息是关于概率的。即使ap = 0.99卡方平方的结果也不能“证明”基础分布不正常。这是不可能的,这是正常的。
xmjx 2011年

@xmjx:您甚至不能说给定的分布可能是正态分布。如果您的分布中99.99%的值是1,而0.01%的值是1000000,则对100个值进行抽样的统计检验很可能会错误地告诉您分布是正态分布。
基督教徒

2
我不是统计学专家,所以这似乎是一个愚蠢的问题……在生成变量而不是数据的基础过程中不存在“真实常态”吗?这似乎是一个愚蠢的区分,但也许可以省去一些令人费解的事情。如果收集的数据不是完全正常,但是底层的随机过程基本上以正常的方式工作,那是您可以决定“忍受偏差”的情况吗?
乔纳森

@Christian-您的评论“ ... 100个值有很大的机会...”根本没有被我的黑客证实:x = c(rep(1,99),rep(1000000,1)); ks.test(x,pnorm)> KS检验仍“拒绝”正常性假设。
rolando2

我喜欢这个答案(+1),但是对于假设正态性可以做些什么却有些悲观。对于任何建模而言,这通常都是一个很好的起点,并且可以通过采用正态分布随机变量的混合或函数将其推广到非常广泛的一类分布。
概率

4

正态性假设假设您的数据呈正态分布(钟形曲线或高斯分布)。您可以通过绘制数据或检查峰度(峰的尖锐程度)和偏度(?)(如果数据的一半以上位于峰的一侧)来进行检查。


2
可以接受什么水平的峰度和偏度来满足正常性假设?
狮子

5
大多数统计方法都假设正态性,而不是数据的正态性,而是假设一个随机变量,例如线性回归中的误差项。检查涉及查看残差,而不是原始数据!

3

其他答案涵盖了什么是正常性以及建议的正常性测试方法。克里斯蒂安强调说,在实践中,完美的常态几乎不存在。

我强调指出,观察到的偏离正态性并不一定意味着不能使用假设正态性的方法,并且正态性检验可能不是很有用。

  1. 偏离正常可能是由于数据收集错误导致的异常值。在许多情况下,检查数据收集日志可以纠正这些数字,并且经常性会提高。
  2. 对于大样本,正常性测试将能够检测到与正常性相比可忽略不计的偏差。
  3. 假设正态性的方法可能对非正态性具有鲁棒性,并给出可接受的准确性结果。从这个意义上讲,已知t检验是健壮的,而F检验不是来源永久链接。关于特定方法,最好查阅有关健壮性的文献。

1
我认为正态性是一个很好的假设的原因是因为它相对缺乏数据的使用-仅前两个矩用于正态分布的估计中。这使得对最小二乘模型的诊断检查非常容易-基本上,您只是在寻找可能影响足够统计量的异常值。
probabilityislogic

3

ÿ=μ+Xβ+ϵϵσ2ϵ

在这三个假设中,2)和3)比1)重要得多!因此,您应该更加专注于他们。乔治·伯克(George Box)说:“对差异进行初步测试,就像在行海中排查条件是否足以让远洋客轮离开港口!”-[Box,“ Non -normality和方差检验”,1953年,Biometrika 40,第318-335页]

这意味着,不均等的方差是一个值得关注的问题,但实际上很难对其进行检验,因为检验受非正态性的影响如此之小,以至于对均值检验不重要。如今,对于不等方差的非参数检验应明确使用。

简而言之,首先要关注不均等的方差,然后是正态性。当您对它们发表意见后,就可以考虑正常性了!

这里有很多好的建议:http : //rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt


我很确定我的解释是正确的。Box在《 Box,Hunter&Hunter:实验人员的统计资料》中也对此进行了详尽的介绍,我已经详细阅读了。但是现在我看到我写的关于我的意思不是我的意思,它应该说...然后是关于正常性的!不等方差比正态性重要得多。当然,独立性是所有假设的基础。
kjetil b halvorsen 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.