正常性测试“基本上没有用”吗?


297

一位前同事曾经对我说过以下话:

我们通常将正态性检验应用于过程的结果,该过程的结果在null下会生成仅渐近接近正常的随机变量 (“渐近”部分取决于一些我们不能做大的数量);在廉价内存,大数据和快速处理器的时代,正态性测试应 始终拒绝大型(尽管不是那么大)样本的正态分布无效。因此,相反地,正常性测试仅应用于较小的样本,前提是它们可能具有较低的功效且对I型速率的控制较少。

这是有效的论点吗?这是众所周知的论点吗?是否有比“正常”更模糊的零假设的著名检验?


23
供参考:我认为这不必是社区Wiki。
Shane 2010年

2
我不确定是否有“正确答案”……
shabbychef 2010年

5
从某种意义上说,对有限数量的参数的所有测试都是如此。在固定的(进行测试的参数数量)和n无限增长的情况下,两组之间的任何差异(无论多么小)都将在某个时刻打破零值。实际上,这是支持贝叶斯测试的一个论点。kn
user603 2010年

2
对我来说,这不是一个有效的论点。无论如何,在给出任何答案之前,您需要使事情正式化。您可能错了,也可能不是,但是现在您拥有的只是一种直觉:对我来说,这句话是:“在廉价内存,大数据和快速处理器的时代,正常性测试应始终拒绝正常的空值”需要澄清:)我认为,如果您尝试提供更多的形式精度,答案将很简单。
罗宾吉拉德

8
“是否有不适合假设检验的大型数据集”主题中的主题讨论了该问题的概括。(stats.stackexchange.com/questions/2516/...
whuber

Answers:


229

这不是争论。正式的正态性检验总是拒绝我们今天使用的庞大样本量,这是一个(有力地说明)事实。甚至很容易证明,当n变大时,即使与理想正态性的最小偏差也将导致明显的结果。而且,由于每个数据集都具有一定程度的随机性,因此没有一个数据集可以是完全正态分布的样本。但是在应用统计中,问题不是数据/残差……是否完全正常,而是足以满足假设的正常范围。

让我用Shapiro-Wilk检验进行说明。下面的代码构造了一组接近正态分布但并不完全正态分布的分布。接下来,我们测试shapiro.test这些近似正态分布的样本是否偏离正态性。在R中:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

最后一行检查每种样本大小的模拟中哪一部分明显偏离正常值。因此,根据Shapiro-Wilks的说法,在87%的案例中,有5000个观测值的样本与正常值存在明显差异。但是,如果您看到qq图,就永远不会决定是否偏离正态。下面您以一组随机样本的qq图为例

替代文字

具有p值

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
顺便说一句,在n很大的情况下,中心极限定理使得形式正规性检查不再必要。
Joris Meys 2010年

31
是的,真正的问题不是数据是否实际上呈正态分布,而是对于正态性的基本假设而言,它们是否足够正态,对于分析的实际目的而言是合理的,所以我会认为基于CLT的论点通常是[sic]足够了。
迪克兰有袋动物

53
这个答案似乎没有解决这个问题:它只是证明软件测试未达到其名义上的置信度,因此它确定了该测试中的缺陷(或至少在其R实施中)。但这就是全部,它与正常性测试的有用范围无关。最初的说法是,正态性检验总是拒绝大样本量,这是完全错误的。
Whuber

19
@whuber这个答案解决了这个问题。问题的重点是“接近正常”中的“接近”。SW测试从正态分布中抽取样本的机会是多少。由于我故意构建的发行版不正常,因此您期望SW测试执行其承诺的工作:拒绝null。整点是,这种拒绝在大样本中是没有意义的,因为偏离正常值不会导致功率损失。因此测试是正确的,但毫无意义,如QQplots所示
Joris Meys 2013年

11
我依赖于您写的内容,并且误解了“几乎是正常”分布的含义。我现在看到的-但仅仅通过阅读代码,并仔细地测试它-你是从三个标准正态分布的模拟与手段1 2的结果,于一组合2 2 1的比例。您难道不希望在这种情况下对正态性的良好测试会拒绝null吗?您已经有效地证明了QQ地块不是很好地检测这种混合物,仅此而已!0 1个2221个
Whuber

172

在考虑正常性测试是否“本质上是无用的”时,首先必须考虑它应该对什么有用。很多人(至少,很多科学家)误解了正态性检验所回答的问题。

正态性检验的问题答案:是否有令人信服的证据表明与高斯理想有任何偏离?对于较大的实际数据集,答案几乎总是肯定的。

科学家们通常希望正态性检验能回答这个问题:数据是否偏离高斯理想,从而“禁止”使用假设为高斯分布的检验?科学家通常希望由正态性检验作为决定何时放弃常规(ANOVA等)检验的裁判,而是分析转换后的数据或使用基于等级的非参数检验或重采样或自举方法。为此,正常性测试不是很有用。


16
+1是一个很好且内容丰富的答案。我发现看到一个常见的误解的很好的解释很有用(我偶然遇到的是:stats.stackexchange.com/questions/7022/…)。不过,我想念的是这种常见误解的替代解决方案。我的意思是,如果正态性检验是错误的方法,那么如何检查正态近似是否可接受/合理呢?
posdef,2011年

6
分析师(或研究人员/科学家)的(常识)感是不可替代的。和经验(通过尝试观察来学习:如果我认为这是正常的话,我将得出什么结论?如果不一样,会有什么不同?)。图形是您最好的朋友。
FairMiles 2013年

2
我喜欢这篇论文,它阐明了你的观点:Micceri,T.(1989)。独角兽,法线和其他不可思议的生物。心理公报,105(1),156-166。
杰里米·迈尔斯

4
查看图形很棒,但是如果要手动检查太多,该怎么办?我们可以制定合理的统计程序指出可能出现的问题点吗?我正在考虑类似A / B实验人员这样的情况:exp-platform.com/Pages/…
dfrankow 2014年

118

我认为正常性测试可以作为图形检查的辅助工具。但是,必须以正确的方式使用它们。在我看来,这意味着绝不应使用许多流行的测试,例如Shapiro-Wilk,Anderson-Darling和Jarque-Bera测试。

在解释我的观点之前,我先说几句话:

  • 在最近的一篇有趣的论文中, Rochon等人。研究了Shapiro-Wilk检验对两样本t检验的影响。在进行t检验之前,先进行两步检验正常性的过程并非没有问题。再一次,在执行t检验之前,图形化研究正态性的两步程序也没有。所不同的是,后者的影响更难以调查(因为这需要一个统计学家,以图形调查常态100000左右的时间......)。
  • 量化非正态性很有用,例如,即使您不想执行正式测试,也可以通过计算样本偏斜度来量化非正态性
  • 对于多元统计量而言,多元正态性可能难以通过图形进行评估,而渐近分布的收敛速度可能很慢。因此,在多变量设置中,正常性测试更为有用。
  • 对于使用统计学作为一组黑盒方法的从业人员,正常性检验可能特别有用。当拒绝正常性时,应该警告从业人员,而不是根据正常性假设执行标准程序,而应考虑使用非参数程序,进行转换或咨询经验更为丰富的统计学家。
  • 正如其他人所指出的,如果ñ足够大,则CLT通常可以节省一天。但是,对于不同类别的分布,“足够大”的含义有所不同。

(按照我的定义),如果正常性测试对一类替代品敏感,而该测试对该类中的替代品敏感,但对其他类中的替代品不敏感,则进行正常性测试。典型示例是针对偏斜峰度替代品的测试。最简单的示例将样本偏度和峰度用作测试统计量。

有针对性的定向检验通常可以说比综合检验(如Shapiro-Wilk和Jarque-Bera检验)更可取,因为通常仅某些类型的非正规性与特定推论程序有关

让我们以学生的t检验为例。假设我们有一个偏态分布γ = E X - μ 3的iid样本γ=E(Xμ)3σ3和(过量)峰度κ=E(Xμ)4σ43.如果X是围绕其平均值的,对称的γ=0。无论γκ是0为正态分布。

下规律性假设,我们得到以下的渐近展开的检验统计量的CDF Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

其中Φ()是cdf,而ϕ()是标准正态分布的pdf。

γ出现在第一次n1/2术语,而κ出现在n1个项。T n渐近性能对偏态形式的偏离正常性比峰度形式更敏感。Tn

可以使用仿真来验证,这对于小n也是如此。因此,Student的t检验对偏斜敏感,但对重尾比较稳健,因此在应用t检验之前,针对偏斜替代使用正态性检验是合理的

根据经验不是自然法则),对均值的推断对偏度敏感,而对方差的推断对峰度敏感。

使用针对正常性的定向测试的好处是,针对“危险”替代品可获得更高的功率,而针对“危险性”较小的替代品而言则具有更低的功率,这意味着我们不太可能拒绝正常现象,因为与正常情况背道而驰不会影响我们推理程序的性能。非正态性以与当前问题相关的方式量化。这在图形上并不总是那么容易。

随着n的增大,偏度和峰度变得越来越不重要-定向测试很可能会检测出这些量是否偏离0甚至很小。在这种情况下,例如,测试|γ|1或(在膨胀的第一项以上看)

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
,而不是是否γ=0。这可以解决我们在n变大时否则会面临的一些问题。


2
现在,这是一个很好的答案!
user603 2014年

10
是的,这应该是公认的,非常好的答案
jenesaisquoi 2014年

2
“通常,某些类型的非正态关系与特定推论过程有关。” -当然,然后应该使用针对这种非正常性的测试。但是,事实是使用正态性检验表明他在乎正态性的各个方面。问题是:在这种情况下,进行正常性测试是一个不错的选择。
rbm

对特定测试的假设进行充分测试变得普遍,这幸运地消除了一些猜测。
卡尔,

1
@Carl:您可以为此添加一些参考/示例吗?
kjetil b halvorsen

58

由于以下原因,恕我直言,正常性测试绝对没有用:

  1. 在小样本上,很有可能总体的真实分布基本上是非正态的,但是正态性检验并不能有效地将其吸收。

  2. 在大样本上,诸如T检验和ANOVA之类的东西对于非正态性非常稳健。

  3. 无论如何,正态分布总体的整体思想只是一个方便的数学近似。通常统计上处理的数量都不可能合理地具有所有实数支持的分布。例如,人的身高不能为负。负质量不能等于或大于宇宙中的质量。因此,可以肯定地说没有完全相同正态分布在现实世界中。


2
电位差是现实世界中可能为负的一个示例。
nico 2010年

16
@nico:当然可以为负,但是有一个有限的限制,因为宇宙中只有这么多的质子和电子。当然这在实践中是无关紧要的,但这就是我的观点。没有什么是完全正态分布的(模型是错误的),但是有很多东西足够接近(模型很有用)。基本上,您已经知道该模型是错误的,并且拒绝或不拒绝null基本上不会提供有关它是否仍然有用的信息。
dsimcha's

1
@dsimcha-我发现这是一个非常有见地,有用的回应。
rolando2

5
@ dsimcha,检验和方差分析对非正态性不强健。参见Rand Wilcox的论文。t
Frank Harrell

@dsimcha“模型错误”。不是所有模型都“错”了吗?
Atirag

30

我认为对正态性的预测试(包括使用图形的非正式评估)没有抓住重点。

  1. 使用此方法的用户假定正常性评估实际上具有接近1.0的功效。
  2. 如果保持正常,则诸如Wilcoxon,Spearman和Kruskal-Wallis之类的非参数检验的效率为0.95。
  3. 从2.的角度来看,如果有人甚至认为数据可能不是来自正态分布,就可以预先指定使用非参数检验。
  4. 有序累积概率模型(比例几率模型是此类的一员)概括了标准非参数检验。序数模型相对于是完全变换不变的,并且健壮,强大,并且可以估计Y的分位数和均值。ÿÿ

请注意,0.95的效率是渐近的:FWIW我想对于典型的有限样本量,效率要低得多((尽管我承认我还没有看过这项研究,也没有尝试过
亲自

16

在询问对正常性的测试或任何形式的粗略检查是否“有用”之前,您必须回答问题背后的问题:“为什么要问?”

例如,如果您只想对一组数据的平均值设置置信度限制,则偏离正态性可能很重要,也可能不重要,这取决于您拥有的数据量和偏离量有多大。但是,如果您要预测将来的观测值或从中采样的人口中最极端的价值,那么偏离正态性就很关键。


12

让我添加一件事:
在不考虑其alpha误差的情况下执行正常性测试会提高您执行alpha误差的总体可能性。

只要您不控制alpha误差累积,您就永远不会忘记每个附加测试都会这样做。因此,另一个驳回正常性测试的好理由。


我假设您是指一种情况,在这种情况下,首先进行正常性测试,然后使用该测试的结果来确定接下来要执行的测试。
Harvey Motulsky 2010年

3
当我将正常性测试用作确定是否适合使用某种方法的方法时,我将其称为通用工具。如果在这些情况下应用它们,就犯下alpha错误的可能性而言,最好执行更可靠的测试以避免alpha错误累积。
亨里克(Henrik)2010年

4
H0

3
正常性测试可能会增加I型错误的另一种方式是,如果我们谈论的是“执行alpha错误的总体可能性”。测试本身具有错误率,因此总的来说,我们犯错的可能性会增加。我想也要强调一件小事 ……
Nick Stauner 2013年

2
@NickStauner这正是我想要传达的。感谢您进一步阐明这一点。
亨里克

11

此处的答案已经解决了几个重要问题。快速总结:

  • 没有一致的测试可以确定一组数据是否真正遵循分布。
  • 测试不能替代以视觉方式检查数据和模型以识别高杠杆,高影响力的观察并评论其对模型的影响。
  • 许多回归例程的假设经常被错误引用为需要正态分布的“数据” [残差],而这由新手统计学家解释为要求分析师在进行分析之前正式从某种意义上评估这一点。

我首先添加一个答案,以引用我的一篇个人最常访问和阅读的统计文章:Lumley等人的“ 大型公共卫生数据集中的正态性假设的重要性 ”。等 值得全文阅读。摘要指出:

在足够大的样本中,t检验和最小二乘线性回归不需要任何正态分布假设。先前的模拟研究表明,“足够大”通常小于100,即使对于我们非常非正常的医疗费用数据,也小于500。这意味着在公共卫生研究中,样本通常大大大于此值, -test和线性模型是有用的默认工具,用于分析许多类型的数据中的差异和趋势,而不仅仅是具有正态分布的数据。对正态性进行正式的统计检验尤其不可取,因为它们在分布很重要的小样本中具有较低的功效,而在分布不重要的大型样本中具有较高的功效。

尽管线性回归的大样本属性已广为人知,但对正态性假设不重要所需的样本量的研究很少。特别是,尚不清楚所需样本量如何取决于模型中预测变量的数量。

对正态分布的关注可能会偏离这些方法的真实假设。线性回归的确假设结果变量的方差近似恒定,但是对这两种方法的主要限制是,它们假设足以检查结果变量平均值的变化。如果对分布的其他一些摘要更感兴趣,则t检验和线性回归可能不合适。

总结:与回答特定科学问题的重要性相反,通常不值得讨论或关注正常性。如果希望总结的意思是差异数据的,则可以从更广泛的意义上证明t检验和ANOVA或线性回归的合理性。即使未满足分配假设,基于这些模型的测试仍保持正确的alpha水平,尽管功率可能会受到不利影响。

正态分布之所以会受到关注的原因可能是出于经典原因,在这种情况下,可以获得基于ANOVA的F分布和T检验的Student-T分布的精确检验。事实是,在科学的许多现代进步中,我们通常处理比以前收集的数据集更大的数据集。如果实际上是在处理一个小的数据集,那么这些数据是正态分布的原理就不能来自这些数据本身:根本没有足够的能力。在我看来,对其他研究,复制甚至测量过程的生物学或科学进行评论,是讨论讨论观测数据基础的可能概率模型的一种更为合理的方法。

出于这个原因,选择基于等级的测试作为替代方案完全没有意义。但是,我将同意使用健壮的方差估计器(例如折刀或自举程序)提供了重要的计算替代方案,从而可以在各种更重要的违反模型规范的情况下进行测试,例如独立性或这些错误的相同分布。


10

曾经认为正常性测试完全没有用。

但是,现在我为其他研究人员提供咨询。通常,获取样本非常昂贵,因此,他们将要对n = 8进行推断。

在这种情况下,使用非参数检验很难找到统计显着性,但是n = 8的t检验对偏离正态性很敏感。因此,我们得到的是,我们可以说“嗯,在假设正态性的条件下,我们发现统计学上的显着差异”(不用担心,这些通常是试验研究……)。

然后,我们需要一些评估该假设的方法。我在训练营中途走了一半,看地块是更好的方法,但事实是,关于这点可能有很多分歧,如果与您意见不同的人之一是您稿件的审稿人。

从许多方面来看,我仍然认为正常性测试中存在很多缺陷:例如,我们应该比II型更多地考虑II型错误。但是需要它们。


请注意,这里的论据是测试仅在理论上是无用的。从理论上讲,我们始终可以获取所需的任意数量的样本...您仍然需要测试以证明您的数据至少在某种程度上接近正态性。
SmallChess

2
好点子。我认为您所暗示的乃至我所相信的是,偏离正态性的度量比假设检验更为重要。
悬崖AB 2015年

只要它们随后不切换到非参数测试并尝试解释p值(通过有条件的预测试使p值无效),也许还可以吗?
比约恩

2
正常检验的功效在n = 8时会非常低;尤其是,偏离正常状态将严重影响测试的性能,假定在小样本量下(无论是通过测试还是从视觉上)都很难检测到该测试的性能。
Glen_b

1
@Glen_b:我同意;我认为这种观点与关心II型错误而不是关心I型更符合。我的观点是,现实世界需要测试正常性。我们当前的工具是否真正满足了这一需求是一个不同的问题。
悬崖AB

10

值得的是,我曾经为截断的正态分布开发了一个快速采样器,并且正态性测试(KS)在调试功能时非常有用。该采样器以巨大的样本量通过了测试,但是有趣的是,GSL的之字形采样器没有通过。


8

您提出的论点是一种观点。我认为正常性测试的重要性在于确保数据不会严重偏离正常值。我有时会用它来决定在推理过程中使用参数测试还是非参数测试。我认为该测试对中型和大型样本(中央极限定理不起作用)很有用。我倾向于使用Wilk-Shapiro或Anderson-Darling测试,但是运行SAS可以使它们全部获得,并且他们通常都同意。另一方面,我认为诸如QQ绘图之类的图形化程序同样可以很好地工作。正式测试的优点是客观。在小样本中,这些拟合优度检验实际上没有任何功能,这是直觉的,因为来自正态分布的小样本可能偶然看起来是非正态的,这在测试中得到了说明。同样,在小样本中也不容易看到高偏斜度和峰度,它们将许多非正态分布与正态分布区分开。


2
尽管可以肯定地使用它,但我认为您不会比使用QQ图更客观。测试的主观部分是何时确定您的数据不正常。对于大样本,在p = 0.05处的拒绝率可能非常高。
Erik

4
预测试(如此处建议)可能会使整个过程的I类错误率无效;在解释选择的任何测试结果时,应考虑到已经进行了预测试的事实。更一般地,应该保留假设检验以测试一个人真正关心的零假设,即变量之间没有关联。数据完全为正态的零假设不属于此类别。
做客

1
(+1)这里有个很好的建议。埃里克(Erik),“目标”的使用也使我感到吃惊,直到我意识到迈克尔是对的:两个人在相同数据上正确地执行相同的测试将始终获得相同的p值,但他们可能以不同的方式解释相同的QQ图。来宾:感谢您提供有关Type I错误的警告提示。但是,为什么我们不关心数据分布呢?通常,这是有趣且有价值的信息。我至少想知道数据是否与我的测试对它们的假设一致!
ub

1
我非常不同意。两个人都得到相同的QQ图和相同的p值。要解释p值,您需要考虑样本量和测试特别敏感的违反正常性的情况。因此,决定如何处理您的p值同样是主观的。您之所以喜欢p值,是因为您认为数据可以遵循理想的正态分布-否则,p值随样本量下降的速度只是一个问题。而且,考虑到样本量不错的情况,QQ图看起来几乎相同,并且在有更多样本时保持稳定。
Erik

1
Erik,我同意测试结果和图形需要解释。但是测试结果是一个数字,因此不会有任何争议。但是,QQ图允许有多种描述。尽管每个对象在客观上都是正确的,但是选择要注意的内容是...的选择。这就是“主观”的意思:结果取决于分析人员,而不仅仅是过程本身。例如,这就是为什么在诸如控制图和政府法规等多种多样的设置中,“客观性”很重要的原因,标准基于数字测试,而不是图形结果。
ub

7

我认为最大熵方法可能在这里有用。我们可以指定正态分布,因为我们认为数据是“正态分布的”(无论这意味着什么),或者因为我们仅期望看到大约相同幅度的偏差。同样,由于正态分布只有两个足够的统计量,因此它对不会更改这些数量的数据更改不敏感。因此,从某种意义上讲,您可以将正态分布视为具有相同第一矩和第二矩的所有可能分布的“平均值”。这提供了为什么最小二乘应该也能工作的原因之一。


很好的概念桥梁。我也同意,在这种分布很重要的情况下,考虑数据的生成方式更具启发性。我们在混合模型拟合中应用了该原理。另一方面,浓度或比率总是偏斜的。我可以补充一点,“法线...对变化不敏感”是指形状/比例变化不变。
AdamO '18年

7

我不会说这是没有用的,但实际上取决于应用程序。注意,您永远不会真正知道数据的来源,而您所拥有的只是一小部分实现。您的样本均值在样本中始终是有限的,但对于某些类型的概率密度函数,均值可能是不确定的或无限的。让我们考虑Levy稳定分布的三种类型,即正态分布,Levy分布和Cauchy分布。您的大多数样本在尾部都没有太多观察结果(即远离样本均值)。因此从经验上很难区分这三个,因此柯西(具有不确定的均值)和利维(具有无限的均值)很容易伪装成正态分布。


1
“……从经验上讲,这很困难……”似乎在反对分布式测试,而不是针对分布式测试。在一段引言中暗示这确实存在分布测试的用法,这很奇怪。那你真的想在这里说什么吗?
ub

3
我反对,但我还想小心,不要仅仅说它没有用,因为我不知道所有可能的情况。有许多测试取决于正态性假设。说正常性测试是无用的,实际上是在颠覆所有此类统计测试,因为您说您不确定自己在使用/做正确的事情。在这种情况下,您不应该这样做,也不应该进行大量的统计。
kolonel 2014年

谢谢。与原始答案相比,该评论中的评论似乎更专注于该问题!您可能会考虑在某个时候更新您的答案,以使您的意见和建议更加明显。
ub

@whuber没问题。您可以推荐编辑吗?
kolonel 2014年

您可能会先合并答案和评论这两个帖子,然后再考虑剔除(或降级为附录或澄清)任何可能相切的材料。例如,对undefined的引用尚无明确的问题,因此仍然有些神秘。
ub

7

我认为前2个问题已得到彻底回答,但我认为第3个问题未得到解决。许多测试将经验分布与已知的假设分布进行比较。Kolmogorov-Smirnov试验的临界值基于完全指定的F。可以对其进行修改,以针对带有估计参数的参数分布进行测试。因此,如果模糊化意味着要估计两个以上的参数,那么问题的答案是肯定的。这些测试可以应用于3个或更多参数系列。某些测试旨在针对特定的发行版族进行测试时具有更好的性能。例如,当零假设分布为正态时,当测试正态性时,Anderson-Darling检验或Shapiro-Wilk检验比KS或卡方检验具有更大的功效。


5

我认为高p值支持对分析重要的“事物”的测试是错误的。正如其他人指出的那样,对于大型数据集,可以确保p值低于0.05。因此,测试本质上是针对小型模糊数据集的“奖励”,而对于缺乏证据的情况则是“奖励”。诸如qq图之类的东西更有用。对硬数字决定这样的事情的渴望总是(是/不是正常/不正常),错过了建模在某种程度上是一门艺术,而实际上是如何支持假设的。


2
仍然存在的是,一个接近正常的大样本的p值较低,而一个不接近正常的较小的样本通常不会具有p值。我认为较大的p值不是有用的。同样,他们会因缺乏证据而给予奖励。我可以有一个具有数百万个数据点的样本,并且在这些测试下几乎总是拒绝正态性假设,而较小的样本则不会。因此,我发现它们没有用。如果我的想法有缺陷,请在这一点上使用一些演绎性的推理来展示它。
wvguy8258 2014年

这根本无法回答问题。
SmallChess 2015年

-2

我认为没有提到的一种很好的使用正态性测试的方法是确定使用z分数是否可以。假设您从总体中选择了一个随机样本,并且希望找到从总体中选择一个随机个体并获得80或更高值的概率。仅当分布为正态时才能执行此操作,因为要使用z分数,假设人口分布为正态。

但是我想我也可以看到这是有争议的...


值什么?均值,总和,方差,个人观察?只有最后一个依赖于分布的假定正态性。
ub

我的意思是个人
Hotaka 2013年

2
谢谢。但是,您的答案仍然如此模糊,以至于很难说出您所指的是什么程序,也无法评估您的结论是否有效。
ub

2
这种用法的问题与其他用法相同:测试将取决于样本量,因此,它实际上是无用的。它不会告诉您是否可以使用z分数。
彼得·富勒姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.