我想知道数据被认为是正态分布的偏度和峰度的取值范围是多少。
我读了很多论据,而且大多数情况下我的回答很混乱。有人说偏度和峰度是正态分布的可接受范围。有人说的偏斜度是可以接受的范围。我在这里找到了详细的讨论:关于此问题的正常数据分布,偏度和峰度的可接受范围是多少?但是我找不到任何决定性的陈述。(- 2 ,2 )(- 1.96 ,1.96 )
决定此间隔的依据是什么?这是一个主观选择吗?或在这些间隔后面有什么数学解释?
我想知道数据被认为是正态分布的偏度和峰度的取值范围是多少。
我读了很多论据,而且大多数情况下我的回答很混乱。有人说偏度和峰度是正态分布的可接受范围。有人说的偏斜度是可以接受的范围。我在这里找到了详细的讨论:关于此问题的正常数据分布,偏度和峰度的可接受范围是多少?但是我找不到任何决定性的陈述。(- 2 ,2 )(- 1.96 ,1.96 )
决定此间隔的依据是什么?这是一个主观选择吗?或在这些间隔后面有什么数学解释?
Answers:
原始帖子遗漏了几个要点:(1)任何“数据”都不能正态分布。数据必定是离散的。一个有效的问题是,“生成数据的过程是否是正态分布的过程?” 但是(2)第二个问题的答案始终是“否”,而不管基于数据的任何统计检验或其他评估如何。正态分布的过程产生的数据具有无限的连续性,完美的对称性,并且在标准偏差范围内(例如68-95-99.7)精确地指定了概率,对于产生能够用任何方式测量的数据的过程,这些都不是完全正确的人类可以使用的测量设备。
因此,您永远不会将数据视为正态分布,也永远不会将产生数据的过程视为精确正态分布的过程。但是,正如Glen_b所指出的,这可能并不太重要,这取决于您要处理的数据是什么。
偏度和峰度统计信息可以帮助您评估某些与数据生成过程正常性的偏差。但是,它们是高度可变的统计信息。上面给出的标准错误是没有用的,因为它们仅在正常情况下才有效,这意味着它们仅用作正常情况的测试,这实际上是无用的练习。使用引导程序查找se会更好,尽管需要大量样本才能获得准确的se。
另外,与上述文章相反,峰度很容易解释。它是Z值的平均值(或期望值),每个取四次方。大| Z | 值是异常值,对峰度有很大影响。小| Z | 分布的“峰值”所在的Z值给出的Z ^ 4值很小,对峰度几乎没有任何贡献。我在我的文章https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/中证明,峰度非常接近Z ^ 4 * I(| Z |> 1)的平均值。因此,峰度度量了数据生成过程产生异常值的倾向。
您似乎在这里要问的是从正常人群中抽取的样本的偏度和峰度的标准误差。请注意,有多种估算偏斜或胖尾(峰度)之类的方法的方法,这些方法显然会影响标准误差。人们认为最常见的度量标准在技术上被称为第三和第四标准矩。
值得考虑这些指标的一些复杂性。典型的偏斜度统计数据并不能像人们怀疑的那样衡量对称性(参见此处)。峰度会更加复杂。它的范围可能为,其中正态分布的峰度为。结果,人们通常使用“过量峰度”,即。然后范围是。但是,实际上,峰度从下方受,从上方受样本量的函数限制(约)。此外,当不存在偏斜时,峰度更难解释。这些事实使人们难以使用。
对于它的价值,标准错误是:
除了我们是否可以将样本的偏度和峰度与正常人群的预期值区分开之外,还可以问与的偏差有多大。我听说过的经验法则(对于它们的价值)通常是:
在这里可以找到有关偏斜度和峰度的良好介绍。
[在接下来的工作中,我假设您提出的建议是“检查样品偏斜度和峰度,如果它们都在预定范围内,则使用正常的理论程序,否则使用其他方法”。]
这涉及很多方面,其中我们只有一点地方可以考虑。我将从列出我认为重要的问题开始,然后再着手使用这样的标准。稍后,我将尝试返回并为每个项目写一些内容:
要考虑的问题
各种非正态性对我们正在做的事情有多严重?
使用样本偏度和峰度的范围来找出这些偏差有多难?
我在提案中同意的一件事-它着眼于与效应大小(偏离正常程度有多大)而不是意义有关的一对度量。从这个意义上讲,它会更接近于解决形式假设检验将有用的问题,这将倾向于拒绝大样本量的甚至微不足道的偏差,同时提供无法拒绝更大(且更具影响力)偏差的错误安慰。小样本量。(假设检验在这里解决了错误的问题。)
当然,在小样本量的情况下,从测量值的“噪音”来看,仍然是有问题的,因此我们仍然可以误入歧途(置信区间将帮助我们了解实际情况有多糟)。
它并没有告诉我们偏斜或峰度的偏差与我们想要的正态性相关的问题如何相关,而且不同的过程对非正态性的响应可能会完全不同。
如果我们偏离正常状态的偏斜和峰度将是盲目的,那对我们没有帮助。
如果您将这些样本统计信息用作在两个过程之间做出决定的基础,那么对结果推断的属性有什么影响(例如,对于假设检验而言,您的显着性水平和功效看起来如何?)
有无数个分布具有与正态分布完全相同的偏度和峰度,但显然是非正态的。他们甚至不需要对称!此类事物的存在如何影响此类程序的使用?企业从一开始就注定要失败吗?
从正态分布抽取的样本中,您可以看到样本偏斜度和峰度有多少变化?(根据规则,我们最终会丢弃多少比例的正常样本?)
[这个问题部分与龚在其回答中讨论的内容有关。]
也许还有更好的事情要做吗?
最后,如果在考虑了所有这些问题之后,我们决定我们应该继续使用这种方法,那么我们会得出您的问题所引起的考虑:
对于各种程序,偏度和峰度有什么好的界限?在哪些程序中我们需要担心哪些变量?
(例如,如果要进行回归,请注意,以这种方式处理任何IV甚至原始DV是不正确的-假定这些都不是从共同的正态分布中得出的)
我会回来并添加一些想法,但是与此同时您提出的任何评论/问题都可能有用。