正态分布的偏度和峰度值的范围


11

我想知道数据被认为是正态分布的偏度峰度的取值范围是多少。

我读了很多论据,而且大多数情况下我的回答很混乱。有人说偏度和峰度是正态分布的可接受范围。有人说的偏斜度是可以接受的范围。我在这里找到了详细的讨论:关于此问题的正常数据分布,偏度和峰度的可接受范围是多少?但是我找不到任何决定性的陈述。- 2 2 - 1.96 1.96 (1,1)(2,2)(1.96,1.96)

决定此间隔的依据是什么?这是一个主观选择吗?或在这些间隔后面有什么数学解释?


3
什么或谁定义“可接受的”?
Glen_b-恢复莫妮卡

这是个好问题。我对此没有明确的答案。
Dark_Knight

我的想法是否正确,是否隐含在您的问题后面是一种隐含的方法,大致如下:“在估算此模型/执行该测试之前,请检查样品的偏斜度和峰度。如果它们均在预定范围内,请使用一些正常的理论程序,否则使用其他方法。” ...?
Glen_b-恢复莫妮卡

如果是这样,您可能会使用这种带有正常假设的过程吗?您会检查哪些变量?如果您断定某些标准认为它们“不可接受”,您将使用哪些替代程序?
Glen_b-恢复莫妮卡

另外-这可能对上下文很重要,特别是在提供某些推理来选择某些范围的情况下-您能否包括可以引用的范围之类的引号(特别是在建议范围足够大的情况下)不同)?从这样的上下文中了解一件事很有用-他们在什么情况下使用这种东西?
Glen_b-恢复莫妮卡

Answers:


6

原始帖子遗漏了几个要点:(1)任何“数据”都不能正态分布。数据必定是离散的。一个有效的问题是,“生成数据的过程是否是正态分布的过程?” 但是(2)第二个问题的答案始终是“否”,而不管基于数据的任何统计检验或其他评估如何。正态分布的过程产生的数据具有无限的连续性,完美的对称性,并且在标准偏差范围内(例如68-95-99.7)精确地指定了概率,对于产生能够用任何方式测量的数据的过程,这些都不是完全正确的人类可以使用的测量设备。

因此,您永远不会将数据视为正态分布,也永远不会将产生数据的过程视为精确正态分布的过程。但是,正如Glen_b所指出的,这可能并不太重要,这取决于您要处理的数据是什么。

偏度和峰度统计信息可以帮助您评估某些与数据生成过程正常性的偏差。但是,它们是高度可变的统计信息。上面给出的标准错误是没有用的,因为它们仅在正常情况下才有效,这意味着它们仅用作正常情况的测试,这实际上是无用的练习。使用引导程序查找se会更好,尽管需要大量样本才能获得准确的se。

另外,与上述文章相反,峰度很容易解释。它是Z值的平均值(或期望值),每个取四次方。大| Z | 值是异常值,对峰度有很大影响。小| Z | 分布的“峰值”所在的Z值给出的Z ^ 4值很小,对峰度几乎没有任何贡献。我在我的文章https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/中证明,峰度非常接近Z ^ 4 * I(| Z |> 1)的平均值。因此,峰度度量了数据生成过程产生异常值的倾向。


为了清楚起见,“正态分布过程”到底是什么意思?我对随机变量的离散性和连续性说的是什么,但是可以使用中央极限定理进行正态分布的假设呢?
Dark_Knight

CLT在这里不相关-我们谈论的是产生单个数据值而不是平均值的分布。“正态分布过程”是产生正态分布随机变量的过程。一个完美的普通计算机随机数生成器将是一个示例(这种东西不存在,但是在我们使用的软件中它们确实不错。)
Peter Westfall

同样,由于没有可以分析的产生数据的过程是正常过程,因此,无论样本大小如何,任何此类过程所产生的平均值的分布也绝不是精确正态的。但是,是的,根据CLT,此类平均值的分布可能接近于正态分布。这种分布与正态分布的接近度取决于(i)样本大小和(ii)产生单个数据值的数据生成过程的非正态程度。
Peter Westfall

4
嗨,彼得(Peter)-您可以避免使用诸如“上述内容”之类的引用,因为排序顺序会发生变化。对于您来说,上面的内容可能不适合下一个人看。如果您的意思是gung的帖子或我的帖子(仍在编辑中,因为我正在研究多个方面),则只需按作者指定即可。
Glen_b-恢复莫妮卡

上面您似乎在断言,峰度越高意味着产生异常值的趋势越大。除非您自动地定义离群值(即使要求成立),否则在一般情况下这不是正确的陈述。例如,构造成对的分布比较容易,其中尾巴较重的分布具有较低的峰度。
Glen_b-恢复莫妮卡

5

您似乎在这里要问的是从正常人群中抽取的样本的偏度和峰度的标准误差。请注意,有多种估算偏斜胖尾(峰度)之类的方法的方法,这些方法显然会影响标准误差。人们认为最常见的度量标准在技术上被称为第三和第四标准矩。

值得考虑这些指标的一些复杂性。典型的偏斜度统计数据并不能像人们怀疑的那样衡量对称性(参见此处)。峰度会更加复杂。它的范围可能为,其中正态分布的峰度为。结果,人们通常使用“过量峰度”,即。然后范围是。但是,实际上,峰度从下方受,从上方受样本量的函数限制(约)。此外,当不存在偏斜时,峰度更难解释[1,)3kurtosis3[2,)skewness2+124/N0。这些事实使人们难以使用。

对于它的价值,标准错误是:

SE(skewness)=6N(N1)(N2)(N+1)(N+3)SE(kurtosis)=2×SE(skewness)N21(N3)(N+5)

除了我们是否可以将样本的偏度和峰度与正常人群的预期值区分开之外,还可以问与的偏差有多大。我听说过的经验法则(对于它们的价值)通常是: 0

  • <|.5|
  • [|.5|,|1|)
  • |1|

这里可以找到有关偏斜度和峰度的良好介绍。


3

[在接下来的工作中,我假设您提出的建议是“检查样品偏斜度和峰度,如果它们都在预定范围内,则使用正常的理论程序,否则使用其他方法”。]

这涉及很多方面,其中我们只有一点地方可以考虑。我将从列出我认为重要的问题开始,然后再着手使用这样的标准。稍后,我将尝试返回并为每个项目写一些内容:

要考虑的问题

  1. 各种非正态性对我们正在做的事情有多严重?

  2. 使用样本偏度和峰度的范围来找出这些偏差有多难?

    我在提案中同意的一件事-它着眼于与效应大小(偏离正常程度有多大)而不是意义有关的一对度量。从这个意义上讲,它会更接近于解决形式假设检验将有用的问题,这将倾向于拒绝大样本量的甚至微不足道的偏差,同时提供无法拒绝更大(且更具影响力)偏差的错误安慰。小样本量。(假设检验在这里解决了错误的问题。)

    当然,在小样本量的情况下,从测量值的“噪音”来看,仍然是有问题的,因此我们仍然可以误入歧途(置信区间将帮助我们了解实际情况有多糟)。

    它并没有告诉我们偏斜或峰度的偏差与我们想要的正态性相关的问题如何相关,而且不同的过程对非正态性的响应可能会完全不同。

    如果我们偏离正常状态的偏斜和峰度将是盲目的,那对我们没有帮助。

  3. 如果您将这些样本统计信息用作在两个过程之间做出决定的基础,那么对结果推断的属性有什么影响(例如,对于假设检验而言,您的显着性水平和功效看起来如何?)

  4. 有无数个分布具有与正态分布完全相同的偏度和峰度,但显然是非正态的。他们甚至不需要对称!此类事物的存在如何影响此类程序的使用?企业从一开始就注定要失败吗?

  5. 从正态分布抽取的样本中,您可以看到样本偏斜度和峰度有多少变化?(根据规则,我们最终会丢弃多少比例的正常样本?)

    [这个问题部分与龚在其回答中讨论的内容有关。]

  6. 也许还有更好的事情要做吗?

最后,如果在考虑了所有这些问题之后,我们决定我们应该继续使用这种方法,那么我们会得出您的问题所引起的考虑:

  1. 对于各种程序,偏度和峰度有什么好的界限?在哪些程序中我们需要担心哪些变量?

    (例如,如果要进行回归,请注意,以这种方式处理任何IV甚至原始DV是不正确的-假定这些都不是从共同的正态分布中得出的)


我会回来并添加一些想法,但是与此同时您提出的任何评论/问题都可能有用。


实际上,我在考试中有一个问题,要求给出给定的偏度和峰度值,关于分布的正态性可以说什么?我不确定基于这两个数字得出任何结论是否是一个好主意,因为我已经看到几种情况,其中偏度和峰度值大约在左右,但分布仍然与正常情况有所不同。0
Dark_Knight

而且我也不明白为什么我们需要任何特定范围的偏度和峰度值来执行任何正态性检验?
Dark_Knight
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.