我们应该在应用统计学课程中教授峰度吗?如果是这样,怎么办?


17

至少在直观的基础上,可以相对较好地定义中心趋势,散布和偏斜;这些事物的标准数学度量也相对符合我们的直觉概念。但是峰度似乎有所不同。这非常令人困惑,并且与关于分布形状的任何直觉都不太匹配。

应用环境中峰度的典型解释是使用Microsoft Excel [ 1 ]商业和管理应用统计中摘录的内容:[1]

峰度是指分布的峰值程度或相反的平坦度。如果尾部的数据值多于正态分布的期望值,则峰度为正。相反,如果尾部的数据值少于正态分布中的预期,则峰度为负。除非您至少有四个数据值,否则Excel无法计算此统计信息。

除了“峰度”和“峰度过高”(在本书中,通常使用前者指其他作者称为后者)之间的混淆之外,还用“峰度”或“平坦度”来解释。然后将注意力转移到尾部有多少个数据项上。同时考虑“峰”和“尾”是必要的— Kaplansky [ 2 ][2]1945年抱怨说,当时的许多教科书错误地指出峰度与分配峰相比正常分布峰有多高有关,而没有考虑尾部。但是显然必须同时考虑峰的顶部和尾部的形状,这使得直觉更难掌握,上面引述的摘录通过将尾部的峰度和重度相提并论,好像这些概念相同,从而跳过了这一点。

此外,对峰度的这种经典的“峰尾”解释仅适用于对称和单峰分布(实际上,该文本中所示的示例都是对称的)。然而,解释峰度的“正确”通用方法,无论是用“峰”,“尾巴”还是“肩”,都已经争议了数十年[ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ][2][3][4][5][6]

是否有一种直观的方法来在应用的环境中教授峰度,当采用更严格的方法时不会出现矛盾或反例?在这类应用数据分析课程中,峰度甚至在数学统计课中都什至是一个有用的概念吗?如果分布的“峰值”是一个直观上有用的概念,我们是否应该通过L矩[ 7 ]来教授它?[7]

[1] Herkenhoff,L.和Fogli,J.(2013)。使用Microsoft Excel进行业务和管理的应用统计。纽约,纽约:施普林格。

[2]卡普兰斯基,I。(1945)。“有关峰度的常见错误”。 美国统计协会杂志40(230):259。

[3]达林顿,理查德·B(1970)。“峰变真的是'峰顶'吗?”。美国统计学家 24(2):19-22

[4]摩尔,JJA。(1986)“峰度的含义:达林顿重新审查”。美国统计学家 40(4):283–284

[5] Balanda,Kevin P.和MacGillivray,HL(1988年)。“ 峰度:评论综述”。美国统计学家 42(2):111–119

[6] DeCarlo,LT(1997)。“ 关于峰度的含义和使用 ”。心理方法2(3),292。芝加哥

[7] Hosking,JRM(1992)。“矩还是L矩?比较两个分布形状量度的示例”。美国统计学家46(3):186–189


2
您通常的课程是什么意思?即什么水平的教育。
Gumeo

5
您究竟在教什么有关峰度的知识?这个问题是非常模糊的。请立即填写它如何适合您的课程,也许您所同意的标准措施中的一些直观示例与峰度相矛盾。
约翰·

3
在这方面,我认为峰度的矩量度实际上与矩偏度没有太大不同。在这两种情况下,它们都不能真正反映人们的想法,而且都比人们讲述自己的故事缺乏直觉。对于我关于峰度的每个令人惊讶的反例,我都有关于偏度的另一个反例。我不会删除它们中的任何一个,但是我会减少对瞬时量度的重视,稍后将其移动并更改其教学方式,以使我们不会混淆不同的概念并且我们不会提出不成立的主张。
Glen_b-恢复莫妮卡2015年

3
较高的偏斜并不意味着偏斜方向上的尾巴较重。零偏度并不意味着对称(所有奇数时刻零甚至都不意味着对称)。对称甚至不意味着零偏度。还剩下什么直觉?
Glen_b-恢复莫妮卡

3
是一些讨论的另一个答案,其中包含一些有趣的示例。还有其他一些,但我现在看不到。Whuber的一些帖子也很有用。
Glen_b-恢复莫妮卡

Answers:


18

峰度确实非常简单……而且很有用。它只是对异常值或尾数的度量。它与峰值无关,必须放弃定义。

这是一个数据集:
0、3、4、1、2、3、0、2、1、3、2、0、2、2、3、2、5、2、3、999

请注意,“ 999”是一个异常值。

以下是数据集中的值:z4

0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、360.98

请注意,只有异常值给出的与0明显不同。z4

这些值的平均值是经验分布的峰度(如果愿意,可以减去3,对于我要说的点都没有关系):18.05z4

从该计算中应该明显看出,“峰值”附近的数据(非异常数据)几乎对峰度统计没有任何贡献。

峰度可用于衡量异常值。离群值对小学生很重要,因此应该教授峰度。但是峰度实际上与峰无关,无论是尖峰,平坦,双峰还是无限峰。您可以同时拥有上述所有峰度和小峰度。因此,永远不要将其表示为与峰有关,因为那将教导错误的信息。这也使材料变得不必要的混乱,并且似乎不太有用。

摘要:

  1. 峰度可用作测量尾巴(异常值)的方法。
  2. 峰度与峰值无关。
  3. 峰度实际上是有用的,应该加以教导,但只能作为离群值的度量。教峰度时不要提及峰值。

本文清楚地解释了为什么“峰值”定义现在正式失效。

Westfall,PH(2014)。“ 峰顶峰顶,1905-2014年。RIP”,美国统计学家》,第68卷第 3期,第191-195页。


4
欢迎来到简历,希望您继续努力,并在将来做出更多贡献!我已经对您的帖子进行了编辑,以包括指向该论文的链接,并重新格式化了一些数学符号,希望您不要介意。(通过将数学的$例如$z^4$有可能使用。)LATEX
Silverfish

6

虽然这个问题有些含糊,但很有趣。峰度学到什么水平?我记得在线性模型的(硕士)课程中(很久以前,根据Seber著作的第一版)曾提到过它。这不是一个重要的主题,但它涉及的主题包括研究方差相等的似然比检验(F-test)的(缺乏)稳健性,其中(从记忆中)正确水平的渐近取决于与峰度相同的峰度。正态分布,这太过分了!我们看过 Oja撰写的一篇论文(但我从未详细阅读过)http://www.jstor.org/stable/4615828?seq=1#page_scan_tab_contents,该论文试图找出偏斜,峰度和此类措施的真正含义。

为什么我觉得这很有趣?因为我在拉丁美洲任教,所以偏度和峰度似乎是许多重要的话题,并且试图告诉研究生(许多来自经济领域),峰度是分布形式的不良衡量标准(主要是因为四次方的采样变异性就很大),这很困难。我试图让他们改用QQplots。因此,对某些评论者来说,是的,这是在某些地方,甚至很多地方都可以教的!

顺便说一句,这不仅是我的观点。以下博客文章https://www.spcforexcel.com/knowledge/basic-statistics/are-skewness-and-kurtosis-useful-statistics 包含以下引用(归功于Wheeler博士):

简而言之,偏度和峰度几乎毫无价值。舒华特在他的第一本书中就做了这个观察。偏度和峰度的统计数据仅能提供除位置和分散度测量值已提供的信息以外的任何有用信息。

我们应该教更好的技术来研究分布形式!例如QQplots(或相对分布图)。而且,如果仍然有人需要数字量度,则基于L矩的量度会更好。我将引用JRM Hosking的论文《 JR Statist Soc B(1990)52,第1期,第105--124页》中的一篇文章:“ L-矩:使用订单统计的线性组合进行分布的分析和估计”,第109页:

λ1λ2μ(F)12σ1(F)τ3τ4

(目前,我参考了这些度量的定义,它们都是基于L矩的。)有趣的是,基于第四矩的传统峰度度量不是峰度度量在Oja的意义上!(我将在找到该主张的参考文献中对其进行编辑)。


1
使用图形和其他技术来理解分布特性没有问题,但是“偏度和峰度实际上是毫无价值的”这一说法是夸张的。两者对各种统计推断都有很大的影响。
Peter Westfall

@Peter在该声明中可能表示“经验峰度”。
kjetil b halvorsen

1
即使这样,经验峰度仍会告诉您数据中何时存在异常问题。因此,我仍然认为“偏度和峰度几乎毫无价值”的评论是夸张的。当然,它们可能不是“人口”参数的理想估计,尤其是在样本量较小的情况下,但是“实际上一文不值”是一个难题。即使它们不能很好地估计总体参数,它们仍然可以提供有关现有数据集的有用的描述性信息。当然,应该通过图形视图(如qq图)补充信息。
Peter Westfall

@Peter Westfall:真正的问题是,如果经验峰度是检测异常问题的最佳方法,还是有更好的方法?
kjetil b halvorsen

经验峰度衡量的是数据集的异常值,而不是单个异常值。我不会说峰度= 3(像正常值)表示“没有异常值”,但是我想说的是,这种情况表示异常值(按平均z值衡量,每个值取第四位)功率)与正态分布的功率相似。另一方面,巨大的峰度无疑表明存在异常问题。是的,正常的qq图对于更精确的诊断更好。顺便说一句,正常的qq图和峰度过高与数学关系密切。
彼得·韦斯特伦

3

我认为,偏度系数对激励这些术语很有用:正偏和负偏。但是,如果您的目标是评估正常性,那就是停止的地方。偏度和峰度的经典度量通常无法捕获偏离正态性的各种类型的偏差。我通常向我的学生提倡使用图形技术来评估正态性是否合理,例如qq图或正态概率图。对于足够大小的样本,也可以使用直方图。箱线图还可用于识别异常值,甚至是粗尾。

这符合APA 1999年工作队的建议:

假设。 您应该努力确保在给定数据的情况下分析所需的基本假设是合理的。仔细检查残留物。不要使用分布测试和形状的统计指标(例如,偏度,峰度)来代替以图形方式检查残差。使用统计测试来诊断模型拟合中的问题有几个缺点。首先,基于汇总统计数据的诊断意义测试(例如方差同质性测试)通常不切实际。我们对模型的统计检验通常比假设的统计检验更可靠。其次,诸如偏度和峰度之类的统计数据通常无法检测出残差中的分布不规则性。第三,统计检验取决于样本量,并且随着样本量的增加,测试通常会拒绝无害的假设。通常,没有什么可以替代假设的图形分析。

参考:L。Wilkinson和统计推断工作组。(1999)。心理学期刊中的统计方法:指南和解释。美国心理学家,54,594-604。


1

根据课程的应用方式,可能会出现估计准确性的问题。方差估计的准确性很大程度上取决于峰度。发生这种情况的原因是,在峰度较高的情况下,该分布允许提供罕见的,极端的,潜在的可观察数据。因此,数据生成过程将在某些样本中产生极高的值,而在其他样本中则不会产生极高的值。在前一种情况下,您将获得非常大的方差估计,而在后一种情况下,您将获得小的方差估计。

如果消除了过时和错误的“言语”解释,而将注意力完全集中在离群值(即稀有,极端可观察到)上,那么在入门课程中讲峰度将更容易。但是,人们在试图证明“口头表达”时陷入困境,因为在他们的教科书中(错误地)用这种方式陈述了“口头表达”,他们错过了峰度的实际应用。这些应用程序大多与离群值有关,当然离群值在应用统计课程中很重要。


1
您与本主题中最受好评的答案的作者一样是Peter Westfall吗?如果是这样,您可以将个人资料合并在一起,然后直接编辑您的旧答案,而不是发布另一个答案。
变形虫说莫妮卡

1
是的,很抱歉错过网络礼仪。
Peter Westfall

-1

库尔特[X]=Ë[X-μσ4]=μ4σ4=Ë[X-μ4]Ë[X-μ2]2

您可以将期望运算符替换为基于和的估计量 1个ñ一世=1个ñ, 当然。它有助于讨论的度量单位μσ2μ4,并说明为什么要用方差的平方来缩放第四矩,以使峰度成为无量纲的度量,即形状参数。所以,我们现在有位置μ,比例 σ2 and any number of parameters to describe the shape such as skew and kurtosis. I'd always start with equations. Supposedly easy to understand explanations in plain English only make everything more confusing. Verbosity clarity.


1
The problem is that, once you get the kurtosis, it's very unintuitive what (if anything) it means. It doesn't match up with useful qualities of the distribution.
Peter Flom - Reinstate Monica

是的,峰度确实与分布的非常有用的质量相匹配-它是衡量体重(离群值)的指标。支持数学定理,没有反例:(i)峰度在E(Z ^ 4 * I(| Z |> 1))和E(Z ^ 4 * I(| Z |> 1))+ 1之间,对于所有具有有限第四矩的分布。(ii)对于连续分布的子类,其中Z ^ 2的密度在(0,1)上减小,峰度在E(Z ^ 4 * I(| Z |> 1))和E(Z ^ 4 * I(| Z |> 1))+ .5,以及(iii)对于峰度趋于无穷大的任何分布序列,E(Z ^ 4 * I(| Z |> b))/峰度-> 1对于每一个真实的b。
Peter Westfall
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.