峰度定义上的差异及其解释


10

我最近意识到,SPSS和Stata提供的峰度值存在差异。

参见http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm

我的理解是,对相同的解释将因此有所不同。

有关如何处理此问题的任何建议?


我知道前两个公式,区分它们很容易。我没有看过第三个公式。
彼得·弗洛姆

Answers:


9

三个公式

不同程序通常使用三种峰度公式。我将陈述所有三个公式(,和)以及使用它们的程序。 G 2 b 2g2G2b2

第一公式,在许多教科书中所使用的典型的定义是(这是在该链路的第二个公式您所提供) ,其中表示样本矩 mr

g2=m4m22
mr

mr=1n(xix¯)r

有时,此公式中添加了-3的校正项,因此正态分布的峰度为0。具有-3项的峰度公式称为多余峰度(您提供的链接中的第一个公式)。

所述第二公式是(使用SAS,SPSS和MS Excel;这是在该链路的第三式您所提供)

G2=k4k22=n1(n2)(n3)[(n+1)g2+6]

其中是第一个公式中定义的峰度。g2

第三公式是(使用MINITAB和BMDP)

b2=m4s43=(n1n)2m4m223

其中是无偏样本方差s2

s2=1n1(xix¯)2

R峰度中,可以使用包中的kurtosis函数来计算e1071(链接此处)。该选项type确定三个公式中的哪一个用于计算(1 = =,3 =)。G 2 b 2g23G2b2

这两篇论文讨论并比较了所有三个公式:第一第二

公式之间的差异摘要

  1. 使用,正态分布的峰度值为3,而在涉及校正项-3的公式(即和)中,正态分布的峰度为0。 G 2 b 2g2G2b2
  2. G 2 EG 2= 0G2产生正常样本的无偏估计唯一公式(即,正常情况下的期望为零,或)。G2E(G2)=0
  3. 对于大样本,公式之间的差异可以忽略不计,选择的关系不大。
  4. 对于来自正态分布的小样本,这三个公式的均方差(MSE)关系为:。因此具有最小的值,而具有最大的值(尽管只有是无偏的)。这是因为在以下三个公式中具有最大的方差:。g 2 G 2 G 2 G 2 Var b 2< Var g 2< Var G 2mse(g2)<mse(b2)<mse(G2)g2G2G2G2Var(b2)<Var(g2)<Var(G2)
  5. 对于来自非正态分布的小样本,这三个公式的偏差关系为:。就均方误差而言:。因此,在这三个公式中具有最小的均方误差和最小的偏差。具有最大的均方误差和偏差。mse G 2< mse g 2< mse b 2G 2 b 2bias(G2)<bias(g2)<bias(b2)mse(G2)<mse(g2)<mse(b2)G2b2
  6. 对于来自非正态分布的大样本()n>200,这三个公式的偏差关系为:。用均方误差表示:。msebias(G2)<bias(g2)<bias(b2)mse(b2)<mse(g2)<mse(G2)

另请参阅有关峰度的Wikipedia页面MathWorld页面


我称其为“通常的故事”的一种很好的,清晰的解释。我要补充一点,术语Leptokurtic,Mesokurtic,platykurtic只是我们在20世纪应该抛弃的行李:我们有一项措施,应该对此进行定量考虑。更严重的是,对峰顶的解释与对峰顶的解释恰恰不能说明可能的分布形状的巨大变化,即使是对称的分布也是如此。最后,除非您使用的样本太小,否则实践中的偏差不会太大,但差异确实会很大!
Nick Cox 2013年

您能否说明摘要项目2?显然,是样本统计量,但对于简并分布,显然它不是完全相同的零。也许您是说它的期望为零?(顺便说一句,公式中的“ ” 是什么? 可能是?)γ 2 2G2γ2g2
whuber

@whuber:是的,当然,对的期望为零。所述是从较早的答案孑遗和应(现改为); 我已经对答案做了相当多的编辑。γ 2 2G2γ2g2
COOLSerdash

好,看起来更好 我会投票赞成,但希望您最终删除该短语“对于正态分布。G2=0
ub

7

有问题的链接也谈到了SAS。但是实际上,除了发布者自己的关注之外,此问题中没有任何内容将其限制于那些特定的命名程序。

我认为我们需要在这里区分出完全不同的问题,其中有些是虚幻的,有些是真实的。

  1. 有些程序可以,而有些则不,可以减去3,这样报告的峰度测度对于不带减法的高斯/正态变量为3,带减法为0。我看到人们对此感到困惑,通常当差异被证明是2.999而不是精确的3时。

  2. 一些程序使用校正因子来确保估计峰度而没有偏差。随着样本大小变大,这些校正因子接近1 。由于在任何小样本中都不能很好地估计峰度,因此这应该不是太大的问题。n

因此,存在一个小的公式问题,#1比#2大得多,但如果理解的话,两者都是次要的。显然,建议是查看正在使用的程序的文档,如果没有文档说明那种细节,请立即放弃该程序。但是,仅凭一个变量(1、2)就简单的测试用例会产生1或4的峰度,这仅取决于#1(无校正因子)。

然后,该问题询问有关解释的问题,但这是一个更加开放和有争议的问题。

在我们进入讨论的主要领域之前,一个经常被报道但鲜为人知的困难是峰度估计值受限于样本量的函数。我在2010年新泽西州考克斯(Cox)撰写了一篇评论。样品偏斜度和峰度的限制。Stata Journal 10(3):482-495。http://www.stata-journal.com/article.html?article=st0204

摘要:样本偏斜和峰度受样本量函数的限制。在过去的几十年中,已经反复发现了极限值或近似值,但似乎仍然鲜为人知。这些限制会给估计带来偏差,在极端情况下,这意味着没有任何样本可以对其父级分布进行准确的见证。教程审查中对主要结果进行了解释,并说明了如何使用Stata和Mata来确认和探索其后果。

现在到通常被认为是小问题的地方:

许多人将峰度视为峰度,但其他人则强调峰度通常可以衡量尾巴重量。实际上,对于某些分布,这两种解释都可能是合理的措词。几乎不可能避免对峰度的简单口头解释:我们的语言在比较偏离均值的四次幂的和与相同次幂的和时的能力不足。

欧文·卡普兰斯基(Irving Kaplansky,1945a)在一个较小且经常被忽略的经典中,提请注意四个示例,这些示例具有不同的峰度值和行为,而与峰度的某些讨论不一致。

对于变量和,所有分布都是对称的,均值为0,方差为1,并且具有密度函数。Ç = xc=π

(1)   (1/3c)(9/4+x4)exp(x2)

(2)   (3/(c8))exp(x2/2)(1/6c)(9/4+x4)exp(x2)

(3)   (1/6c)(exp(x2/4)+4exp(x2))

(4)   (33/16c)(2+x2)exp(3x2/4)

峰度(不减去)为(1)2.75(2)3.125(3)4.5(4)8/3 2.667:比较高斯或正常值3.平均密度为(1)0.423(2 )0.387(3)0.470(4)0.366:比较高斯值0.399。

绘制这些密度很有帮助。Stata用户可以kaplansky从SSC 下载我的程序。为密度使用对数刻度可能会有所帮助。

这些示例在没有给出全部细节的情况下,破坏了任何简单的故事,即峰度低或高对峰度或其他任何单一对比都有清晰的解释。

如果说欧文·卡普兰斯基(Irving Kaplansky)这个名字,可能是因为您知道他在现代代数中的工作。他(1917年至2006年)是加拿大(拉丁美洲)数学家,在哈佛,芝加哥和伯克利大学任教和研究,战时在哥伦比亚大学国防委员会应用数学小组任教。卡普兰斯基对群​​论,环论,算子代数论和场论做出了重要贡献。他是一位出色的钢琴家和作词家,并且是数学的热情而清醒的解释者。还要注意卡普兰斯基(1943,1945b)以及卡普兰斯基和里奥丹(1945)对概率和统计的其他贡献。

卡普兰斯基(Kaplansky),I.,1943年。正态分布的特征。 数学统计年鉴 14:197-198。

卡普兰斯基(I. 1945a)。有关峰度的常见错误。 杂志,美国统计协会仅40:259。

卡普兰斯基(I. 1945b)。连续元素游程的渐近分布。 数学统计年鉴 16:200-203。

卡普兰斯基(Kaplansky,I.)和里奥丹(Riordan,J. 1945)。多重匹配,并通过符号方法运行。数学统计年鉴 16:272-277。


1
+1关于Kaplansky的有趣评论,我一直很熟悉他的代数工作。
ub

尼克,您的评论“实际上,对于某些分布,两种解释(有声和无尾)可能都是合理的措辞。” 是不正确的,因此无济于事,仅因为峰度告诉您有关“言语”的任何信息。认真地说,您甚至可以定义 “口头表达”的含义吗?而且,如果我可以的话,请采取以下跟进措施:鉴于您对“峰值”的定义(假设您可以提出),它在数学上与峰度有何关系?
Peter Westfall

@Peter西部荒野如果我们能同意,峰度是什么峰度的措施,那么我的观点就是Kaplansky的说法,这是基于具体的曲线和数值结果,而不是口头争吵,即较高的峰度有时具有更高的峰值密度变,反之为下峰度。我完全不喜欢峰度这个词,当不得不简化口头表达时,倾向于断言在实践中峰度主要是尾巴重量的故事。我认为这里的公式可以完成所有工作并承担所有统计权重,并且发现口头辩论没有太大帮助。
尼克·考克斯

另外,我建议,除了完全对称的分布以外,没有任何简单的峰度特征。我认为根本没有人要定义峰值。存在的定义是峰度,而实际的问题是如何考虑峰度以及它的作用范围。
尼克·考克斯

陈述“仅因为峰度不会告诉您有关峰度的任何信息”,其本身没有根据。缺少参考文献肯定会在TAS中包含您的论文,有兴趣的人可以考虑您进行更长的讨论。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.