我最近意识到,SPSS和Stata提供的峰度值存在差异。
参见http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm
我的理解是,对相同的解释将因此有所不同。
有关如何处理此问题的任何建议?
我最近意识到,SPSS和Stata提供的峰度值存在差异。
参见http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm
我的理解是,对相同的解释将因此有所不同。
有关如何处理此问题的任何建议?
Answers:
不同程序通常使用三种峰度公式。我将陈述所有三个公式(,和)以及使用它们的程序。 G 2 b 2
的第一公式,在许多教科书中所使用的典型的定义是(这是在该链路的第二个公式您所提供) ,其中表示样本矩: mr
有时,此公式中添加了-3的校正项,因此正态分布的峰度为0。具有-3项的峰度公式称为多余峰度(您提供的链接中的第一个公式)。
所述第二公式是(使用SAS,SPSS和MS Excel;这是在该链路的第三式您所提供)
其中是第一个公式中定义的峰度。
的第三公式是(使用MINITAB和BMDP)
其中是无偏样本方差:
在R
峰度中,可以使用包中的kurtosis
函数来计算e1071
(链接此处)。该选项type
确定三个公式中的哪一个用于计算(1 = =,3 =)。G 2 b 2
另请参阅有关峰度的Wikipedia页面和MathWorld页面。
有问题的链接也谈到了SAS。但是实际上,除了发布者自己的关注之外,此问题中没有任何内容将其限制于那些特定的命名程序。
我认为我们需要在这里区分出完全不同的问题,其中有些是虚幻的,有些是真实的。
有些程序可以,而有些则不,可以减去3,这样报告的峰度测度对于不带减法的高斯/正态变量为3,带减法为0。我看到人们对此感到困惑,通常当差异被证明是2.999而不是精确的3时。
一些程序使用校正因子来确保估计峰度而没有偏差。随着样本大小变大,这些校正因子接近1 。由于在任何小样本中都不能很好地估计峰度,因此这应该不是太大的问题。
因此,存在一个小的公式问题,#1比#2大得多,但如果理解的话,两者都是次要的。显然,建议是查看正在使用的程序的文档,如果没有文档说明那种细节,请立即放弃该程序。但是,仅凭一个变量(1、2)就简单的测试用例会产生1或4的峰度,这仅取决于#1(无校正因子)。
然后,该问题询问有关解释的问题,但这是一个更加开放和有争议的问题。
在我们进入讨论的主要领域之前,一个经常被报道但鲜为人知的困难是峰度估计值受限于样本量的函数。我在2010年新泽西州考克斯(Cox)撰写了一篇评论。样品偏斜度和峰度的限制。Stata Journal 10(3):482-495。http://www.stata-journal.com/article.html?article=st0204
摘要:样本偏斜和峰度受样本量函数的限制。在过去的几十年中,已经反复发现了极限值或近似值,但似乎仍然鲜为人知。这些限制会给估计带来偏差,在极端情况下,这意味着没有任何样本可以对其父级分布进行准确的见证。教程审查中对主要结果进行了解释,并说明了如何使用Stata和Mata来确认和探索其后果。
现在到通常被认为是小问题的地方:
许多人将峰度视为峰度,但其他人则强调峰度通常可以衡量尾巴重量。实际上,对于某些分布,这两种解释都可能是合理的措词。几乎不可能避免对峰度的简单口头解释:我们的语言在比较偏离均值的四次幂的和与相同次幂的和时的能力不足。
欧文·卡普兰斯基(Irving Kaplansky,1945a)在一个较小且经常被忽略的经典中,提请注意四个示例,这些示例具有不同的峰度值和行为,而与峰度的某些讨论不一致。
对于变量和,所有分布都是对称的,均值为0,方差为1,并且具有密度函数。Ç = √
峰度(不减去)为(1)2.75(2)3.125(3)4.5(4)8/3 2.667:比较高斯或正常值3.平均密度为(1)0.423(2 )0.387(3)0.470(4)0.366:比较高斯值0.399。
绘制这些密度很有帮助。Stata用户可以kaplansky
从SSC 下载我的程序。为密度使用对数刻度可能会有所帮助。
这些示例在没有给出全部细节的情况下,破坏了任何简单的故事,即峰度低或高对峰度或其他任何单一对比都有清晰的解释。
如果说欧文·卡普兰斯基(Irving Kaplansky)这个名字,可能是因为您知道他在现代代数中的工作。他(1917年至2006年)是加拿大(拉丁美洲)数学家,在哈佛,芝加哥和伯克利大学任教和研究,战时在哥伦比亚大学国防委员会应用数学小组任教。卡普兰斯基对群论,环论,算子代数论和场论做出了重要贡献。他是一位出色的钢琴家和作词家,并且是数学的热情而清醒的解释者。还要注意卡普兰斯基(1943,1945b)以及卡普兰斯基和里奥丹(1945)对概率和统计的其他贡献。
卡普兰斯基(Kaplansky),I.,1943年。正态分布的特征。 数学统计年鉴 14:197-198。
卡普兰斯基(I. 1945a)。有关峰度的常见错误。 杂志,美国统计协会仅40:259。
卡普兰斯基(I. 1945b)。连续元素游程的渐近分布。 数学统计年鉴 16:200-203。
卡普兰斯基(Kaplansky,I.)和里奥丹(Riordan,J. 1945)。多重匹配,并通过符号方法运行。数学统计年鉴 16:272-277。