我听说过(抱歉,我无法提供到文本的链接,有人告诉我)对于正确的假设检验和置信区间,残差的高正峰度可能会成问题(因此存在统计推断问题)。这是真的吗?如果是这样,为什么?残差的高正峰度是否不表示大部分残差都接近零均值,因此存在的残差较小?(如果您有答案,请尝试在数学方面不多的情况下给出答案,因为我不太喜欢数学)。
我听说过(抱歉,我无法提供到文本的链接,有人告诉我)对于正确的假设检验和置信区间,残差的高正峰度可能会成问题(因此存在统计推断问题)。这是真的吗?如果是这样,为什么?残差的高正峰度是否不表示大部分残差都接近零均值,因此存在的残差较小?(如果您有答案,请尝试在数学方面不多的情况下给出答案,因为我不太喜欢数学)。
Answers:
听说残差的高正峰度可能对准确的假设检验和置信区间有问题(因此存在统计推断问题)。这是真的吗?如果是这样,为什么?
对于某些假设检验,这是事实。
残差的高正峰度是否不表示大部分残差都接近零均值,因此存在的残差较小?
没有。
似乎您正在将方差和峰度的概念混为一谈。如果方差较小,则趋向于具有较小的残差和较少的较大残差。想象一下,当我们改变峰度时,我们保持标准偏差不变(因此,我们肯定是在谈论峰度的变化,而不是方差的变化)。
比较不同的方差(但峰度相同):
峰度不同但方差相同的情况:
(来自此帖子的图片)
即使保持方差恒定,峰度越高,残差也越大。
[此外,在某些情况下,小残留物的集中实际上可能比最大残留物的额外部分要引起更多的问题-取决于您要查看的内容。]
无论如何,让我们看一个例子。考虑一次样本t检验,样本量为10。
如果我们在t统计量的绝对值大于2.262时拒绝零假设,那么当观测值是独立的且与正态分布相同,并且假设均值是真实总体均值时,我们将拒绝零假设。假设的时间为5%。
考虑一个峰度明显高于正态分布的特殊分布:我们人口的75%的值是从正态分布中提取的,其余25%的值是从正态分布中提取的,其标准偏差大50倍。
如果我计算正确,则对应的峰度为12(过量峰度为9)。最终的分布比正常分布更趋于峰化,并且尾巴很重。将密度与下面的正常密度进行比较-您可以看到较高的峰,但在左侧图像中看不到较重的尾巴,因此我还绘制了密度的对数,该对数延伸了图像并压缩顶部,使其更容易看到峰和尾。
(您还将看到对置信区间的覆盖产生实质性影响。)
注意,具有相同峰度的不同分布将对显着性水平产生不同的影响。
那么为什么拒绝率会下降呢?这是因为较重的尾部导致一些较大的离群值,这对标准差的影响比对均值的影响大;这会影响t统计量,因为它会导致-1和1之间的t值更多,在此过程中会减少临界区域中值的比例。
让我演示给你看。这是10号的样本:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23
现在将最大值设为50:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50
显然,我们拉高了均值,所以它应该显示出比以前更大的差异,对吗?好吧,不,不是。t统计量下降。现在为1.106,并且p值非常大(接近30%)。发生了什么?好吧,我们确实将均值提高了(至7.257),但是标准差却超过了15。
标准差对离群值的敏感性比均值敏感-当您输入离群值时,您倾向于将单样本t统计量推向1或-1。
如果可能存在多个异常值,则只有有时它们可能在相反的一侧时才会发生相同的情况(在这种情况下,标准偏差甚至会比一个异常值更大,而对均值的影响则会减小),因此t统计量倾向于接近0。
其他假设正常的其他常见测试也使用类似的方法-峰度越高往往与较重的尾巴相关联,这意味着离群值越多,这意味着标准偏差相对于均值会膨胀,因此您希望获得的差异倾向于被异常值对测试的影响“淹没”。即低功耗。
峰度测量异常值。离群值对于基于正态分布的标准推断(例如t检验,t间隔)存在问题。到此为止!这确实是一个非常简单的故事。
这个故事之所以没有得到很好的理解,是因为峰度测量“峰度”的古老神话仍然存在。
这是一个简单的说明,说明峰度为何测量异常值而不是“峰度”。
考虑以下数据集。
0、3、4、1、2、3、0、2、1、3、2、0、2、2、3、2、5、2、3、1
峰度是(z值)^ 4的期望值。这是(z值)^ 4:
6.51、0.30、5.33、0.45、0.00、0.30、6.51、0.00、0.45、0.30、0.00、6.51、0.00、0.00、0.30、0.00、27.90、0.00、0.30、0.45
平均值是2.78,这是峰度的估计值。(如果要过度峰度,请减去3。)
现在,将最后一个数据值替换为999,这样它就变成了异常值:
0、3、4、1、2、3、0、2、1、3、2、0、2、2、3、2、5、2、3、999
现在,这是(z值)^ 4:
0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、360.98
平均值是18.05,这是峰度的估计值。(如果要过度峰度,请减去3。)
显然,只有异常值才重要。与“峰值”或中间的数据无关紧要。
如果对第二个数据集执行标准统计分析,则应该会遇到麻烦。大峰度会提醒您该问题。
这是一篇详细阐述的论文:
Westfall,PH(2014)。峰顶峰,1905-2014年。RIP美国统计学家,第68页,191-195页。
峰态也表明尾巴不对称。在两尾假设检验中,一条尾巴将是一条长尾巴,而另一条将是一条短尾巴。尾巴之一可能是> alpha,但<beta。一条尾巴会通过p值,而另一条不会。
基本上,统计推断假设一个标准正态。如果它不是标准的法线,则可能会基于一些更复杂的推理机制进行推理。您可能可以使用泊松推理,但是使用非正态分布,您将无法使用基于正态的推理。
偏斜和峰度是非正常现象的量度。在我们知道必须测试正态性之前,我们学会采取手段并使用正态分布。一个法线需要从每个维度获取36个或更多数据点。您可以估计20个数据点,但仍然会出现歪斜和峰度。随着分布趋于正态,偏斜和分布消失。
一种解释将峰度定义为峰化。另一个没有。目前这是一场未解决的战斗。峰度是第四时刻,一个区域。我对这个问题还没有达到顶峰。
另一个想法是,随着偏斜,中位数会倾斜到形成三角形的众数。请享用。