两种样本分布的尾部比较


13

我有两组数据大致以零为中心,但我怀疑它们的尾巴不同。我知道一些将分布与正态分布进行比较的测试,但我想直接比较两个分布。

是否有一个简单的测试来比较2个分布的尾部的脂肪

谢谢你
fRed


“长尾”标签是否真的有意义(对于以后的问题)?
chl

@chl您告诉我,我在统计方面当然不如您经验丰富。但是海事组织是低估尾巴重要性的经典偏见。您读过曼德布罗特的著作吗?粗尾在金融的应用统计中非常重要,2008年的信贷危机在某种程度上来自某些定价模型,这些模型假设正态分布并低估了一些相关分布的粗尾。我们可以在另一个线程中讨论它:)
RockScience 2010年

1
这个问题可能很有趣,但欢迎进行一些澄清。您担心一条尾巴还是两条尾巴?您如何衡量“肥胖”?(例如,您是否愿意移动并重新缩放两个分布以进行比较?)如何测量“肥胖”中的偏差?如果您打算进行假设检验,那么替代假设到底是什么?
ub

@RockScience,我有两个分布,并且只想比较尾巴,您设法做到这一点吗?我知道您可以计算峰度,但是如何测试两条尾巴是否不同?
user2380782 '16

Answers:



2

构造一个表示为lambda的阈值,我们可以基于落在该尾部区域中的两个观测数据集来测试限制在尾部区域(\ lambda,无穷大)中的两个分布的两个均值或方差是否相等。当然,两个样本的t检验或F检验可能还可以,但并不算力,因为限制在该尾部区域的随机变量即使是原始变量也不是正常的。


极值理论研究这种截断的分布:渐近地,尾巴的分布通常属于广义帕累托族。也可以尝试使数据适合这一分布族并比较参数。
Vincent Zoonekynd 2012年

@Vincent一条尾巴几乎可以有任何分布。极值理论很少提及尾巴:它专注于iid样本的最大值(或最小值)的分布,这是完全不同的事情。
ub


1

卡方检验(拟合优度检验)将非常擅长比较两个分布的尾部,因为它的结构是按值的桶(以直方图表示)比较两个分布。而且,尾巴将包含在最远的桶中。

即使此测试着眼于整个分布,也不只是尾巴,您还可以轻松观察到,卡尺值或散度的多少是由尾巴脂肪的差异得出的。

请注意,与测试相关的统计显着性相比,派生的直方图实际上可能在视觉上为您提供有关尾巴相应脂肪的更多信息。声明尾巴的脂肪统计上不同是一回事。肉眼观察是另一回事。他们说,一张图片胜过千言万语。有时它也值一千个数字(考虑到图表封装了所有数字,这是有道理的)。


3
在我看来,卡方检验在识别尾巴上的差异方面特别。如果尾巴被许多箱覆盖,则-因为它们是尾巴!-任何一个箱中的数据可能都很少,从而使卡方近似无效。如果尾巴被很少的垃圾箱覆盖,那么您几乎就失去了辨别其形状的全部能力,而您设法辨别的内容可能并没有那么重要或没有用。(我们这里要面对的一个问题是尚未定义“尾巴的脂肪”,所以这个问题太含糊了,无法很好地回答。)
whuber

@whuber,我不能说是否同意您的评论,因为我不完全理解您的观点之一。通过“使卡方近似无效”到底是什么意思?
Sympa 2010年

卡方检验基于对卡方统计量的真实分布的正态理论近似。通常,这种近似变穷的时候斌人口下降到低于5
whuber

@whuber,感谢您的解释。有鉴于此,我觉得您的初始评论的第一句话可能没有您所关心的细微差别(“卡方检验在识别尾巴差异方面特别差”)。也许更合适的说法是“取决于...”。此测试有几个优点,包括强制您定义相关的bin。并且,同样重要的是,便于构建直方图。当然,如果您在一个箱中只有少于5个观测值,就会如您所解释的那样失去准确性。
Sympa

@Gaetan我非常感谢您注意细微差别,但在这种情况下,这种判断似乎是合理的。与可用于比较分布的许多其他方法相比,卡方检验的效果不佳。如果您根据数据本身“定义相关箱”,则测试无效。同样,直方图通常不是查看分布尾部的有用方法。但是,我不愿意提出替代方案,因为该问题的定义不明确:两个分布具有相同的“尾巴脂肪”意味着什么?峰度是一种可能,但这是一种粗略的措施。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.