从箱线图推导方差


12

我想知道如何使用箱线图推断变量的方差。观察盒图,是否至少可以推断出两个变量是否具有相同的方差?


1
最近在这篇文章上偶然发现了一个类似的话题。希望它能给您一些见识。
Penguin_Knight 2014年

Answers:


16

没有很多严格的假设,没有。如果您认为答案是肯定的(而不是问我为您鼓掌),我敢打赌我可以用这个(反)示例来欺骗您:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

看起来很像吧?然而!σ12=1,σ22=1.96

如果代码中不清楚,则填充2为:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

不,您不能仅仅因为它是完全对称的就推断出该总体是正常的。这是QQ人口图2

当然对我来说看起来不正常。

编辑–对您的评论的回复:

方差是一个数字统计量。如果两个分布的方差在字面上相等,那几乎就是您要说的。如果两个分布恰好是正态分布,则存在一个数学定义,它们都适合。如果两个分布不完全是正态分布或方差相等,则不应该这样说。如果您想说它们大致相等或正常,则可能应按照您的目的量身定制一种“足够近似”的方法,此处未作说明。在通常引起像您这样的问题的分析中,对分布差异的敏感性差异很大。例如,t在样本量相等的情况下,对于违反后者是相当可靠的,因此,我不建议您使用该测试来比较我的总体2与总体1(正态分布)。


3
好的例子。尼克正在使用R。(除非所有人都使用R,否则最好提一下。)
尼克·考克斯

不禁觉得这对整个科学来说都是好日子:)
Nick Stauner 2014年

关于这一点,我有很长的一篇文章,但是不知何故,它不适合可用的空间。
尼克·考克斯

好答案。您能写些什么我们应该报告的信息,以便说:“它们是正常的,方差相同”
Donbeo 2014年

编辑以回应。
Nick Stauner 2014年

10

这已经得到很好的回答。这些额外的注释太长(更新:现在太长了),无法作为注释。

严格来说,关于分布的可变性,您只能读取一个箱线图,即它的四分位数范围(框的长度或高度)和范围(显示极值之间的长度或高度)。

作为近似,看起来相似的箱形图可能具有非常相似的方差,但要当心。具有非常不同的盒位置或尾部(或两者都有)的盒图最不可能具有相似的方差,但并非不可能。但是,即使箱形图看起来相同,您也无法在普通箱形图或香草箱形图中获得有关箱内可变性或晶须内可变性的信息(方框与较近四分位数1.5 IQR内的数据点之间经常显示的线) 。注意:存在箱形图的几种变体。作者通常不善于记录其软件使用的精确规则。

箱形图的受欢迎程度有其价格。箱形图对于显示许多组或变量(例如20或30,有时甚至更多)的总体特征非常有用。在我看来,通常用于比较2或3组的商品,它们被超卖了,因为在同一空间中其他图可以清楚地显示更多细节。自然,这是广泛的,即使没有得到普遍认可,并且箱形图的各种增强显示了更多细节。

认真处理差异需要访问原始数据。

这是广泛的刷子,并且可以添加更多细节。例如,中位数在框中的位置有时会提供更多的信息。

更新

我想,一般来说,对盒形图的使用(和限制)感兴趣的人比对从盒形图推断方差的具体问题感兴趣的人(简短的回答是“除了间接地,您不能,有时”),因此,根据@Christian Sauer的提示,我将对替代品添加更多评论。

  • 明智地使用直方图通常仍具有竞争力。Freedman,Pisani和Purves撰写的现代经典介绍性文字通篇使用。

  • 所谓的点状或带状图(以及其他名称)很容易理解。如果需要,合并后可以堆叠相同的点。您可以将中位数和四分位数或均值和置信区间添加到心脏的内容中。

  • 分位数图似乎是一种后天获得的味道,但在某些方面,它是最通用的。在这里,我再次包含有序值图,累积概率(绘图位置)以及分位数图,如果数据是考虑的任何“品牌”分布(正态,指数,伽玛等),则分位数图将是直的。(致谢@Scortchi引用了CJ Geyer使用的“品牌名称”。)

但是不可能有一个完整的清单。(例如,我会补充说,当数字偏爱猖ramp时,用茎和叶表示来查看数据中的重要细节是完全正确的。)关键原则是最好的分布图允许在数据中看似不可能,可能有趣或重要的精细结构(模态,粒度,离群值等)以及粗略结构(水平,散布,偏度等)的感知。

箱形图并不能很好地显示各种结构。它们不可能是,也不打算是。值得一提的是,JW Tukey在《探索性数据分析》一书中,马萨诸塞州:Addison-Wesley(1977)给出了一个来自瑞利的双峰数据示例,箱形图完全掩盖了主要结构。作为一名出色的统计学家,他深知方框图并不总是答案。

在介绍性文本中广泛使用的一种奇怪的做法是讨论方差分析,同时邀请读者查看箱形图,该图显示中位数和四分位数,而不是均值和方差(而不是标准差)。自然地,查看数据比不查看数据要好得多,但是即使这样,更合适的图形表示也可以说是原始数据的某些图,具有拟合均值+/- SE的适当倍数。


尼克,您能为少数变量描述箱形图的替代方案吗?
Christian Sauer 2014年

@ChristianSauer感谢您的提示:请参阅更新。
Nick Cox

感谢您的非常好的更新。我特别喜欢您的最后一段,我发现将方差图与方差分析和/或回归结合起来非常令人困惑-就像比较苹果和桔子。
Christian Sauer 2014年

2
就像其他任何科学一样,统计资料充满了奇怪的术语,符号和分析习惯,这些习惯只是从别人那里复制而来。
Nick Cox 2014年

1
我完全同意-在我的硕士学位论文中,我检查了自变量的正态分布...这是货运邪教统计数据的最好形式:(
Christian Sauer 2014年

6

天真的方法:

在正态分布中,25%和75%的分位数位于距中心距离处。这样就可以得出50%的中心密度覆盖该距离的两倍()。在箱图中,四分位数范围(IQR,即从框的底部到顶部的距离)覆盖了50%居中的样本量。1.35 ·&σ0.67σ1.35σ

如果您假设您的总体遵循正态分布(有时这样做是一个BIG假设,而不是那么微不足道),则可以根据等式粗略估算总体的标准偏差,即是。σ = 0.74 Q řIQR=1.35σσ=0.74IQR

关于通过箱线图比较方差:较宽的方格表示较大的方差,但这可以使您有探索性的了解,并且还必须考虑晶须和异常值。为了进行确认,您应该使用假设对比。


为了比较方差,我们仍然要假设两个分布都为正态?如果盒子相对于中心是对称的,我们可以推断出变量是正常的吗?
Donbeo 2014年

1
我订阅了@Nick_Stauner所说的所有内容。我所揭露的假设是您的人口是正常的,除其他外,但不仅仅要求对称和峰度=0。这一假设经常遭到违反。
Rufo 2014年

2
峰态以多种方式定义。在另一个(较简单的)定义上,普通(高斯)具有峰度3。如果您在实践中进行计算,则需要检查软件使用哪个定义。
尼克·考克斯

1
对于一个正常的分布,这将是峰度3,超额峰度0,如果我没有记错。我很好奇是否有任何流行的软件包默认会产生非峰值峰度。这可能会引起很多混乱(不要否认,人们普遍对相反做法的“过剩”遗漏有些困惑)……
Nick Stauner 2014年

1
默认情况下,Stata会产生峰度。在我看来,“峰度过大”是一个可怕的术语,但无法根除。作为最简单地在第二和第四矩术语定义峭度比(峰度好得多性质 3); 最后一个定义的使用可以归因于正态分布的过度奉献,因为它某种程度上是其他分布偏离的“正态”(所有双关语是故意的)。我们应该更广泛地了解哪些分布是可能的和自然的。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.