Answers:
没有很多严格的假设,没有。如果您认为答案是肯定的(而不是问我为您鼓掌),我敢打赌我可以用这个(反)示例来欺骗您:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
看起来很像吧?然而!
如果代码中不清楚,则填充2
为:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
不,您不能仅仅因为它是完全对称的就推断出该总体是正常的。这是QQ人口图2
:
当然对我来说看起来不正常。
编辑–对您的评论的回复:
方差是一个数字统计量。如果两个分布的方差在字面上相等,那几乎就是您要说的。如果两个分布恰好是正态分布,则存在一个数学定义,它们都适合。如果两个分布不完全是正态分布或方差相等,则不应该这样说。如果您想说它们大致相等或正常,则可能应按照您的目的量身定制一种“足够近似”的方法,此处未作说明。在通常引起像您这样的问题的分析中,对分布差异的敏感性差异很大。例如,在样本量相等的情况下,对于违反后者是相当可靠的,因此,我不建议您使用该测试来比较我的总体2
与总体1
(正态分布)。
这已经得到很好的回答。这些额外的注释太长(更新:现在太长了),无法作为注释。
严格来说,关于分布的可变性,您只能读取一个箱线图,即它的四分位数范围(框的长度或高度)和范围(显示极值之间的长度或高度)。
作为近似,看起来相似的箱形图可能具有非常相似的方差,但要当心。具有非常不同的盒位置或尾部(或两者都有)的盒图最不可能具有相似的方差,但并非不可能。但是,即使箱形图看起来相同,您也无法在普通箱形图或香草箱形图中获得有关箱内可变性或晶须内可变性的信息(方框与较近四分位数1.5 IQR内的数据点之间经常显示的线) 。注意:存在箱形图的几种变体。作者通常不善于记录其软件使用的精确规则。
箱形图的受欢迎程度有其价格。箱形图对于显示许多组或变量(例如20或30,有时甚至更多)的总体特征非常有用。在我看来,通常用于比较2或3组的商品,它们被超卖了,因为在同一空间中其他图可以清楚地显示更多细节。自然,这是广泛的,即使没有得到普遍认可,并且箱形图的各种增强显示了更多细节。
认真处理差异需要访问原始数据。
这是广泛的刷子,并且可以添加更多细节。例如,中位数在框中的位置有时会提供更多的信息。
更新
我想,一般来说,对盒形图的使用(和限制)感兴趣的人比对从盒形图推断方差的具体问题感兴趣的人(简短的回答是“除了间接地,您不能,有时”),因此,根据@Christian Sauer的提示,我将对替代品添加更多评论。
明智地使用直方图通常仍具有竞争力。Freedman,Pisani和Purves撰写的现代经典介绍性文字通篇使用。
所谓的点状或带状图(以及其他名称)很容易理解。如果需要,合并后可以堆叠相同的点。您可以将中位数和四分位数或均值和置信区间添加到心脏的内容中。
分位数图似乎是一种后天获得的味道,但在某些方面,它是最通用的。在这里,我再次包含有序值图,累积概率(绘图位置)以及分位数图,如果数据是考虑的任何“品牌”分布(正态,指数,伽玛等),则分位数图将是直的。(致谢@Scortchi引用了CJ Geyer使用的“品牌名称”。)
但是不可能有一个完整的清单。(例如,我会补充说,当数字偏爱猖ramp时,用茎和叶表示来查看数据中的重要细节是完全正确的。)关键原则是最好的分布图允许在数据中看似不可能,可能有趣或重要的精细结构(模态,粒度,离群值等)以及粗略结构(水平,散布,偏度等)的感知。
箱形图并不能很好地显示各种结构。它们不可能是,也不打算是。值得一提的是,JW Tukey在《探索性数据分析》一书中,马萨诸塞州:Addison-Wesley(1977)给出了一个来自瑞利的双峰数据示例,箱形图完全掩盖了主要结构。作为一名出色的统计学家,他深知方框图并不总是答案。
在介绍性文本中广泛使用的一种奇怪的做法是讨论方差分析,同时邀请读者查看箱形图,该图显示中位数和四分位数,而不是均值和方差(而不是标准差)。自然地,查看数据比不查看数据要好得多,但是即使这样,更合适的图形表示也可以说是原始数据的某些图,具有拟合均值+/- SE的适当倍数。
天真的方法:
在正态分布中,25%和75%的分位数位于距中心距离处。这样就可以得出50%的中心密度覆盖该距离的两倍()。在箱图中,四分位数范围(IQR,即从框的底部到顶部的距离)覆盖了50%居中的样本量。1.35 ·&σ
如果您假设您的总体遵循正态分布(有时这样做是一个BIG假设,而不是那么微不足道),则可以根据等式粗略估算总体的标准偏差,即是。σ = 0.74 ⋅ 我Q ř
关于通过箱线图比较方差:较宽的方格表示较大的方差,但这可以使您有探索性的了解,并且还必须考虑晶须和异常值。为了进行确认,您应该使用假设对比。