阅读箱须图：是否可以收集组之间的显着差异？

假设我们正在查看这个箱须图：

在周四和周五之间，我认为大多数人都会同意，睡眠时间似乎有很大差异。但是，这是一个统计上有效的猜想吗？由于周四和周五之间两个四分位数的范围都没有重叠，我们能否辨别出显着差异？星期四和星期五的上下晶须重叠的事实又如何呢？这会影响我们的分析吗？

通常伴随这样的图表是某种方差分析，但我很好奇，仅通过查看箱线图我们能说出多少组之间的差异。

anova data-visualization boxplot

— 黑场
source

圆圈代表离群值。

— Michael R. Chernick

只要该图未显示任何样本量指示，就很难做到。但是，如果将中位数的绘图置信区间包括在内，则会比较这些置信区间。他们似乎不在您的情节中。

— kjetil b halvorsen

@kjetilbhalvorsen，这只是我从Google抓到的一个图：) ...作为Tukey HSD测试的一部分，我已经在我自己的图上包括了您所描述的内容

— blacksite '17

没有配置项，您就无法谈论“重大”差异。但是，我要说星期四和星期五之间存在“显着”差异。甚至“最显着”的区别发生在周四和周五之间

— 。– Ashe

圆点距离最近的四分位数大于1.5 IQR。它们不是明确和客观的异常值。与分配的其余部分相比，周四的收入看起来并不算特别。星期五确实如此；研究人员或分析人员应尽可能检查一下，看看是否有故事可以解释。也许有人真的没睡！以这种方式标记数据点正在标记它们以进行检查和思考。这不是识别被驱魔的统计方法。

— 尼克·考克斯

Answers:

不，你不能。如果您有样本量并且有很多经验，您也许可以猜测-猜测的准确性将取决于样本量（除了效应量）。如果每组N = 1,000,000，那么意义重大。如果每组N = 10，则不是很多。每组100个，很难猜测。

我认为这是一个很好的事情。与箱形图相关的事情不是要尝试猜测统计显着性，而是要查看正在发生的事情并尝试对其进行推理。嗯周末多睡觉。这很有趣，但并不令人惊讶。我们可以将睡眠时间作为周末与否的函数。或者，我们可以尝试查看这种模式是否变化。也许退休人士没有这种模式？轮班工人呢？周末工作的人吗？每周工作7天的人？

正如我最喜欢的研究生院教授（赫尔曼·弗里德曼（Herman Friedman））所说：“停止研究！”

— 彼得·弗洛姆-恢复莫妮卡
source

N < 5

$N \lt 5$

是的你可以。至少在近似意义上。

我概述了下面的内容（确实与您建议的“盒子重叠”有关）以及一些警告和限制。但是首先让我们讨论一些有关背景和上下文的预备知识。（我认为这里的适当答案不应集中在示例的细节上-尽管也许值得一提-而是集中在使用箱形图评估明显差异是否可以轻易解释为随机变异的核心问题上）

如果您有权访问数据，则可以绘制有缺口的箱形图，这些图旨在用于这种视觉比较。

有缺口箱图计算的讨论在这里。如果陷波间隔不重叠，则被比较的两组在5％的水平上大约不同；这些计算是基于法线计算的，但是它们非常健壮，并且在各种分布范围内都表现良好。（如果将其视为正式测试，则正常情况下的功效并不高，但对于各种或多或少的“典型”重尾案例来说，它应该做得很好。）

考虑到带槽的箱形图的工作方式，您可以辨别出一条快速的经验法则，当您只有类似问题的显示器时，该法则将起作用。当样本大小为10且中位数位于盒子的中间位置时，带槽的盒子图中的槽口大约与盒的宽度相等，因此，槽口的末端和盒的位置大致相同。

$n=10$

$n=9$ $n=10$

$n=10$ $n=10,10$ $n=9,9$ $n=8,8$

$n$ $\sqrt{n}$ $n=40$

看你的情节：

请注意，我们可以从问题的图表中看出，样本大小必须至少为5；如果它们小于5，则单个样本盒图将具有明显的线索，表明它们来自较小的样本量（例如，中值是每个盒的死点，或者晶须的长度为0（当存在异常值时）。

或者，如果方框（标记四分位数）彼此不重叠且样本大小至少为10，则被比较的两组的中位数应在5％处不同（视为成对的单次比较）。

$n$ $n=5$

[请注意，这不考虑比较次数，因此，如果要进行多个比较，则总体I型错误会更大。它用于外观检查而不是正式测试。但是，可以将所涉及的思想调整为更正式的方法，包括针对多个比较进行调整。]

考虑了是否可以后，考虑是否应该是合理的。也许不是；潜在的p-hacking问题是真实的，但是如果您使用它来弄清楚例如是否要继续收集有关该研究问题的新数据，而您所拥有的只是纸上的箱线图-例如-可能是能够对是否存在更多的噪声做出一些评估是非常有用的。但是，深入考虑该问题确实会回答另一个问题。

— Glen_b-恢复莫妮卡
source