如何通过箱线图评估偏度？

如何查看通过此数据构建的箱线图来确定偏度：

340、300、520、340、320、290、260、330

一本书说：“如果下四分位数比中四分位数比中四分位数更远，则分布出现负偏斜。” 其他一些消息来源也大致相同。

我使用R建立了箱形图。如下所示：

箱形图

我认为它是负偏斜的，因为较低的四分位数距离中位数比较高的四分位数更远。但是问题是当我使用另一种方法确定偏度时：

平均值（337.5）>中位数（325）

这表明数据正偏。我错过了什么？

outliers skewness boxplot

— 杰瑞
source

Answers:

偏度的一种度量基于均值中位数- 皮尔森的第二偏度系数。

偏度的另一种度量基于相对四分位数差异（Q3-Q2）与（Q2-Q1）的比率

$u=0.25$

当然，最常见的度量是第三时刻的偏度。

这三项措施没有必要保持一致。它们中的任何一个都可能不同于其他两个。

我们所谓的“偏斜度”是一个有点滑溜且定义不清的概念。请参阅此处以获取更多讨论。

如果我们使用普通qqplot查看您的数据：

在此处输入图片说明

[在那里标记的线仅基于前6个点，因为我要讨论后两个与那里的模式的偏差。]

我们看到最小的6点几乎完全位于直线上。

然后，第7个点位于该线的下方（相对于相应的第二个点，从左端开始更靠近中间），而第8个点位于上方。

第七点表明轻微的左偏斜，最后一个是较强的右偏斜。如果您忽略任一点，则偏斜的印象完全取决于另一点。

如果我有说这是一个或另一个，我会称其为“右偏”，但我还要指出的是，印象完全是由于这一非常大的影响。没有它，就没什么好说的了。（另一方面，如果没有第7点，则显然不会偏斜。）

当我们的印象完全由单点决定并且可以通过删除一个点来翻转时，我们必须非常小心。这不是继续的基础！

我以使离群值“离群”的是模型为前提（关于一个模型的离群值在另一种模式下可能是很典型的）。

我认为，在正态（均值上方3.72 sds）的0.01上百分数（1/10000）处观察到的值与法线模型同样离群，因为在指数分布的0.01上百分位数处观察到的是指数模型。（如果我们通过自己的概率积分变换对分布进行变换，则每个分布将具有相同的统一性）

要查看将箱线图规则应用于中等偏斜分布的问题，请模拟指数分布中的大样本。

例如，如果我们模拟一个正常大小为100的样本，则每个样本的平均离群值均小于1。如果我们使用指数模型，则平均数约为5。但是，除非我们与（例如）正常模型进行比较，否则没有理由说更高比例的指数值“在外”。在特定情况下，我们可能有特定的原因要采用某种特定形式的离群规则，但没有通用规则，这使我们有了通用原则，例如我在本小节开始的原则-根据自己的观点来对待每个模型/分布（如果值对于模型而言并非异常，为什么在这种情况下将其称为离群值？）

要转到标题中的问题：

尽管它是一种非常粗糙的工具（这就是为什么我查看QQ图），但箱形图中有几种迹象表明偏斜-如果至少有一个点标记为离群值，则可能（至少）有三个：

在此处输入图片说明

在此样本（n = 100）中，外部点（绿色）标记为极值，并且中值表示左偏斜。然后，围栏（蓝色）建议（与中位数结合使用）建议右偏斜。然后，铰链（四分位数，棕色）与中间值结合时，则显示出左偏斜。

如我们所见，它们不必保持一致。您将重点放在哪个方面取决于您所处的情况（以及您的喜好）。

但是，警告该箱线图的原始程度。朝向端的例子在这里，其中包括如何生成数据的描述- -给出具有相同的箱线图4个相当不同的分布：

在此处输入图片说明

如您所见，上述所有偏度指标都显示出非常对称的分布，并且显示出了完美的对称性。

让我们从“鉴于这是一个箱形图，将一个点标记为离群值的情况下，您的老师期望得到的答案”的角度来看待这一点。

我们首先要回答“他们希望您评估不包括该点的偏斜度，还是将其包含在样本中？”。有些人会排除它，然后从剩下的东西中评估偏度，就像jsk在另一个答案中所做的那样。尽管我对该方法的各个方面提出了异议，但我不能说这是错误的-取决于情况。其中一些会包含它（尤其是因为从正态性得出的规则而将样本中的12.5％排除在外是一个很大的步骤*）。

*想象一下，除了最右边的尾巴之外，人口分布是对称的（我在回答这一问题时构建了这样的分布-正常，但最右边的尾巴是帕累托-但我的回答中没有出现）。如果我绘制大小为8的样本，则通常有7个观测值来自看似正常的部分，其中1个观测值来自上尾巴。如果在这种情况下排除标记为boxplot-outliers的点，则排除的是告诉我们它实际上是歪斜的点！当我们这样做时，在那种情况下保留的截断分布是左偏斜的，我们的结论与正确的结论相反。

— Glen_b-恢复莫妮卡
source

@jsk取决于您要如何测量偏斜度。由于偏斜度部分地由偏斜点（一个方向比另一个方向更偏斜的趋势）确定，因此删除它们可能会错过测量偏斜度的要点。我的更新帖子中有更详细的讨论和分析。如果您不确定，请随时不同意，这种交流通常很有价值。

— Glen_b-恢复莫妮卡2014年

@Glen_b尽管我当然尊重并理解您的立场，但我确实认为有合理的论据可以用来判断除去异常值之后的偏斜程度。除去异常值后，除去第7点（260）后，分布甚至仍会出现负偏斜。您是否检查了qqplot和/或比较了平均值和中位数？

— jsk 2014年

删除第7条后，情况可能会很微弱，但我认为没有理由证明在删除第7条后才可以判断偏斜。这并不是一个离群值，尽管人们很清楚地指出，无论您如何看待偏斜量度，这种偏斜量度都是由单个点驱动的。

— 2014年

@Glen_ b Q3 + 1.5IQR是此级别的典型经验法则，用于识别上尾巴中的异常值。是否删除它们是另一回事。您是否因为均值较大而认为分布正确偏斜？为什么忽略Q1比Q3离Q2更远的事实？

— 2014年

我想说明一下此处表面附近的东西，但不是很清楚：框线图通常会凝结得太多，因此您可能也需要查看所有数据。

— 尼克·考克斯

不，您什么都没错过：您实际上看到的不仅仅是所展示的简单摘要。 这些数据既有正偏也有负偏（在“偏度”的意义上暗示了数据分布中的某种形式的不对称）。

约翰·图基（John Tukey）通过他的“ N数摘要”描述了一种系统的方式来探索批量数据中的不对称性。箱线图是5位数摘要的图形，因此适合该分析。

$M$ $H^{+}$ $H^{-}$ $X^{+}$ $X^{-}$ $T_i^{+}$ $i$ $T_i^{+}$ $T_i^{-}$ $M = M^{+}=M^{-}$ $(T_i^{+} + T_i^{-})/2$ $i$

要将这个想法应用到箱线图中，只需绘制每对对应零件的中点：中位数（已经存在），铰链的中点（盒子的末端，以蓝色显示）和极值的中点（以红色显示）。

箱形图

在此示例中，中间铰链的值与中位数相比较低，这表明该批中间的文本略有负偏斜（从而证实了问题中引用的评估，同时与此同时，将其范围适当地限制在该批中间），而中值（更高）的较高值表明该批次的尾部（或至少是其末端）正偏斜（尽管经过仔细检查，这是由于单个异常值较高）。尽管这几乎是一个简单的例子，但与单个“偏度”统计量相比，这种解释的相对丰富性已经揭示了这种方法的描述能力。

通过少量练习，您不必绘制这些中间统计量：您可以想象它们在哪里，并直接从任何箱线图中读取所得的偏度信息。

$M$ $H$ $E$ $D$ $X$ $i=1, 2, 3, 4, 5$ 。下图的左图是这些配对统计数据的中点的诊断图。从加速的坡度来看，很明显，当我们伸向尾巴时，数据正变得越来越偏斜。

中间和右边的图显示（数据的平方根，而不是中位数统计的平方根）和（以10为底）对数的平方根。根值的相对稳定性（请注意相对较小的垂直范围和中间倾斜的水平）表明，这批219个值在中部和尾部的所有部分都变得近似对称，几乎到将高度重新表示为平方根时的极端。这一结果是继续对这些高度的平方根进行进一步分析的强大基础（几乎是令人信服的基础）。

除其他外，这些图揭示了一些关于数据不对称性的定量信息：在原始尺度上，它们立即揭示了数据的不同偏斜度（对于使用单一统计量表征偏斜度的效用产生了相当大的怀疑），而平方根刻度表示，数据在中间近似对称-因此可以用五位数的摘要或等效的箱图简洁地进行总结。偏度再次在对数刻度上显着变化，这表明对数太“强”了，无法重新表达这些数据。

将箱形图推广到七，九和更多数字的摘要很容易得出。Tukey称它们为“示意图”。如今，许多情节都达到了类似的目的，包括诸如QQ情节之类的备用情节和诸如“豆情节”和“小提琴情节”之类的相对新颖的情节。（甚至可以为此目的使用最低的直方图。）使用这些图中的点，可以以详细的方式评估不对称性，并对重新表达数据的方式进行类似的评估。

— ub
source

平均值小于或大于中位数是捷径，通常只要不存在异常值，便可以确定倾斜的方向。在这种情况下，分布出现负偏斜，但由于离群值，均值大于中值。

— sk
source

这就解释了。我读的书根本没有提到这一点！

— JerryW

希望这些书至少提到平均数对中位数的抵抗力比中位数低得多！

— jsk 2014年

是否将其视为负偏斜取决于您如何测量偏斜。

— Glen_b-恢复莫妮卡2014年

很公平。这是一个很小的数据集，这使得判断偏斜度特别具有挑战性。我想这个例子很不幸地扔进了那里，只是出于确定倾斜的经验法则的原因

— jsk 2014年

我同意这样的小型数据集会使其具有挑战性，但是完全有可能构造同样具有挑战性的连续分布。

— Glen_b-恢复莫妮卡2014年