Answers:
偏度的一种度量基于均值中位数- 皮尔森的第二偏度系数。
偏度的另一种度量基于相对四分位数差异(Q3-Q2)与(Q2-Q1)的比率
当然,最常见的度量是第三时刻的偏度。
这三项措施没有必要保持一致。它们中的任何一个都可能不同于其他两个。
我们所谓的“偏斜度”是一个有点滑溜且定义不清的概念。请参阅此处以获取更多讨论。
如果我们使用普通qqplot查看您的数据:
[在那里标记的线仅基于前6个点,因为我要讨论后两个与那里的模式的偏差。]
我们看到最小的6点几乎完全位于直线上。
然后,第7个点位于该线的下方(相对于相应的第二个点,从左端开始更靠近中间),而第8个点位于上方。
第七点表明轻微的左偏斜,最后一个是较强的右偏斜。如果您忽略任一点,则偏斜的印象完全取决于另一点。
如果我有说这是一个或另一个,我会称其为“右偏”,但我还要指出的是,印象完全是由于这一非常大的影响。没有它,就没什么好说的了。(另一方面,如果没有第7点,则显然不会偏斜。)
当我们的印象完全由单点决定并且可以通过删除一个点来翻转时,我们必须非常小心。这不是继续的基础!
我以使离群值“离群”的是模型为前提(关于一个模型的离群值在另一种模式下可能是很典型的)。
我认为,在正态(均值上方3.72 sds)的0.01上百分数(1/10000)处观察到的值与法线模型同样离群,因为在指数分布的0.01上百分位数处观察到的是指数模型。(如果我们通过自己的概率积分变换对分布进行变换,则每个分布将具有相同的统一性)
要查看将箱线图规则应用于中等偏斜分布的问题,请模拟指数分布中的大样本。
例如,如果我们模拟一个正常大小为100的样本,则每个样本的平均离群值均小于1。如果我们使用指数模型,则平均数约为5。但是,除非我们与(例如)正常模型进行比较,否则没有理由说更高比例的指数值“在外”。在特定情况下,我们可能有特定的原因要采用某种特定形式的离群规则,但没有通用规则,这使我们有了通用原则,例如我在本小节开始的原则-根据自己的观点来对待每个模型/分布(如果值对于模型而言并非异常,为什么在这种情况下将其称为离群值?)
要转到标题中的问题:
尽管它是一种非常粗糙的工具(这就是为什么我查看QQ图),但箱形图中有几种迹象表明偏斜-如果至少有一个点标记为离群值,则可能(至少)有三个:
在此样本(n = 100)中,外部点(绿色)标记为极值,并且中值表示左偏斜。然后,围栏(蓝色)建议(与中位数结合使用)建议右偏斜。然后,铰链(四分位数,棕色)与中间值结合时,则显示出左偏斜。
如我们所见,它们不必保持一致。您将重点放在哪个方面取决于您所处的情况(以及您的喜好)。
但是,警告该箱线图的原始程度。朝向端的例子在这里,其中包括如何生成数据的描述- -给出具有相同的箱线图4个相当不同的分布:
如您所见,上述所有偏度指标都显示出非常对称的分布,并且显示出了完美的对称性。
-
让我们从“鉴于这是一个箱形图,将一个点标记为离群值的情况下,您的老师期望得到的答案”的角度来看待这一点。
我们首先要回答“他们希望您评估不包括该点的偏斜度,还是将其包含在样本中?”。有些人会排除它,然后从剩下的东西中评估偏度,就像jsk在另一个答案中所做的那样。尽管我对该方法的各个方面提出了异议,但我不能说这是错误的-取决于情况。其中一些会包含它(尤其是因为从正态性得出的规则而将样本中的12.5%排除在外是一个很大的步骤*)。
*想象一下,除了最右边的尾巴之外,人口分布是对称的(我在回答这一问题时构建了这样的分布-正常,但最右边的尾巴是帕累托-但我的回答中没有出现)。如果我绘制大小为8的样本,则通常有7个观测值来自看似正常的部分,其中1个观测值来自上尾巴。如果在这种情况下排除标记为boxplot-outliers的点,则排除的是告诉我们它实际上是歪斜的点!当我们这样做时,在那种情况下保留的截断分布是左偏斜的,我们的结论与正确的结论相反。
不,您什么都没错过:您实际上看到的不仅仅是所展示的简单摘要。 这些数据既有正偏也有负偏(在“偏度”的意义上暗示了数据分布中的某种形式的不对称)。
约翰·图基(John Tukey)通过他的“ N数摘要”描述了一种系统的方式来探索批量数据中的不对称性。箱线图是5位数摘要的图形,因此适合该分析。
要将这个想法应用到箱线图中,只需绘制每对对应零件的中点:中位数(已经存在),铰链的中点(盒子的末端,以蓝色显示)和极值的中点(以红色显示)。
在此示例中,中间铰链的值与中位数相比较低,这表明该批中间的文本略有负偏斜(从而证实了问题中引用的评估,同时与此同时,将其范围适当地限制在该批中间),而中值(更高)的较高值表明该批次的尾部(或至少是其末端)正偏斜(尽管经过仔细检查,这是由于单个异常值较高)。尽管这几乎是一个简单的例子,但与单个“偏度”统计量相比,这种解释的相对丰富性已经揭示了这种方法的描述能力。
通过少量练习,您不必绘制这些中间统计量:您可以想象它们在哪里,并直接从任何箱线图中读取所得的偏度信息。
。下图的左图是这些配对统计数据的中点的诊断图。从加速的坡度来看,很明显,当我们伸向尾巴时,数据正变得越来越偏斜。
中间和右边的图显示(数据的平方根,而不是中位数统计的平方根)和(以10为底)对数的平方根。根值的相对稳定性(请注意相对较小的垂直范围和中间倾斜的水平)表明,这批219个值在中部和尾部的所有部分都变得近似对称,几乎到将高度重新表示为平方根时的极端。这一结果是继续对这些高度的平方根进行进一步分析的强大基础(几乎是令人信服的基础)。
除其他外,这些图揭示了一些关于数据不对称性的定量信息:在原始尺度上,它们立即揭示了数据的不同偏斜度(对于使用单一统计量表征偏斜度的效用产生了相当大的怀疑),而平方根刻度表示,数据在中间近似对称-因此可以用五位数的摘要或等效的箱图简洁地进行总结。偏度再次在对数刻度上显着变化,这表明对数太“强”了,无法重新表达这些数据。
将箱形图推广到七,九和更多数字的摘要很容易得出。Tukey称它们为“示意图”。如今,许多情节都达到了类似的目的,包括诸如QQ情节之类的备用情节和诸如“豆情节”和“小提琴情节”之类的相对新颖的情节。(甚至可以为此目的使用最低的直方图。)使用这些图中的点,可以以详细的方式评估不对称性,并对重新表达数据的方式进行类似的评估。
平均值小于或大于中位数是捷径,通常只要不存在异常值,便可以确定倾斜的方向。在这种情况下,分布出现负偏斜,但由于离群值,均值大于中值。