如何判断我的数据分布是否对称?


23

我知道,如果中位数和均值近似相等,则意味着存在对称分布,但在这种情况下我不确定。均值和中位数非常接近(只有0.487m / all差),这使我说有一个对称分布,但从箱线图中可以看出,它似乎正偏斜(经确认,中位数比Q3靠近Q1按值)。

(如果您对此软件有任何具体建议,我正在使用Minitab。)


对细节的正交评论:m / gall是什么单位?看起来像每加仑米,我对此很感兴趣。
尼克·考克斯

这是一个严重的限制,箱形图通常根本不显示均值!
尼克·考克斯

您的数据的标准偏差是多少?如果0.487m / gall的值远小于标准偏差,那么您可能有理由相信您的分布可以是对称的。如果该值远大于标准偏差(或MAD或您观察的任何偏差度量),则可能进一步检查分布的对称性会浪费时间。
usεr11852说恢复单胞菌

1
-70-63-56-49-42-35-28-21-14-701个49162536496481100是故意不对称(下半部分均匀但上半部分不均匀),并且箱形图会使中位数(等于平均值​​)比下四分位数更接近上四分位数,但也比最大值接近最小值。
亨利

@NickCox它也可能是毫伽有一个错字。那几乎是500 gal!或小于 g。(当然,如上所述,如果没有像MAD这样的分散度,则没有办法知道什么可能是“重要的”。)10 - 4μ104
GeoMatt22 2016年

Answers:


29

毫无疑问,你已经另有告知,但平均平均并没有暗示对称。=

有一个基于均值减去中位数(第二个Pearson偏度)的偏度度量,但是当分布不对称时(与任何常见的偏度度量一样)可以为0。

同样,均值和中位数之间的关系并不一定意味着中铰链()与中位数之间存在相似的关系。他们可以提出相反的偏度,或者一个可能等于中位数,而另一个则不等于中位数。1个+3/2

研究对称性的一种方法是通过对称图 *。

如果是从最小到最大的有序观测值(有序统计量),并且是中位数,则对称图将绘制与,与等...,依此类推。中号Ý Ñ - 中号中号- ý 1 ý ñ - 1 - 中号中号- ý 2 ÿ1个ÿ2ÿñ中号ÿñ-中号中号-ÿ1个ÿñ-1个-中号中号-ÿ2

* Minitab可以做到这些。实际上,我提出了这种可能性,因为我已经在Minitab中看到了它们的完成。

这是四个示例:

对称图
来自四个分布的样本的上述类型的对称图

(实际分布是​​(从左到右,第一行)-拉普拉斯,Gamma(形状= 0.8),beta(2,2)和beta(5,2)。代码是Ross Ihaka的代码,从此处开始

对于重尾对称示例,通常最极端的点可能离直线很远。当您靠近图的右上角时,您对一两点线的距离的关注会减少。

当然,还有其他图(我提到对称图不是出于对特定图的特殊拥护,而是因为我知道它已经在Minitab中实现了)。因此,让我们探索其他一些东西。

这是尼克·考克斯(Nick Cox)在评论中建议的相应偏斜图:

偏度图
Nick Cox在评论中建议的偏度图

在这些图中,上升趋势表示右尾巴通常比左重,而下降趋势表明左尾巴比右通常重,而对称性可以通过相对平坦(尽管可能相当嘈杂)的图来暗示。

尼克(Nick)建议,这种情节比较好(特别是“更直接”)。我倾向于同意;因此,尽管对应图中的信息通常非常相似(在减去第一组的单位斜率后,您会得到与第二组非常相似的信息),但对图的解释似乎会容易一些。

[当然,这些东西都不会告诉我们,数据提取的分布实际上是对称的;我们得到了样本接近对称程度的指示,因此在此程度上我们可以判断数据是否与从近似对称总体中得出的数据合理地一致。


3
@ user72943如果您对此完全满意,请不要忘记回来选择Glen_b的答案。您可能需要稍等片刻,看看是否有人提出了更好的答案,但是如果您接受答案,Glen_b将获得更多的荣誉。
韦恩

3
+1,但有点怪。我发现(上分位数下分位数)/ 2与(上分位数下分位数)的图比对称图更直接。对于分位数读取顺序统计(如果需要)。参考情况是对称分布,其中成对的分位数的平均值均等于中位数,因此对称分布绘制为一条直线。轻微的和明显的不对称都很容易发现,例如(在中间)近似对称,在一条或两条尾巴上都有明显的例外。-+-
尼克·考克斯

6
+1在EDA中,John Tukey只是绘制了一系列中音。这些是精心选择的索引序列(近似等)的值。 )。在某些方面,该图优于对称图,因为它可以滤除过多的细节,并有助于观察者关注对称(或缺少对称)随着移入尾部而如何变化。一旦掌握了n个字母的摘要,它的另一个好处就是可以立即轻松计算,而摘要又可以直接从茎叶图上读取。ÿñ+1个-一世+ÿ一世/2一世ñ/2ñ/4ñ/8
whuber

1
@whuber和我正在谈论相同的基本思想。区别在于绘制所有成对的订单统计信息(在实践中不会分散注意力)或仅绘制一些统计信息。
尼克·考克斯

1
(SSC)文档中stata-journal.com/sjpdf.html?articlenum=gr0003中以及Stata用户的参考skewplot。这个想法至少可以追溯到在Wilk,MB和Gnanadesikan,R. 1968年提出的JW Tukey的建议。数据分析的概率绘图方法。Biometrika 55:1-17。
尼克·考克斯

6

最简单的方法是计算样本偏度。Minitab中为此提供了一个功能。对称分布将具有零偏度。零偏度并不一定意味着对称,但在大多数实际情况下,它将是对称的。

正如@NickCox所指出的,关于偏斜度的定义不止一个。我使用的是与Excel兼容的,但您也可以使用其他任何一个。


2
我认为这需要阐明。特别地,不存在“偏度”之类的东西。有很多措施,甚至不常见的措施也常常与常见的措施一样有用或有趣(例如L力矩)。这些诱惑,关于标准化的第三时刻,因为措施(这是我的默认,太)应注意,皮尔逊,以及许多其他作者进入20世纪,偏度最经常相对于模式下测得。
尼克·考克斯

任何偏度系数除了缺乏足够的检测不对称性的能力(如您正确指出的那样)之外,还(绝对)不稳健,因为它基于第三个采样矩。同样,由于可以通过许多(有趣的方式)违反对称性,因此对称性的单一数值表征很难替代探索性数据分析文献中描述的更丰富的图形诊断。
whuber

1

通过减去样本均值,将数据定为零。现在,将您的数据分为两个部分,负数和正数。取负数据点的绝对值。现在,通过将两个分区相互比较,进行两个样本的Kolmogorov-Smirnov测试。根据p值得出结论。


0

将您的观察结果按递增值放在一列中,然后将其按递减值排列在另一列中。
然后计算这两列之间的相关系数(称为Rm)。
计算手性指数:CHI =(1 + Rm)/ 2。
CHI取值范围为[0..1]。
如果您的样本对称分布,则CHI为空,并且仅当样本对称分布时。
无需第三刻。
理论:
http : //petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(这两页中引用的大多数论文都可以pdf下载)
希望它帮助,甚至最近。


相关性Rm是否一定为负值?我不知道除非Rm为1,否则CHI怎么可能为1,但是由于col1排序为递增而col2排序为递减,因此RM <= 0,这意味着CHI将采用[0,.5]中的值。我想念什么吗?
gung-恢复莫妮卡

是Rm不能为正,CHI不能超过1/2,因为随机变量的分布取实线上的值。实际上,上限1来自引入手性指数的一般理论。对于在更一般的空间中采用值的随机变量的分布来说,这是有意义的。该理论超出了当前讨论的范围,但是在我之前提到的两个网页中也有介绍。
Petitjean

请注册和/或合并您的帐户(您可以在我们的帮助中心的“ 我的帐户”部分中找到有关如何执行此操作的信息),然后就可以对自己的问题进行编辑和评论。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.