有Poisson分布式数据的箱线图变体吗?


33

我想知道是否有适合于Poisson分布式数据(或其他分布)的boxplot变量?

对于高斯分布,晶须位于L = Q1-1.5 IQR和U = Q3 + 1.5 IQR的情况下,箱线图的属性是低异常值(L下方的点)与高异常值(U上方的点)一样多)。

但是,如果数据是泊松分布,则由于正偏度而不再成立,我们得到Pr(X <L)<Pr(X> U)。是否有其他方法放置晶须,使其“适合”泊松分布?


2
尝试先登录吗?您可能还会说您希望箱形图能够“很好地适应”。
conjugateprior

2
进行这种修改存在一个问题-人们习惯于标准箱线图的定义,无论您是否喜欢,在查看地块时很可能会采用这种定义。因此,这可能带来更多的混乱而不是收益。

@mbq:>具有箱线图的东西是它们将两个功能组合到一个工具中。数据可视化功能(方框)和异常值检测功能(晶须)。您所说的绝对是前者所说的,但后者可能会使用偏斜调整。
2011年

@conjugateprior这是一个泊松样本:0、0、1、0、1、2、0、0、1、0、0 ....注意仅记录日志时出现问题吗?
Glen_b-恢复莫妮卡

@Glen_b这一定是为什么它是评论而不是答案的原因。以及为什么有两个部分。
conjugateprior

Answers:


31

箱形图并非旨在确保在所有情况下都超出晶须末端的可能性很小:它们旨在并且通常用作数据集大部分的简单图形表征。这样,即使数据的分布非常偏斜(尽管它们可能不会显示出与大约未偏斜的分布一样多的信息),它们也很好。

当箱形图倾斜时(如使用Poisson分布时那样),下一步是重新表达基础变量(具有单调递增的变换)并重新绘制箱形图。因为泊松分布的方差与其平均值成正比,所以要使用的一个很好的变换是平方根。

每个箱线图都以给定强度(从1到10,针对每个强度进行两次试验)描绘了来自泊松分布的50个iid绘制。请注意,偏度往往较低。

并排箱线图

平方根尺度上的相同数据趋于具有稍微对称的箱形图,并且(强度最低的除外)具有近似相等的IQR,而与强度无关。

转换数据的箱线图

总而言之,不要更改boxplot算法:而是重新表达数据。


顺便说一句,计算的相关机会是:根据相同分布的n次独立抽奖估算出,一个独立的正态变量会超过该上限(下限) UL)的几率是多少?XULn 这说明了箱线图中的围栏不是根据基础分布进行计算,而是根据数据进行估算的事实。在大多数情况下,机会远大于1%!例如,此处(基于10,000次蒙特卡洛试验)是情况下对数(以10为底)几率的直方图:n=9

机会直方图

(由于正态分布是对称的,因此此直方图适用于两个围栏。)1%/ 2的对数约为-2.3。显然,在大多数情况下,可能性大于此。大约有16%的时间超过10%!

事实证明(我不会在细节上打乱这个答案),即使对于强度低至1的泊松分布,这些机会的分布也可以与正常情况(对于小)相比较。主要区别在于,通常不太可能找到低异常值,而更有可能找到高异常值。n


1
+1,我以前没看过这个话题。我在这篇文章中以不同的方式提出了(我相信)水平规则之后在这里讨论的同一点:是否删除统计软件标记为异常值的案例
gung-恢复莫妮卡

是的,@ gung是同一点,您在此处发布了一个不错的答案。
ub

26

我知道标准箱形图的一般化,其中晶须的长度经过调整以解决倾斜的数据。可以在非常清晰简明的白皮书中更好地解释细节(Vandervieren,E.,Hubert,M.(2004)“针对偏斜分布的调整后的箱线图”, 请参见此处)。

有一个实现(robustbase :: adjbox())和一个matlab的实现(在名为libra的库中)。Rrobustbase::adjbox()libra

我个人发现它是数据转换的更好替代方法(尽管它也基于临时规则,请参见白皮书)。

顺便说一句,我发现我在这里添加了一些内容。扩展到我们讨论晶须的行为时,我们还应该真正考虑考虑污染数据时发生的情况:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

在此污染模型中,B1本质上具有对数正态分布,只保存了左半,右半异常值的数据的20%(adjbox的分解点与常规箱形图的分解点相同,即,假设最多25%的数据可能是错误的)。

这些图描述了转换后数据的经典箱形图(使用平方根转换)

数据平方根变换的经典箱线图

以及未转换数据的调整后的箱线图。

调整后的未转换数据箱线图

与调整后的箱线图相比,前一个选项掩盖了真实的异常值并将良好的数据标记为异常值。通常,它将通过将违规点分类为异常值来隐藏数据中的任何不对称证据。

在此示例中,在数据的平方根上使用标准箱线图的方法找到13个离群值(全部在右侧),而调整后的箱线图找到10个右离群值和14个左离群值。

编辑:简而言之,调整后的箱形图。

在“经典”箱图中,晶须放在:

Q1Q3

其中IQR是分位数范围,是数据的第25个百分点,是数据的第75个百分点。经验法则是将围栏外的所有内容都视为可疑数据(围栏是两个晶须之间的间隔)。Q1Q3

这条经验法则是临时的:理由是,如果数据的未污染部分约为高斯,则使用此规则将不到1%的好数据分类为坏数据。

OP指出,该规则的弱点在于两个晶须的长度相同,这意味着只有在数据的未污染部分具有对称分布的情况下,规则才有意义。

一种流行的方法是保留围篱规则并修改数据。这个想法是使用一些偏斜校正的单调变换(平方根或对数或更一般的box-cox变换)来变换数据。这种方法有些混乱:它依赖循环逻辑(应选择转换方式,以纠正数据的未污染部分的偏斜度,这在此阶段是不可观察的),并且往往使数据难以解释视觉上。无论如何,这仍然是一个奇怪的过程,在此过程中,人们更改数据以保留毕竟的即席规则。

另一种选择是保持数据不变并更改晶须规则。调整后的箱线图允许每个晶须的长度根据测量数据未污染部分的偏斜度的指数而变化:

Q1 - 1.5 * IQR和 + 1.5 * IQRexp(M,α)Q3exp(M,β)

其中是数据的未污染部分的偏度指数(即,中位数是数据的未污染部分的位置度量,而MAD是数据的未污染部分的扩散度量)和是选择的数字,这样对于未受污染的偏态分布,在较大的偏态分布集合中,位于篱笆外部的可能性相对较小(这是篱笆规则的特别部分)。Mα β

对于大部分数据对称的情况,,我们回到经典的晶须上。M0

作者建议使用med-couple作为的估计量(请参见白皮书中的参考文献),因为它具有很高的效率(尽管原则上可以使用任何鲁棒的偏斜指数)。通过选择,他们随后根据经验(使用大量偏斜分布)计算出最佳和:MMαβ

Q1 - 1.5 * IQR和 + 1.5 * IQR,如果exp(4M)Q3exp(3M)M0

Q1 - 1.5 * IQR和 + 1.5 * IQR,如果exp(3M)Q3exp(4M)M<0


1
我很想知道您如何找到我的示例“无用”-仅以此商标本身就没有建设性。我将承认该示例在某种程度上令人失望,因为数据转换并不能代表惊人的改进。这就是泊松分布的缺点:它们的偏斜度不足以值得所有这些分析困扰!
Whuber

@whuber:>首先,对口气表示抱歉:它来自未经编辑的初稿,并且已得到更正(我通常会写一些速记段落,作为对自己的注释,然后反复遍历它们-这一点在回应时间长)。现在,对于批评者本身:您的示例通过在数据未被污染的情况下进行转换来描述解决方案的行为。恕我直言,晶须规则应该-可能是初步评估-考虑到污染模型。
2011年

@user感谢您的澄清。我不介意批评,这很有趣,并且我感谢参考调整后的箱形图。(+1)
抱怨者

我同意user603的观点,即您检查的是纯分布(例如在回答问题时),还是具有来自分布的数据以及一些异常值(此处讨论为污染),这是有所不同的。从我的角度来看,在实际设置中,箱形图用于扫描异常值。随后,对剔除异常值的箱形图的分析以某种方式遗漏了这一点。因此,此答案似乎更好地满足了使用箱形图的目的。
亨里克

2
@Henrik识别异常值只是盒装图的众多目的之一。Tukey的方法是首先找到对数据进行适当的重新表达,使它们的分布中间部分近似对称。这消除了对偏斜度进行任何调整的需要。就允许在箱形图之间进行比较而言,这已经完成了很多工作,这才是真正有用的地方。“调整”晶须完全错过了这个基本问题。因此,我会谨慎使用该调整:它的需要是一个信号,表明分析工作做得不好。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.