我想知道是否有适合于Poisson分布式数据(或其他分布)的boxplot变量?
对于高斯分布,晶须位于L = Q1-1.5 IQR和U = Q3 + 1.5 IQR的情况下,箱线图的属性是低异常值(L下方的点)与高异常值(U上方的点)一样多)。
但是,如果数据是泊松分布,则由于正偏度而不再成立,我们得到Pr(X <L)<Pr(X> U)。是否有其他方法放置晶须,使其“适合”泊松分布?
我想知道是否有适合于Poisson分布式数据(或其他分布)的boxplot变量?
对于高斯分布,晶须位于L = Q1-1.5 IQR和U = Q3 + 1.5 IQR的情况下,箱线图的属性是低异常值(L下方的点)与高异常值(U上方的点)一样多)。
但是,如果数据是泊松分布,则由于正偏度而不再成立,我们得到Pr(X <L)<Pr(X> U)。是否有其他方法放置晶须,使其“适合”泊松分布?
Answers:
箱形图并非旨在确保在所有情况下都超出晶须末端的可能性很小:它们旨在并且通常用作数据集大部分的简单图形表征。这样,即使数据的分布非常偏斜(尽管它们可能不会显示出与大约未偏斜的分布一样多的信息),它们也很好。
当箱形图倾斜时(如使用Poisson分布时那样),下一步是重新表达基础变量(具有单调递增的变换)并重新绘制箱形图。因为泊松分布的方差与其平均值成正比,所以要使用的一个很好的变换是平方根。
每个箱线图都以给定强度(从1到10,针对每个强度进行两次试验)描绘了来自泊松分布的50个iid绘制。请注意,偏度往往较低。
平方根尺度上的相同数据趋于具有稍微对称的箱形图,并且(强度最低的除外)具有近似相等的IQR,而与强度无关。
总而言之,不要更改boxplot算法:而是重新表达数据。
顺便说一句,计算的相关机会是:根据相同分布的n次独立抽奖估算出,一个独立的正态变量会超过该上限(下限) U(L)的几率是多少? 这说明了箱线图中的围栏不是根据基础分布进行计算,而是根据数据进行估算的事实。在大多数情况下,机会远大于1%!例如,此处(基于10,000次蒙特卡洛试验)是情况下对数(以10为底)几率的直方图:
(由于正态分布是对称的,因此此直方图适用于两个围栏。)1%/ 2的对数约为-2.3。显然,在大多数情况下,可能性大于此。大约有16%的时间超过10%!
事实证明(我不会在细节上打乱这个答案),即使对于强度低至1的泊松分布,这些机会的分布也可以与正常情况(对于小)相比较。主要区别在于,通常不太可能找到低异常值,而更有可能找到高异常值。
我知道标准箱形图的一般化,其中晶须的长度经过调整以解决倾斜的数据。可以在非常清晰简明的白皮书中更好地解释细节(Vandervieren,E.,Hubert,M.(2004)“针对偏斜分布的调整后的箱线图”, 请参见此处)。
有一个实现(robustbase :: adjbox())和一个matlab的实现(在名为libra的库中)。
我个人发现它是数据转换的更好替代方法(尽管它也基于临时规则,请参见白皮书)。
顺便说一句,我发现我在这里添加了一些内容。扩展到我们讨论晶须的行为时,我们还应该真正考虑考虑污染数据时发生的情况:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
在此污染模型中,B1本质上具有对数正态分布,只保存了左半,右半异常值的数据的20%(adjbox的分解点与常规箱形图的分解点相同,即,假设最多25%的数据可能是错误的)。
这些图描述了转换后数据的经典箱形图(使用平方根转换)
以及未转换数据的调整后的箱线图。
与调整后的箱线图相比,前一个选项掩盖了真实的异常值并将良好的数据标记为异常值。通常,它将通过将违规点分类为异常值来隐藏数据中的任何不对称证据。
在此示例中,在数据的平方根上使用标准箱线图的方法找到13个离群值(全部在右侧),而调整后的箱线图找到10个右离群值和14个左离群值。
在“经典”箱图中,晶须放在:
其中IQR是分位数范围,是数据的第25个百分点,是数据的第75个百分点。经验法则是将围栏外的所有内容都视为可疑数据(围栏是两个晶须之间的间隔)。
这条经验法则是临时的:理由是,如果数据的未污染部分约为高斯,则使用此规则将不到1%的好数据分类为坏数据。
OP指出,该规则的弱点在于两个晶须的长度相同,这意味着只有在数据的未污染部分具有对称分布的情况下,规则才有意义。
一种流行的方法是保留围篱规则并修改数据。这个想法是使用一些偏斜校正的单调变换(平方根或对数或更一般的box-cox变换)来变换数据。这种方法有些混乱:它依赖循环逻辑(应选择转换方式,以纠正数据的未污染部分的偏斜度,这在此阶段是不可观察的),并且往往使数据难以解释视觉上。无论如何,这仍然是一个奇怪的过程,在此过程中,人们更改数据以保留毕竟的即席规则。
另一种选择是保持数据不变并更改晶须规则。调整后的箱线图允许每个晶须的长度根据测量数据未污染部分的偏斜度的指数而变化:
- 1.5 * IQR和 + 1.5 * IQR
其中是数据的未污染部分的偏度指数(即,中位数是数据的未污染部分的位置度量,而MAD是数据的未污染部分的扩散度量)和是选择的数字,这样对于未受污染的偏态分布,在较大的偏态分布集合中,位于篱笆外部的可能性相对较小(这是篱笆规则的特别部分)。
对于大部分数据对称的情况,,我们回到经典的晶须上。
作者建议使用med-couple作为的估计量(请参见白皮书中的参考文献),因为它具有很高的效率(尽管原则上可以使用任何鲁棒的偏斜指数)。通过选择,他们随后根据经验(使用大量偏斜分布)计算出最佳和:
- 1.5 * IQR和 + 1.5 * IQR,如果
- 1.5 * IQR和 + 1.5 * IQR,如果