如何解释修整百分比与修整平均值的关系图?


12

对于作业问题的一部分,我被要求通过删除最小和最大的观测值来计算数据集的修整平均值,并解释结果。修整后的平均值低于未修整的平均值。

我的解释是,这是因为基础分布正偏,所以左尾比右尾更密。由于这种偏斜,删除高基准数据会比平均低基准数据向下拖累平均值下降更多,因为从非正式的角度来说,还有更多的低数据在“等待取代”。(这合理吗?)

然后,我开始怀疑修整百分比如何对其产生影响,因此我针对各种计算了修整后的平均值。我得到了一个有趣的抛物线形状: x¯tr(k)k=1/n,2/n,,(n21)/n修整百分比与修整平均值的关系图; 形成一个看起来像抛物线的凹曲线

我不太确定该如何解释。从直觉上看,似乎曲线图的斜率应该(与中位数的数据点内的分布部分的负偏度成正比)。(这个假设确实可以验证我的数据,但是我只有,所以我不太有把握。)kn=11

这种类型的图是否有名称,还是常用的?我们可以从该图中收集哪些信息?有标准解释吗?


作为参考,数据为:4、5、5、6、11、17、18、23、33、35、80。

Answers:


11

@gung和@kjetil b。halvorsen都是正确的。

我发现在这样的图

Rosenberger,JL和M. Gasko。1983年。比较位置估算器:修剪均值,中位数和三边形。在理解健壮和探索性的数据分析,编辑。DC Hoaglin,F。Mosteller和JW Tukey,297-338。纽约:威利。

Davison,AC和DV Hinkley。1997. Bootstrap方法及其应用。 剑桥:剑桥大学出版社。

并在

Cox,新泽西州,2013年。修整口味。Stata Journal 13:640–666。http://www.stata-journal.com/article.html?article=st0313 [免费访问pdf]

讨论了修整手段的许多方面。

据我所知,该图没有唯一的名称。每个可能情节的不同名称实际上将是一场噩梦:图形化术语已经是一团糟。我只是称其为修整后的平均值与修整后的数字,分数或百分比的关系图(因此颠倒了OP的措辞)。

有关“对抗”的更多小评论,请参阅我在回归中的异方差问题中的回答

编辑:有关(仅语言专家)的更多信息,请参见此处


10

我从未听过这张图,但是我认为它很整洁。可能有人曾经这样做过。如果您认为数据的不同比例离群值,那么您可以使用它来查看均值如何移动和/或稳定。之所以具有抛物线形状,是因为您的(初始)分布总体上是正确偏斜的,但是偏斜的程度在分布的中心并不相同。为了进行比较,请考虑下面的内核密度图。

在此处输入图片说明

左侧是您的数据,它们被一一修剪。右边是这些数据:y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416),它们是标准对数正态分布的分位数,取自等距的百分位数,然后乘以20以使值的范围相似。

您的数据开始右偏,但是到第5行时,它们左偏,因此修剪更多数据开始使均值上升。随着修剪的继续,右侧的数据保持相似的偏斜。

以下是对数正态数据和统一数据(z = 1:11,无偏斜-完全对称)的绘图。

在此处输入图片说明 在此处输入图片说明


4

我认为这种图形没有名称,但是您的操作是合理的,并且您的解释是有效的。我认为您正在做的事情与Hampel的Impact函数有关,请参阅https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function, 尤其是关于经验影响函数的部分。而且您的图肯定可以与数据偏度的某种度量有关,因为如果数据完全对称,则图将是平坦的。您应该对此进行调查!

            EDIT     

此图的一个扩展是还显示在左侧和右侧使用不同修剪的效果。由于这不是在R中mean带有参数的常规函数中实现的trim,因此我编写了自己的修整均值函数。为了获得更平滑的图,当修整分数意味着删除非整数点数时,我使用线性插值。这提供了功能:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

然后,我模拟一些数据并将结果显示为等高线图:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

得到这个结果:

等高线图显示修剪效果

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.