使用中位数计算方差


10

我有一个一维随机变量,它非常偏斜。为了规范化此分布,我想使用中位数而不是均值。我的问题是:我可以使用公式中的中位数而不是均值来计算分布的方差吗?

即我可以更换

Var(X)=[(Ximean(X))2]/n

Var(X)=[(Ximedian(X))2]/n

我这样做的理由是,由于方差是衡量分布的趋势,而分布是集中分布的主要趋势,所以这不应该成为问题,但我正在寻找验证这种逻辑的方法。



1
通过将变量居中,然后将其除以MAD(中位数绝对偏差),可以创建中位数标准化分布。
Mike Hunter

5
你可以这样做!但是我认为将其称为高度非标准是合理的,并建议您需要理论和/或模拟来支持它,而不仅仅是您的直觉。我怀疑它的抗性不如标准估算器。例如,在常见的右偏情况下,中位数将小于平均值,因此(与中位数相比)最大的平方偏差将更大!要点是,如果方差是非常不可信的,则可能需要考虑以不同的方式衡量价差,而不是方差的不同版本。
尼克·考克斯

1
正交点:“归一化”是否以某种方式表示尺度,例如(值位置)/尺度,还是意味着接近于法线(高斯)?
尼克·考克斯

1
这种方法本质上是不一致的,因为通过使用方差而不是扩展的鲁棒估计器来放大通过用中位数代替平均值来解决的问题。
ub

Answers:


9

均值可最小化平方误差(或L2范数,请参见此处此处),因此方差的自然选择是使用平方误差来度量与均值之间的距离(请参阅此处了解为何求平方)。另一方面,中位数使绝对误差(L1范数)最小化,即它是数据“中间”的值,因此与中位数的绝对距离(所谓的中位数绝对偏差或MAD)似乎是更好地衡量中位数附近的变化程度。您可以在此线程中阅读有关此关系的更多信息。

简而言之,方差与MAD在如何定义数据中心点方面有所不同,这会影响我们测量其周围数据点变化的方式。值的平方使离群值对中心点(平均值)有更大的影响,而在中位数的情况下,所有点都对中心点具有相同的影响,因此绝对距离似乎更合适。

这也可以通过简单的模拟来显示。如果将值与均值和中位数的平方距离进行比较,则总平方距离几乎总是比均值小。另一方面,总的绝对距离与中位数相比较小,然后与均值相比较小。用于执行模拟的R代码在下面发布。

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

在使用中位数而不是平均值来估计这种“方差”的情况下,与传统上使用平均值相比,这将导致更高的估算值。

顺便说一下,也可以在贝叶斯上下文中考虑L1和L2规范的关系,就像在该线程中一样

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.