健壮的(非参数)度量,例如变异系数— IQR /中位数,还是替代方法?


12

对于给定的一组数据,通常将扩散作为标准偏差或IQR(四分位数间距)进行计算。

尽管a standard deviation是归一化的(z得分等),因此可以用来比较两个不同总体的传播,但IQR情况并非如此,因为来自两个不同总体的样本可能具有两个完全不同的尺度值,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

我需要的是一种可靠的(非参数)度量,可以用来比较不同总体中的差异。

选择1: IQR / Median-类似于变异系数,即。σμ

选择2: Range / IQR

问题:比较人群之间的差异,哪种方法更有意义?如果选择1是选择2是否对任何事情都有意义/有意义,还是从根本上存在缺陷的措施?


感谢您的有益讨论。一些有用的后续操作-四分位数的定义不同,因此也有IQR(John),实际上没有标准化的标准差(Harvey)和QQ图作为比较两个分布的工具(Peter)。(对所有三个答案+1!)
阿萨德·易卜拉欣

Answers:


13

该问题意味着标准偏差(SD)已以某种方式归一化,因此可以用来比较两个不同总体的变异性。不是这样 正如Peter和John所说,这种归一化是在计算等于SD / Mean 的变异系数(CV)时完成的。SD与原始数据的单位相同。相反,CV是无单位比率。

您的选择1(IQR /中位数)类似于CV。像CV一样,仅当数据为比率数据时才有意义。这意味着零实际上是零。权重为零就是没有权重。长度为零就是没有长度。作为反例,以C或F为单位的温度是没有意义的,因为零度温度(C或F)并不意味着没有温度。只需在使用C或F标度之间切换即可为CV或IQR / Median之比提供不同的值,这会使这两个比值毫无意义。

我同意Peter和John的观点,即您的第二个想法(Range / IQR)对异常值的鲁棒性不强,因此可能没有用。


2
Harvey-谢谢-没错,SD根本没有被归一化...我很困惑z-scores用于标准化值并根据均值和标准偏差归一化分布在分布中的位置的概念,这个问题使关于能够按照产品的可变性对产品组进行排名。选择您的答案是正确的答案,因为虽然Peter和John都非常有帮助,但您的答案却提醒我注意概念上的混淆。选择1的好处是在中位数0附近的使用受到限制。幸运的是,在我的问题中,我不必为此担心。
阿萨德·易卜拉欣

我想在论文中使用它。它有没有被引用的好地方(书/同行评审的地方)?
Ben Bolker

15

重要的是要认识到最小值和最大值通常不是很好的统计数据(即,它们可能在样本之间波动很大,并且不遵循正态分布,例如由于中央极限定理而导致的均值) 。结果,除了陈述这个精确样本的范围之外,对于其他任何东西而言,范围很少是一个很好的选择。对于表示变异性的简单非参数统计量而言,四分位数间距要好得多。但是,尽管我看到了IQR /中位数和变异系数之间的类比,但我认为这可能不是最佳选择。

您可能需要研究与中位数MADM的中位数绝对偏差。也就是说: 我怀疑与变异系数更好的非参数类比是MADM / median,而不是IQR / median。

MADM=median(|ximedian(x)|)

1
的有趣选择MADM/median,本质上是与中间值的中间差。我们将其称为“选择3”。同意您对选择1的评估,谢谢。当您建议“更好”时,可以使用哪些属性将选择2与选择3进行比较以查看哪个更好?
阿萨德·易卜拉欣

1
您将使用的属性取决于指标的目标。但是,我只是说这是对CoV 的更好比喻。请注意,第3个四分位数是数据中位数的中位数,第1个q是小于数据中位数的中位数,因此从长远来看,IQR / 2等于MADM(nb,不能保证它们相等)在给定的样本中)。IQR会从流行音乐的真实价值上进一步变化,但我不确定会产生什么影响和立场。呃。IQR / 2的值应与MADM的SE相同。
gung-恢复莫妮卡

我明白了,谢谢您的澄清。关于Q3和Q1的中位数解释的要点。我会MADM/median一起尝试IQR/median。并排比较可能很有趣。(+1为有趣的建议)
阿萨德·易卜拉欣

6

如果您出于减少离群值影响的通用目的而使用非参数,则需要“选择1”。即使您因为偏斜而使用它,也具有通常在尾部具有极高值的副作用,但也可能是异常值。您的“选择2”可能会受到异常值或任何极端值的极大影响,而第一个方程式的组成部分相对于它们而言则相对稳健。

[这将取决于您选择哪种IQR(请参阅R分位数帮助)。]


没错,我应该说“这与变异系数的定义不符 ……(现在已在问题中修复)!
Assad Ebrahim 2012年

感谢您的评论取决于您选择的IQR类型...- 我还没有意识到四分位数/分位数的可能定义!我正在使用Excel的内置quartile( )功能,然后使用IQR := Q3 - Q1。我的数字来自一年中每周测量的时间序列。度量是工业性能度量,因此来自连续分布。不同的人群是不同的产品组。在这种情况下,我认为不同的定义在实践中不会有很大不同吗?
阿萨德·易卜拉欣2012年

6

我不喜欢计算像CV这样的度量,因为我几乎总是对随机变量有一个任意的原点。关于选择可靠的弥散量度,很难击败吉尼的均值差,该均值是两个观测值之间所有差值的所有可能绝对值的均值。为了进行有效的计算,请参见例如R rmsGiniMd功能。在正常情况下,Gini的平均差与SD的估计色散效率相差0.98。


3

像@John一样,我从未听说过变异系数的定义。我不会说如果使用它,它将使人们感到困惑。

“哪个最有用?” 将取决于您要使用它的用途。当然,如果您确定这是您想要的,那么选择1对异常值的鲁棒性更高。但是比较两个分布的目的是什么?你想做什么?

一种选择是使这两种措施标准化,然后查看摘要。

另一个是QQ剧情。

还有很多其他的。


好点-应该说变异系数类似(我已进行了更正)。
阿萨德·易卜拉欣

我的数字来自一年中每周测量的时间序列。度量是工业性能度量,因此来自连续分布。不同的人群是不同的产品组,我大约有50个产品组。我正在尝试做的是能够比较不同产品组之间的固有差异。特别是,我希望能够以可变性的降序对产品组进行排名。
阿萨德·易卜拉欣2012年

您是什么意思,“先将两项措施标准化,然后查看摘要”?我以为选择1正在将它们标准化...!
阿萨德·易卜拉欣

2

本文为变异系数提出了两个很好的鲁棒替代方案。一是四分位数间距除以中位数,即:

IQR /中位数=(Q3-Q1)/中位数

另一个是中位数绝对偏差除以中位数,即:

MAD /中位数

他们进行了比较,并得出结论,一般来说,第二个变量的变量较小,对于大多数应用程序来说可能更好。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.