如何解释变异系数?


33

我试图了解变化系数。当我尝试将其应用于以下两个数据样本时,我无法理解如何解释结果。

假设样本1为 ,样本2为。如您所见,这里的样本2样本1。10 15 17 22 21 27 = + 100,5,7,12,11,17101517222127=+ 10

两者具有相同的标准偏差但和。μ 2 = 18.67 μ 1 = 8.66667σ2=σ1个=5.95539μ2=18.67μ1个=8.66667

现在,变异系数将有所不同。对于样本2,它将小于样本1。但是,我如何解释该结果?就方差而言,两者是相同的;只是他们的手段不同。那么,这里的变异系数有什么用呢?这只是在误导我,或者也许我无法解释结果。σ/μ


如果不是增加10,而是增加1000,则第二组数字相对于平均值的差异将小于第一组。变异系数就是对此的一种表达。

Answers:


42

在像您这样的示例中,当数据只是相加时,即我们对所有事物都添加了一个常数,那么当您指出标准偏差不变时,均值将精确地更改为该常数,因此变异系数从到,既有趣又无用。σ / μ σ /μ + ķ ķσ/μσ/μ+ķ

这是倍增的变化,很有趣,变化系数也有一定用处。将所有内容乘以某个常数意味着变化系数变为,即保持与以前相同。就像@Aksalal和@Macond的答案一样,更改度量单位就是一个很好的例子。ķ σ / ķ μķķσ/ķμ

由于变异系数是无单位的,因此它也是无量纲的,因为基础变量拥有的任何单位或维数都会被除法洗掉。这使变异系数成为相对变异性的量度,因此可以将长度的相对变异性与权重的变异性进行比较,依此类推。变异系数已找到描述性用途的一个领域是生物学中生物体大小的形态计量学。

原则上和实践中,变异系数仅被完全定义,并且对于完全为正的变量完全有用。因此,详细地讲,您的第一个值为样本不是合适的示例。另一种看待这种情况的方式是要注意,假设平均值是零,则系数将是不确定的;如果平均值是负数,则系数将是负的(假设在后一种情况下标准偏差为正)。不论哪种情况,都会使该度量作为相对变异性的度量无效,或者实际上出于任何其他目的。 0

一个等效的说法是,仅当以通常的方式为所有值定义对数时,方差系数才有意义并且有用,并且实际上使用方差系数等效于查看对数的可变性。

尽管在这里让读者觉得不可思议,但我看到了一些气候和地理出版物,其中摄氏温度的变化系数使天真的科学家感到困惑,他们注意到,随着平均温度接近 C并变为负值,该系数可能会爆炸。平均温度低于冰点。更奇怪的是,我看到有人建议通过改用华氏温度解决问题。相反,当且仅当度量标准符合比例标准时,方可正确地将变异系数作为总结度量正确提及。碰巧的是,即使对于以开尔文测量的温度,变化系数也不是特别有用,而是出于物理原因而不是数学或统计上的。0

就像气候学中的奇异例子一样,由于作者既不应该得到荣誉也不应该感到羞耻,因此我不予提及,变异系数在某些领域已被过度使用。有时有一种趋势将其视为一种封装平均值和标准差的魔术汇总量度。这自然是原始的思维,因为即使比率有意义,也无法从中恢复平均值和标准偏差。

在统计中,如果变异遵循伽马或对数正态,则变异系数是一个相当自然的参数,这可以通过查看那些分布的变异系数的形式来看出。

尽管变异系数可以使用,但在应用变异系数的情况下,更有用的步骤是通过对数转换或在广义线性模型中使用对数链接函数,以对数规模工作。

编辑:如果所有值均为负,则我们可以将符号视为可以忽略的约定。在这种情况下,等效的是实际上是变异系数的同卵双胞胎。σ/|μ|


3
+1这篇文章包括有关对数和正数的要点,这应该是对该问题进行任何讨论的一部分。“战争故事”也使它读起来很好。
ub

我以为如果变量= 0,您将无法计算CV?

1
@杰夫:仔细考虑。如果所有值均为0,则没有任何变化,也无需计算。仅因为某些单个值是0是没有问题的,因为它本身并不排除平均值为0。但是,您始终可以找到一些值不为零而平均值为0的示例,例如-1、0、1 in在这种情况下,简历是不确定的。但实际上,当所有值均为正值时,CV最有用。
尼克·考克斯

13

想象一下,我说:“这个镇上有1,625,330人。正负5人。” 我的准确的人口统计知识会给您留下深刻的印象。

但是,如果我说:“这房子里有五个人。正负五个。” 您可能以为我不知道房子里有多少人。

标准偏差相同,简历差异很大。


1
这是解释CoV是什么的合理方法,但尚不清楚它与OP的问题有多相关。
gung-恢复莫妮卡

OP问:“就方差而言,两者是相同的;只是它们的均值是不同的。那么这里的变异系数有什么用?” 我认为我的示例说明了使用CV作为解释方差的一种方式。
巴特2015年

1
我没有投票给你。OP的2个明确问题是:“如何解释该结果?”,以及“这里的变异系数有什么用?”。您的解释不错,但了解CoV是什么,仅是回答这些问题的第一步,而不是这些问题的全部答案。
gung-恢复莫妮卡

4

通常,对不同度量单位或非常不同的比例的变量使用变异系数。您可以将其视为噪声/信号比。例如,您可能想比较学生的体重和身高的变异性;美国和摩纳哥的GDP差异。

在您的情况下,变异系数可能根本没有多大意义,因为这些值相差无几。



2

实际上,如果您不了解或不了解自己的假设和实验,那么两种统计数据都可能会产生误导。考虑这个令人毛骨悚然的例子。。。走在两座高层建筑的绳索上,而不是走在木板上。假设绳索的直径为1英寸,而木板的宽度为12英寸。5个人被要求走绳索,5个人被要求走木板。我们发现以下结果:

每一步距绳索边缘(或侧面)的平均距离(英寸):0.5、0.2、0.3、0.6、0.1

每步距木板边缘(或侧面)的平均距离(英寸):5.5、5.2、5.3、5.6、5.1

就像您的示例一样,此示例将导致相等的标准偏差,因为木板的值与钢丝绳的值仅相差+5。但是,如果我告诉您每个实验的标准偏差为0.2074,您可能会说得很好,那么两个实验是等效的。但是,如果我告诉你,钢丝绳实验的CV几乎为61%,而木板的CV不到4%,那么你可能会问我有多少人从绳子上掉下来。


0

CV是一个相对变异性,用于比较不同样本数据集的变异性。例如,相同的标准偏差/方差较小的平均值将产生较小的CV。它表明较小的CV数据集具有较小的相对变异性。假设您每月赚取10000,而我赚取100。(不同的均值)我们每个月可能都损失100(变动),由于我得到的CV更大(相对于您的cv = 1,cv = 1),我受到的伤害要比您大得多变化更大。


1
我必须说,这不会对现有答案添加任何内容。
尼克·考克斯

0

在这种情况下,cv不是解释结果的正确统计工具。

根据目标的研究性质,研究者具有特定的假设或证明依据。他或她必须使用最佳和适当的统计工具设计,执行实验并分析数据,例如,如果实验是为了比较第1组和第2组的生长,尽管两者的CV相同,但应使用T检验或配对的T-测试或Anova(更大的实验),就可以轻松证明两组之间的差异。

此处的关键是应用适当的统计工具对结果进行有意义的解释。请记住,简历只是描述性统计中的一种选择。

我的2美分

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.