我试图了解变化系数。当我尝试将其应用于以下两个数据样本时,我无法理解如何解释结果。
假设样本1为 ,样本2为。如您所见,这里的样本2样本1。10 ,15 ,17 ,22 ,21 ,27 = + 10
两者具有相同的标准偏差但和。μ 2 = 18.67 μ 1 = 8.66667
现在,变异系数将有所不同。对于样本2,它将小于样本1。但是,我如何解释该结果?就方差而言,两者是相同的;只是他们的手段不同。那么,这里的变异系数有什么用呢?这只是在误导我,或者也许我无法解释结果。
我试图了解变化系数。当我尝试将其应用于以下两个数据样本时,我无法理解如何解释结果。
假设样本1为 ,样本2为。如您所见,这里的样本2样本1。10 ,15 ,17 ,22 ,21 ,27 = + 10
两者具有相同的标准偏差但和。μ 2 = 18.67 μ 1 = 8.66667
现在,变异系数将有所不同。对于样本2,它将小于样本1。但是,我如何解释该结果?就方差而言,两者是相同的;只是他们的手段不同。那么,这里的变异系数有什么用呢?这只是在误导我,或者也许我无法解释结果。
Answers:
在像您这样的示例中,当数据只是相加时,即我们对所有事物都添加了一个常数,那么当您指出标准偏差不变时,均值将精确地更改为该常数,因此变异系数从到,既有趣又无用。σ / μ σ /(μ + ķ )
这是倍增的变化,很有趣,变化系数也有一定用处。将所有内容乘以某个常数意味着变化系数变为,即保持与以前相同。就像@Aksalal和@Macond的答案一样,更改度量单位就是一个很好的例子。ķ σ / ķ μ
由于变异系数是无单位的,因此它也是无量纲的,因为基础变量拥有的任何单位或维数都会被除法洗掉。这使变异系数成为相对变异性的量度,因此可以将长度的相对变异性与权重的变异性进行比较,依此类推。变异系数已找到描述性用途的一个领域是生物学中生物体大小的形态计量学。
原则上和实践中,变异系数仅被完全定义,并且对于完全为正的变量完全有用。因此,详细地讲,您的第一个值为样本不是合适的示例。另一种看待这种情况的方式是要注意,假设平均值是零,则系数将是不确定的;如果平均值是负数,则系数将是负的(假设在后一种情况下标准偏差为正)。不论哪种情况,都会使该度量作为相对变异性的度量无效,或者实际上出于任何其他目的。
一个等效的说法是,仅当以通常的方式为所有值定义对数时,方差系数才有意义并且有用,并且实际上使用方差系数等效于查看对数的可变性。
尽管在这里让读者觉得不可思议,但我看到了一些气候和地理出版物,其中摄氏温度的变化系数使天真的科学家感到困惑,他们注意到,随着平均温度接近 C并变为负值,该系数可能会爆炸。平均温度低于冰点。更奇怪的是,我看到有人建议通过改用华氏温度解决问题。相反,当且仅当度量标准符合比例标准时,方可正确地将变异系数作为总结度量正确提及。碰巧的是,即使对于以开尔文测量的温度,变化系数也不是特别有用,而是出于物理原因而不是数学或统计上的。
就像气候学中的奇异例子一样,由于作者既不应该得到荣誉也不应该感到羞耻,因此我不予提及,变异系数在某些领域已被过度使用。有时有一种趋势将其视为一种封装平均值和标准差的魔术汇总量度。这自然是原始的思维,因为即使比率有意义,也无法从中恢复平均值和标准偏差。
在统计中,如果变异遵循伽马或对数正态,则变异系数是一个相当自然的参数,这可以通过查看那些分布的变异系数的形式来看出。
尽管变异系数可以使用,但在应用变异系数的情况下,更有用的步骤是通过对数转换或在广义线性模型中使用对数链接函数,以对数规模工作。
编辑:如果所有值均为负,则我们可以将符号视为可以忽略的约定。在这种情况下,等效的是实际上是变异系数的同卵双胞胎。
想象一下,我说:“这个镇上有1,625,330人。正负5人。” 我的准确的人口统计知识会给您留下深刻的印象。
但是,如果我说:“这房子里有五个人。正负五个。” 您可能以为我不知道房子里有多少人。
标准偏差相同,简历差异很大。
实际上,如果您不了解或不了解自己的假设和实验,那么两种统计数据都可能会产生误导。考虑这个令人毛骨悚然的例子。。。走在两座高层建筑的绳索上,而不是走在木板上。假设绳索的直径为1英寸,而木板的宽度为12英寸。5个人被要求走绳索,5个人被要求走木板。我们发现以下结果:
每一步距绳索边缘(或侧面)的平均距离(英寸):0.5、0.2、0.3、0.6、0.1
每步距木板边缘(或侧面)的平均距离(英寸):5.5、5.2、5.3、5.6、5.1
就像您的示例一样,此示例将导致相等的标准偏差,因为木板的值与钢丝绳的值仅相差+5。但是,如果我告诉您每个实验的标准偏差为0.2074,您可能会说得很好,那么两个实验是等效的。但是,如果我告诉你,钢丝绳实验的CV几乎为61%,而木板的CV不到4%,那么你可能会问我有多少人从绳子上掉下来。