为什么在使用具有正负值的数据时变异系数无效?


10

我似乎找不到确切的答案。

我的数据由几张图组成,测量平均值在0.27到0.57之间。在我的情况下,所有数据值都是正值,但是测量本身是基于反射率值的比率,范围可以是-1到+1。这些图代表NDVI的值,NDVI是植被“生产力”的远程指标。

我的目的是比较每个图的值的变异性,但是由于每个图的均值不同,因此我选择使用CV来衡量每个图的NDVI值的相对离散度。

据我了解,采用这些图的CV并不是合规的,因为每个图可以同时具有正值和负值。为什么在这种情况下不宜使用简历?有哪些可行的替代方案(例如,相对分散,数据转换等的类似测试)?


1
比较变异性的目的是什么?您为什么不只比较实际变异性的度量(如SD,MAD,范围等),而不是比较相对度量(如CV)(在这里没有意义)?
ub

我正在使用CV来考虑地块之间均值的差异。因为在所有图中该值都在-1和+1之间,这没有意义吗?即,“实际可变性”是否会更好地指示地块之间的差异?
Prophet60091 2013年

2
根据定义,CV是变化的相对度量。对于任何负均值,它都会给出无意义的结果(您无法解释负值的分散或散布)。对于正均值,当均值较小时,它会使给定数量的价差看起来更大。当需要时,您所做的实际上等效于以对数标度比较数据-每当任何数据为零或负数时,这都是没有意义的。您的数据可能需要某种重新表达,以便对变异性进行良好的比较;这取决于它们是如何产生的。
whuber

+1以作解释。虽然我的图均值是正数,但每个图内可能有负值。基于以上所述,以及以下Peter的回答,使用CV似乎不被保证。我将研究可能重新调整值和/或使用实际可变性的度量。
Prophet60091

1
如果您可以通过添加一个常量合理地调整数据规模,那么那意味着CV不是一个好主意。这是因为添加常数会更改CV,但不会更改变化。
彼得·弗洛姆

Answers:


11

考虑一下CV是什么:标准差与均值之比。但是,如果变量可以具有正值和负值,则平均值可能非常接近0;因此,CV不再执行应做的工作:也就是说,与平均数相比,知道sd有多大。

编辑:在一条评论中,我说过,如果您可以明智地向该变量添加一个常量,那么CV不好。这是一个例子:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2就是x +10。我认为直觉上很清楚它们是同等可变的。但是简历却不一样。

一个现实的例子就是x是温度,单位为摄氏度,x2是温度,单位为K(尽管有人可能认为K是适当的标度,因为它的定义为0)。


谢谢!因此,关注点更多的是平均值接近零,而数据中不一定具有正值和负值。如果是这样,那么接近零均值被视为“非常接近”?就我而言,我要说的是我的平均资产价值几乎为零。有确定的方法可以确定这一点吗?
Prophet60091

不,令人担忧的是,即使只有1个负值,CV也不再执行应做的工作。如果值为负,请不要使用CV。另外,如果您的值在任意范围内,请不要使用CV。
彼得·弗洛姆

为了完整起见,您能否提供更多的解释,说明为什么使用任意标度会使CV的使用无效?谢谢!
Prophet60091

公平地说,我认为@whuber并不主张将转换后的数据与未转换后的数据进行比较,但是您的观点仍然正确:当人们可能认为结果应该保持不变时,缩放会影响CV。玩具R代码+1!
Prophet60091

我对此线程没有@whuber的评论。
彼得·弗洛姆

0

我认为这些是变化的不同模型。有一些CV不变的统计模型。在那些工作的人可以报告简历。在某些模型中,标准差是平均值的幂函数。有些型号的标准偏差是恒定的。通常,对于比例比例变量,恒定CV模型比恒定SD模型更好。您可以推测出为什么会如此,这可能是基于乘法互动而非加性互动的普遍性。

恒定CV建模通常与对数转换相关联。(一个重要的例外是有时会为零的非负响应。)有几种方法可以查看该结果。首先,如果CV不变,则对数就是常规的方差稳定变换。或者,如果您的误差模型是对数正态的,且对数标度中的SD常数恒定,则CV是该SD的简单转换。当两者都很小时,CV大约等于对数标度SD。

将统计数据101方法(例如标准差)应用到数据的两种方法是,您以获取数据的方式或(尤其是如果这些比例是比例)将数据应用于其日志。您会做出最佳的第一手猜测,从而知道自然可能会更加复杂,并且有可能进行进一步的研究。要考虑到人们以前发现您的数据能产生什么效果。

在这种情况下,这些东西很重要。化学浓度有时用CV汇总或以对数刻度建模。但是,pH是对数浓度。


3
感谢您的贡献,欢迎来到我们的网站!您能否更清楚地说明您的答案如何解决有关使用CV来表征可能具有负值的数据的有效性的问题?您的任何言论似乎都无法涵盖这种情况。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.