如果一个变量的标准偏差为0,则相关性如何?


15

据我了解,我们可以通过使用等式对协方差进行归一化来获得相关性

ρi,j=cov(Xi,Xj)σiσj

其中是的标准偏差。 Xσi=E[(Xiμi)2]Xi

我担心的是标准偏差等于零怎么办?是否有任何条件可以保证它不能为零?

谢谢。


11
没有标准偏差为0的变量可能与另一个(非恒定)变量相关。相关性是衡量一个变量中的大/小值与另一个变量中的大/小值的对应程度的方法-如果其中一个变量等于概率为1的常数(标准差为0的结果),则可以可能会给出有关另一个变量是小还是大的信息。我不知道约定是什么,但是在这种情况下,似乎应该将相关性定义为0。

非常感谢Macro。我认为您的想法与以下答案相同。但是,由于点数有限,我无法投票支持您的评论。谢谢。
chepukha 2011年

4
您已经接受了答案,所以我只写评论。如果随机变量Y标准差σY=0,则对于任何其他随机变量X\ text {cov}(X,Y)= E [(X- \ mu_X)(Y- \ mu_Y)] = 0(因为(Y- \ mu_Y)= 0,概率为1)。因此,相关系数\ rho_ {X,Y} = \ frac {\ text {cov}(X,Y)} {\ sigma_X \ sigma_Y}的定义给出了不确定的形式\ frac {0} {0}。在这种情况下,通常\ rho_ {X,Y} 定义为等于0,并且可以基于\ rho_ {X,Y}的极限值来辩护为
cov(X,Y)=E[(XμX)(YμY)]=0
X(YμY)=01ρX,Y=cov(X,Y)σXσY00 ρX,Y0ρX,YσY0等等
Dilip Sarwate

6
@Dilip,如果是答案,则应作为答案。答案是否已被接受并不重要。
安迪W

1
@Dilip与问题形式是,即使可以做它有一个限制的操作方式一定值,该值取决于如何您采取的限制。因此,的论点是不完整的(并且令人信服)。您能引用采用此约定并有正当理由支持该约定的来源吗?00ρX,Y=0
ub

Answers:


14

的确,如果您的SD之一为0,则该方程式是不确定的。但是,考虑这种情况的更好方法是,如果SD之一为0,则没有相关性。用松散的概念术语,相关性告诉您一个变量如何移动,而另一个变量如何移动。SD为0表示变量未在“四处移动”。您将必须有一个常数向量,例如rep(constant, n_times)


非常感谢。我认为这是有道理的。有趣的是,我还没有看到任何教科书提到这种情况。
chepukha 2011年

@gung因此,这是在相关系数的定义的限制,我的意思是相关方程可以有两个值,一个是如等式给出上述和0时的变量之一的SD 0
普拉香特

我想@prashanth。
gung-恢复莫妮卡

2

另一件事要考虑的是当我们讨论均值和标准差以及相关性时的基本假设。

如果我们谈论的是数据样本,一个普遍的假设是数据(至少近似地)是正态分布的,或者可以被转换为正态分布(例如,通过对数变换)。如果您观察到标准偏差为零,则有两种情况:标准偏差实际上不是零,但是非常小,因此您的数据集中的样本均在平均值上(例如,这种情况可能会发生如果您以粗略的精度测量数据);或模型指定不正确。

在第二种情况下,标准偏差以及相关性是无意义的度量。

更一般而言,基础分布必须都具有有限的第二矩,因此也必须具有非零标准偏差,以使相关成为有效的概念。


可能值得注意的是,原始问题是关于(理论上的)分布,而不是关于数据。
ub

如果是这种情况,则标准偏差为零将意味着退化分布仅在均值(即常数函数)处具有测度……同样,标准偏差仅表示基本分布是正态的。如果标准偏差为零,则高斯的PDF定义不正确,因此在模型中是不允许的。
tdc

汤姆,我对高斯主义者的出现感到惊讶。这似乎是不必要的限制。要求存在pdf似乎也很严格(毕竟,没有离散分布具有pdf)。同样要注意的是,只要第二刻是有限的,SD的定义就很明确-“有意义”,并且包括概率原子(您的“狄拉克三角洲”函数)。
ub

好的,我同意可能是过于严格,但是通常这就是人们对SD的意思。例如,来自Wolfram的文章:“可以为前两个矩有限的任何分布定义标准偏差,但是最常见的是假设基础分布是正态的。” 但是,您是否同意我的观点,即如果其中一个变量的SD = 0,则不满足相关统计概念的基本假设?
tdc

是的,汤姆,您的最后发言是当场,我很高兴接受。但是,它所表达的想法在您的回复中并不十分明显。如果有的话,它会埋在有关正态分布,日志,增量函数以及关注数据而非分布本身的说明中。顺便说一句,应该对Wolfram网站上出现的统计声明保持谨慎:它过于注重数学,以至于其对统计实践的描述可能会受到质疑。在这里,这是完全错误的:SD的使用远远超出了正态分布设置。
ub

2

相关性是两个向量之间的角度的余弦值。说Y的标准偏差为零与说向量Y-mean(Y)为零(或更严格地说,它在适当的向量空间中表示零)相同。因此问题就变成了“关于零向量和向量X-mean(X)之间的(余弦)角,您能说什么?”。更一般而言,在任何具有内积的向量空间中,零向量和其他向量之间的夹角是什么意思?我认为对此只有一个答案,那就是在这种情况下“角度”的概念是没有意义的,因此在这种情况下的相关性概念是没有意义的。


0

免责声明,我意识到已经有了一个可以接受的优质答案,因此这应该是一个答复,但是我没有经验值允许这样做。@Dilip提到可以将约定的相关性定义为0,但这似乎有问题,因为与真正为零的相关性(SD为非零)的解释有很大不同。最初的问题是“如果一个变量的SD为零”。如果我们只是停下来想一想“变量”的定义,那么我们将获得一条更直接的答案之路。SD为0的变量根本不是变量,而是常量。因此,在这种情况下,您没有两个变量,因此从概念上讲根本没有定义关联的意义。


如果您没有足够的要点发表评论,则不应通过答案发表评论。
Michael R. Chernick '18年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.