据我了解,距离相关是一种健壮且通用的方法,用于检查两个数字变量之间是否存在关系。例如,如果我们有一组数字对:
(x1, y1)
(x2, y2)
...
(xn, yn)
我们可以使用距离相关来检查两个变量(x
和y
)之间是否存在任何(不一定是线性的)关系。而且,x
并且y
可以是不同维度的向量。
计算距离相关性相对容易。首先,我们使用计算距离矩阵。然后我们使用计算距离矩阵。这两个距离矩阵的维数相同,因为x_i和y_i的数目相同(因为它们成对出现)。ÿ 我X 我ÿ 我
现在我们有很多距离可以配对。例如,(2,3)
来自第一距离矩阵的元素(2,3)
与来自第二距离矩阵的元素配对。因此,我们有一组成对的距离,我们可以用它来计算相关性(距离之间的相关性)。
如果两种类型的距离相关,则意味着接近Xs通常意味着接近Ys。例如,如果接近,则意味着y_7可能接近y_ {13}。因此,我们可以得出结论,Xs和Ys是相关的。x 13 y 7 y 13
听起来很合理,但是我不了解两个方面。
首先,要计算距离相关性,我们不直接使用两个距离矩阵。我们对其应用双重居中过程(以便任何行(或列)中所有元素的总和等于零)。我不明白为什么我们需要这样做。此步骤背后的逻辑(或直觉)是什么?
其次,在原始距离矩阵中,对角线上有零。因此,如果我们计算距离之间的相关性,则将具有统计上显着的相关性,因为第一矩阵中的许多零与第二矩阵中的对应零成对。该问题如何解决?