相关系数的阈值，以指示相关矩阵中相关的统计意义

10

我已经计算出包含455个数据点的数据集的相关矩阵，每个数据点包含14个特征。因此，相关矩阵的维数为14 x 14。

我想知道相关系数的值是否存在阈值，该阈值指出其中两个特征之间存在显着的相关性。

我的价值介于-0.2到0.85之间，我一直认为重要的是那些高于0.7的价值。

correlation statistical-significance multiple-comparisons

— 西蒙
source

1

您是否检查过stats.stackexchange.com/questions/5750/…？

— user603 2011年

@ user603好的注意事项：这实际上是一个相同的问题。此处的创新之处在于，进行显着相关性测试是否取决于“数据类型”（阅读：数据分布）。我们希望答复集中在这方面，而不是过时。

— whuber

8

解释您的问题的另一种方法是认为您对关联是否在统计上有意义并不感兴趣，而是对它是否具有实际重要性感兴趣。

一些研究人员提供了解释相关系数含义的经验法则，但是这些经验法则是特定领域的。

$k(k-1)/2$ $k$ $14(13)/2=91$ $91 * .05 = 4.55$

正如@ user603指出的那样，这些问题已在前面的问题中进行了很好的讨论。

通常，在解释相关矩阵以关注更高层次的结构时，我发现它很有用。这可以通过查看相关矩阵中的一般模式以非正式的方式完成。通过使用PCA和因子分析等技术，可以更正式地做到这一点。这样的方法避免了与多重重要性测试相关的许多问题。

— 杰罗米·安格利姆
source

1

一种选择是模拟或置换测试。如果您知道数据来自的分布，则可以从该分布进行模拟，但是所有观察值都是独立的。如果您不知道分布，则可以彼此独立地置换每个变量，这将为您提供每个变量的相同的一般边际分布，但删除了任何相关性。

将上述全部操作（保持样本大小和矩阵尺寸相同）进行一整遍（约10,000次），并查看最大绝对相关性，或者关注另一个高分位数。这将为您提供原假设的分布，然后您可以将实际观察到的相关性的最大值与（以及其他感兴趣的高分位数）进行比较。

— 格雷格·斯诺（Greg Snow）
source

0

$n^{-2}$ $n$ $corr >> n^{-2}$

— Hrobjartur
source