我已经计算出包含455个数据点的数据集的相关矩阵,每个数据点包含14个特征。因此,相关矩阵的维数为14 x 14。
我想知道相关系数的值是否存在阈值,该阈值指出其中两个特征之间存在显着的相关性。
我的价值介于-0.2到0.85之间,我一直认为重要的是那些高于0.7的价值。
- 是否为阈值考虑了相关系数的一般值,或者仅仅是上下文取决于我正在研究的数据类型?
我已经计算出包含455个数据点的数据集的相关矩阵,每个数据点包含14个特征。因此,相关矩阵的维数为14 x 14。
我想知道相关系数的值是否存在阈值,该阈值指出其中两个特征之间存在显着的相关性。
我的价值介于-0.2到0.85之间,我一直认为重要的是那些高于0.7的价值。
Answers:
存在可以应用于单个相关性的统计显着性检验,这些检验表明假设零假设为真,则获得与样本相关性一样大或更大的相关性的可能性。
关键是构成统计显着相关系数的因素取决于:
在通常情况下,使用二尾检验和皮尔逊相关系数,α为.05,并且正态性至少是一个适当的近似值,影响截止值的主要因素是样本量。
cor.test
将计算R中相关性的统计显着性解释您的问题的另一种方法是认为您对关联是否在统计上有意义并不感兴趣,而是对它是否具有实际重要性感兴趣。
一些研究人员提供了解释相关系数含义的经验法则,但是这些经验法则是特定领域的。
正如@ user603指出的那样,这些问题已在前面的问题中进行了很好的讨论。
通常,在解释相关矩阵以关注更高层次的结构时,我发现它很有用。这可以通过查看相关矩阵中的一般模式以非正式的方式完成。通过使用PCA和因子分析等技术,可以更正式地做到这一点。这样的方法避免了与多重重要性测试相关的许多问题。
一种选择是模拟或置换测试。如果您知道数据来自的分布,则可以从该分布进行模拟,但是所有观察值都是独立的。如果您不知道分布,则可以彼此独立地置换每个变量,这将为您提供每个变量的相同的一般边际分布,但删除了任何相关性。
将上述全部操作(保持样本大小和矩阵尺寸相同)进行一整遍(约10,000次),并查看最大绝对相关性,或者关注另一个高分位数。这将为您提供原假设的分布,然后您可以将实际观察到的相关性的最大值与(以及其他感兴趣的高分位数)进行比较。