我有一个 矩阵,其中 是基因的数量, 是患者人数。任何使用过此类数据的人都知道 总是大于 。使用功能选择我已经 下降到一个更合理的数字 仍然大于 。
我想根据患者的遗传特征计算其相似度;我可以使用欧式距离,但是马哈拉诺比斯似乎更合适,因为它考虑了变量之间的相关性。问题(如在此说明的交)是Mahalanobis距离,特别是协方差矩阵,不工作时。当我在R中运行马氏距离时,得到的错误是:
Error in solve.default(cov, ...) : system is computationally
singular: reciprocal condition number = 2.81408e-21
到目前为止,为了解决这个问题,我使用了PCA,而不是使用基因,而是使用了成分,这似乎使我能够计算出马氏距离。5个分量代表方差的80%,所以现在。
我的问题是:我可以使用PCA有意义地获取患者之间的马氏距离,还是不合适?是否有替代距离指标在以下情况下起作用 并且之间也有很大的相关性 变量?
PCA
工作原理,我很好奇是否可以在输出中使用任何距离度量。
PCA
可打破变量的相关性,除非你使用像一个倾斜的旋转。我也不确定方差分配PCA
将如何影响相似患者之间的马氏距离。