我可以对重复的数据缩减措施进行PCA吗?


13

我在2种情况下分别对87只动物进行了3次试验(一些缺失数据;无缺失数据= 64只动物)。在一个情况下,我有很多具体措施(时间进入,次返回住所号等),所以我想开发描述在这方面的行为2至3复合行为评分(打电话给他们C1C2C3)。我希望C1在所有3个试验和87个动物中都具有相同的含义,以便我可以进行回归分析以检验年龄,性别,血统和单个动物对行为的影响。然后,我想研究C1在特定年龄段内其他情况下的行为得分与它们之间的关系。(在1岁时,上下文1中的活动是否强烈预测了上下文2中的活动?)

如果不采取重复措施,则PCA会很好用–对上下文的多个度量进行PCA,然后使用PC1,PC2等检查一个上下文中的PC1与PC1(或2或2)之间的关系(Spearman相关性)。 3)在其他情况下。问题是重复的措施,属于伪复制。我曾经有一个审阅者断言“不行”,但是我找不到任何明确的参考资料来说明在进行数据缩减时是否存在问题。

我的推理是这样的:重复的措施不是问题,因为我在PCA中所做的只是相对于原始措施的描述。如果我通过命令宣布我正在花时间进入竞技场作为上下文1中的“大胆”度量,那么我将获得上下文1大胆性度量,该度量在所有年龄段的所有个人中都是可比的,没有人会大吃一惊。如果我按法令声明我将使用的进入时间的进入远端时间,则同样。因此,如果我纯粹是出于还原目的使用PCA,为什么不能将其设为PC1(输入完成+ 0.5 0.28 + 0.63 + 0.02 0.5+ 0.50.28+ 0.63+ 0.02 总时间...),这至少是由我的多项指标所决定的,而不是我猜测进入时间通常是一种有益的,具有代表性的特征?

(请注意,我对度量的基本结构感兴趣……我的问题是关于我们如何解释特定于上下文的行为。哈里在上下文2中活跃吗?如果他随着年龄的增长而改变了我们在上下文1中所解释的活动,他是否还会在上下文2中改变其活动?)

我看过PARAFAC,看过SEM,但我不认为这两种方法对我的样本量更好或更合适。有人可以称体重吗?谢谢。


我是否了解您是否正确,所以您有2个受测者内部因素:1)环境,在某些实验条件下(例如室内实验与室外实验)有所不同; 2)试用,这只是重复,尝试性的实验。而且您想在每种条件下都进行PCA,但是您没有做过一次实验,而是进行了几次试验,这使您感到震惊。
ttnphns 2011年

这两个上下文是两个单独的测试,并且每个测试所采取的措施是不同的。也就是说,是的,您了解我的情况。
Leann

避开问题并在所有三个试验中均使用均值运行PCA怎么办?
联欢晚会

Answers:


7

您可以研究多因素分析。可以使用FactoMineR在R中实现。

更新:

详细说来,Leann提议-早在多年前-对具有重复度量的数据集进行PCA。如果我正确理解了她的数据集的结构,则对于给定的“上下文”,她具有动物x“特定的度量”(进入时间,返回避难所的次数等)矩阵。对64只动物(没有遗漏的动物)中的每只动物进行3次跟踪。比方说,她已经10“的具体措施”,因此她将不得不对动物的行为3点64×10的矩阵(我们可以称之为矩阵X1X2X3)。要同时在这三个矩阵上运行PCA,她必须“行绑定”这三个矩阵(例如PCA(rbind(X1,X2,X3)))。但这忽略了第一个观察结果和第64个观察结果在同一只动物上的事实。为了避免这个问题,她可以“列绑定”这三个矩阵,并通过多因素分析来运行它们。MFA是分析在不同时间点对同一个人或对象测量的多组变量的一种有用方法。她将能够以与PCA中相同的方式从MFA中提取主要成分,但是每只动物都有一个坐标。现在,将这些动物对象放置在一个由她的三个观察值界定的折衷多元空间中。

她将能够使用R中的FactoMineR包执行分析。示例代码如下所示:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

此外,她可能不考虑从MFA中提取前三个组成部分并进行多元回归,而是考虑将其解释变量作为“补充表”直接投影到MFA上?FactoMineR。另一种方法是根据MFA(例如dist1=vegdist(mfa1$ind$coord, "euc"))计算对象坐标的欧几里得距离矩阵,并将其dist1作为动物特定变量的函数通过RDA (例如,rda(dist1~age+sex+pedigree)使用素食主义者包装)。


2
嗨,凯尔,谢谢您的回答。但是,基本上只包含一个链接的答案,或者仅包含一个句子长度的答案,通常不被认为是答案,而是注释。特别是,仅链接的答案会遭受链接腐烂的困扰,因此,即使链接不再起作用,答案也应具有足够的有用信息。您能否再扩大一点答案,也许简要概述一下它是什么/它与因素分析之间的关系如何?
Glen_b-恢复莫妮卡2014年

(+1)我意识到这是一篇旧文章,但是这个答案非常有用!如果链接消失,也许应该完全添加参考:AbdiHervé,Williams Lynne J.,Valentin Domininique。多因素分析:多表和多块数据集的主成分分析。WIRES Comp Stat 2013,5:149-179。doi:10.1002 / wics.1246
Frans

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.