使用主成分分析与对应分析


9

我正在分析有关潮间带群落的数据集。数据是四方类动物(海藻,藤壶,贻贝等)的覆盖百分比。我习惯于根据物种计数来考虑对应分析(CA)而将主成分分析(PCA)视为对线性环境(而非物种)趋势更有用的方法。我真的没有运气来确定PCA或CA是否更适合百分比覆盖率(找不到任何论文),而且我什至不确定如何将封顶为100%的内容分发出去?

我熟悉粗略的指导原则,即如果第一个去趋势对应分析(DCA)轴的长度大于2,则可以放心地假定应该使用CA。DCA轴1的长度为2.17,这对我没有帮助。


3
PCA和CA都是相关的,并且都可以基于SVD算法。形式上的根本区别(@Gavin的其他较深的答案中未提及)是PCA仅分解列之间的关系(例如,通过分解其协方差矩阵),将行视为“个案”。而CA则同时分解列和行,将它们对称地视为交叉表“类别”。因此,CA留下的双线图和准双线图(载荷+分数)可以在PCA之后绘制,从而在概念上提供了截然不同的信息。
ttnphns

Answers:


9

PCA处理值,而CA处理相对值。两者都适用于您提到的那种相对丰度数据(有一个主要警告,请参阅下文)。有了%数据,您已经有了相对的度量,但是仍然会有差异。问你自己

  • 您是否要强调丰富物种/分类中的模式(即具有较大%cover的物种),还是
  • 您想关注相对组成的模式吗?

如果是前者,请使用PCA。如果后者使用CA。我要问的两个问题是你想要

A = {50, 20, 10}
B = { 5,  2,  1}

被认为是不同还是相同?AB是两个样品,值是示出了三个类群的%盖。(此示例结果很差,假设没有地面!;-) PCA会因为所使用的欧几里德距离而将它们视为非常不同,但是CA会认为这两个样本非常相似,因为它们具有相同的相对轮廓。

这里最大的警告是数据的封闭组成性质。如果您有几组(例如,沙,淤泥,粘土)总和为1(100%),则两种方法都不正确,您可以通过Aitchison的Log-ratio PCA进行更合适的分析,该PCA专为封闭式成分设计数据。(IIRC为此,您需要以行列为中心,并对数据进行日志转换。)还有其他方法。如果您使用R,那么一本有用的书是使用R 分析成分数据


一如既往,加文(Gavin)的回答非常出色。谢谢!这使事情变得很清楚,然后我将使用PCA。考虑到潮间带群落是3维的,在某些情况下,当生物体相互生长时,覆盖率实际上达到了100%。这不是您正在谈论的封闭式构图形式,对吗?
HFBrowning

不,这不是他在说什么。封闭地说,我相信他的意思是一个系统,其中三个物种A,B,C具有%C = 100%-%B-%A
Pertinax

DCA又如何呢?
达尔文电脑

DCA是CA的混乱版本,因此相同的一般原理也适用于它。DCA正在对数据进行一些怪异的折磨,我认为我们今天不必在工具箱中使用它作为一种方法,但是其他人对此有不同的看法。
加文·辛普森
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.