PCA /对应分析中的“马蹄效应”和/或“拱效应”是什么?


20

生态统计中有许多技术可用于多维数据的探索性数据分析。这些被称为“协调”技术。许多统计数据与其他地方的通用技术相同或紧密相关。原型示例可能是主成分分析(PCA)。生态学家可能会使用PCA和相关技术来探索“梯度”(我尚不完全清楚什么是梯度,但我已经对其有所了解。)

此页面上主成分分析(PCA)下的最后一项是:

  • PCA对于植被数据有一个严重的问题:马蹄效应。这是由于物种沿梯度分布的曲线性所致。由于物种响应曲线通常是单峰的(即非常强烈的曲线),因此马蹄效应很常见。

在页面的下方,在“ 对应分析”或“互惠平均”(RA)下,它称为“拱形效应”:

  • RA有一个问题:拱效应。这也是由沿梯度分布的非线性引起的。
  • 拱形不如PCA的马蹄效应那么严重,因为坡度的末端没有回旋。

有人可以解释吗?最近,我在重新表示低维空间数据的绘图中看到了这种现象(即对应分析和因子分析)。

  1. “梯度”将更广泛地对应于什么(即在非生态环境中)?
  2. 如果您的数据发生这种情况,这是“问题”(“严重问题”)吗?为了什么?
  3. 在马蹄形拱门出现的地方应该如何解释输出?
  4. 是否需要采取补救措施?什么?原始数据的转换会有所帮助吗?如果数据是序数等级怎么办?

答案可能存在于该站点的其他页面中(例如,对于PCACADCA)。我一直在努力解决这些问题。但是,这些讨论是用不够熟悉的生态术语和实例进行的,因此很难理解这个问题。


1
(+1)我在ordination.okstate.edu/PCA.htm找到了一个相当明确的答案。引文中的“曲线线性”解释是完全错误的,这使它如此混乱。
ub

2
另见Diaconis等。(2008),“ 多维缩放和局部核方法中的马蹄铁”安。应用 统计 ,卷 2,没有 3,777-807。
红衣主教

我试图回答您的问题,但是我不确定我作为生态学家和梯度如何实现这些目标。
恢复莫妮卡-G.辛普森

@whuber:引用的“曲线线性”解释可能令人困惑并且不太清楚,但我认为这不是“完全错误的”。如果物种的丰度作为沿着真实“梯度”的位置的函数(使用链接中的示例)全部是线性的(可能被某些噪声破坏),则点云将(大约)为一维和PCA会找到它。点云变得弯曲/弯曲,因为函数不是线性的。高斯人移位的一种特殊情况导致了马蹄铁。
变形虫说莫妮卡(Monica)恢复2015年

@Amoeba尽管如此,马蹄效应并不是由物种梯度的曲线引起的:它是由分布比的非线性引起的。在将效果归因于渐变本身的形状时,引用并不能正确识别现象的原因。
ub

Answers:


19

Q1

生态学家一直在谈论梯度。梯度的种类很多,但最好将它们看作是您想要的或对响应很重要的变量的某种组合。因此,梯度可以是时间,空间,土壤酸度,养分或其他更复杂的事物,例如响应以某种方式要求的一系列变量的线性组合。

我们之所以说梯度,是因为我们观察到了空间或时间中的物种,并且整个事物都随该空间或时间而变化。

Q2

我得出的结论是,在很多情况下,如果您了解PCA中的马蹄形是如何产生的,并且不要做一些愚蠢的事情,例如当“梯度”实际上由PC1和PC2表示(例如,也可以拆分为更高的PC,但希望可以使用2D表示法)。

在CA中,我想我也这么认为(现在不得不对此有所考虑)。当数据中没有强大的第二维时,该解决方案可以形成一个拱形,从而满足CA轴正交性要求的第一轴折叠版本比数据中的另一个方向解释更多的“惯性”。这可能更严重,因为它是由PCA组成的结构,拱形只是代表沿单个优势梯度的站点上物种丰富度的一种方式。

我从来没有完全理解为什么人们会非常担心带有强大的马蹄铁的PC1的错误订购。我要反驳说,在这种情况下您不应该只使用PC1,然后问题就消失了。PC1和PC2上的坐标对消除了这两个轴中任一轴上的反转。

Q3

如果在PCA双线图中看到了马蹄形,我会将数据解释为具有唯一的主导梯度或变化方向。

如果看到拱门,我可能会得出相同的结论,但是我会非常谨慎地尝试完全解释CA轴2。

我不会采用DCA-它只会扭曲拱形(在最佳情况下),这样您就不会在二维图中看到奇数,但是在许多情况下,它会为钻石生成其他虚假结构,例如菱形或喇叭形DCA空间中的样本排列。例如:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

在此处输入图片说明

我们看到典型的扇形从样点向图的左侧倾斜。

Q4

我建议这个问题的答案取决于您分析的目的。如果足弓/马蹄形是由单个主导梯度引起的,则不必将其表示为 PCA轴,那么如果我们可以估计一个代表沿梯度的位置/样本位置的变量,则将是有益的。

这将建议在数据的高维空间中找到一个非线性方向。一种这样的方法是Hastie&Stuezel的主曲线,但也可以使用其他非线性流形方法。

例如,对于某些病理数据

在此处输入图片说明

我们看到了坚固的马蹄铁。主曲线试图通过数据的m个维度上的平滑曲线来恢复此潜在的梯度或样本的排列/排序。下图显示了迭代算法如何收敛于近似基础渐变的对象。(我认为它会偏离图顶部的数据,从而更接近较大维度上的数据,部分原因是因为将曲线声明为主要曲线的自洽标准。)

在此处输入图片说明

我有更多详细信息,包括从中获取这些图像的博客文章中的代码。但是这里的要点是,主曲线很容易恢复样本的已知顺序,而PC1或PC2本身不能。

在PCA案例中,通常在生态学中应用转换。流行的变换是在转换后的数据上计算出欧几里得距离时可以考虑返回一些非欧几里得距离的变换。例如,赫林格距离是

dHË一世ñGË[RX1个X2=Ĵ=1个p[ÿ1个Ĵÿ1个+-ÿ2Ĵÿ2+]2

其中是样本中第个物种的丰度,是第个样本中所有物种的丰度之和。如果我们将数据转换为比例并应用平方根变换,则保留欧几里得距离的PCA将代表原始数据中的Hellinger距离。ÿ一世ĴĴ一世ÿ一世+一世

马蹄铁在生态学方面已广为人知和研究了很长时间。一些早期的文学(加上更现代的外观)是

主要的主要曲线参考是

前者是非常生态的展示。


谢谢,加文。考虑来自数据集的序数等级为1:5的问题,例如:“我喜欢我的医生”和“我觉得我的医生作为一个人在乎我”。这些没有在空间或时间上有意义地分布。这里的“梯度”是什么?
gung-恢复莫妮卡

带有5x5表格和高N,可视化数据的一种方法是带有CA。数据是序数,但是CA无法识别。因此我们可以检查相邻的行/列是否比分开的行/列更近。两组点都以适当的顺序沿着一条清晰的直线落下,但是直线弯曲时,其端点比2D空间中的中点彼此更靠近。应该如何解释?
gung-恢复莫妮卡

CA找到行(样本)和变量(cols)的排序,以最大化样本“分数”的离散度。它找到一个潜在变量(变量的线性组合),以最大化该离散度。我们称该潜在变量为梯度。
恢复莫妮卡-G.辛普森

再说一次压缩,您是说在CA轴1上彼此更接近,还是在双线图的尺度上以欧几里得距离彼此更接近?无论哪种方式,这实际上都是将数据投影到低维空间的问题。DCA试图通过在去趋势的DCA轴1的末端拉开样本并压缩原点附近的样本来消除这种影响。是的,这是一个问题,但这是由于该方法缺乏灵活性,无法适当地捕获基础渐变。我们可以接受它,也可以使用更灵活的方法(至少在生态方面)。
恢复莫妮卡-G.辛普森2015年

1
如果您从更大的角度看待这个问题,问题将会消失。我认为这只是方法的局限性。它在很多情况下都可以,但在其他情况下则失败。
恢复莫妮卡-G.辛普森
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.