Q1
生态学家一直在谈论梯度。梯度的种类很多,但最好将它们看作是您想要的或对响应很重要的变量的某种组合。因此,梯度可以是时间,空间,土壤酸度,养分或其他更复杂的事物,例如响应以某种方式要求的一系列变量的线性组合。
我们之所以说梯度,是因为我们观察到了空间或时间中的物种,并且整个事物都随该空间或时间而变化。
Q2
我得出的结论是,在很多情况下,如果您了解PCA中的马蹄形是如何产生的,并且不要做一些愚蠢的事情,例如当“梯度”实际上由PC1和PC2表示(例如,也可以拆分为更高的PC,但希望可以使用2D表示法)。
在CA中,我想我也这么认为(现在不得不对此有所考虑)。当数据中没有强大的第二维时,该解决方案可以形成一个拱形,从而满足CA轴正交性要求的第一轴折叠版本比数据中的另一个方向解释更多的“惯性”。这可能更严重,因为它是由PCA组成的结构,拱形只是代表沿单个优势梯度的站点上物种丰富度的一种方式。
我从来没有完全理解为什么人们会非常担心带有强大的马蹄铁的PC1的错误订购。我要反驳说,在这种情况下您不应该只使用PC1,然后问题就消失了。PC1和PC2上的坐标对消除了这两个轴中任一轴上的反转。
Q3
如果在PCA双线图中看到了马蹄形,我会将数据解释为具有唯一的主导梯度或变化方向。
如果看到拱门,我可能会得出相同的结论,但是我会非常谨慎地尝试完全解释CA轴2。
我不会采用DCA-它只会扭曲拱形(在最佳情况下),这样您就不会在二维图中看到奇数,但是在许多情况下,它会为钻石生成其他虚假结构,例如菱形或喇叭形DCA空间中的样本排列。例如:
library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA
我们看到典型的扇形从样点向图的左侧倾斜。
Q4
我建议这个问题的答案取决于您分析的目的。如果足弓/马蹄形是由单个主导梯度引起的,则不必将其表示为 PCA轴,那么如果我们可以估计一个代表沿梯度的位置/样本位置的变量,则将是有益的。米
这将建议在数据的高维空间中找到一个非线性方向。一种这样的方法是Hastie&Stuezel的主曲线,但也可以使用其他非线性流形方法。
例如,对于某些病理数据
我们看到了坚固的马蹄铁。主曲线试图通过数据的m个维度上的平滑曲线来恢复此潜在的梯度或样本的排列/排序。下图显示了迭代算法如何收敛于近似基础渐变的对象。(我认为它会偏离图顶部的数据,从而更接近较大维度上的数据,部分原因是因为将曲线声明为主要曲线的自洽标准。)
我有更多详细信息,包括我从中获取这些图像的博客文章中的代码。但是这里的要点是,主曲线很容易恢复样本的已知顺序,而PC1或PC2本身不能。
在PCA案例中,通常在生态学中应用转换。流行的变换是在转换后的数据上计算出欧几里得距离时可以考虑返回一些非欧几里得距离的变换。例如,赫林格距离是
dħ Ë 升升我Ñ 克Ë ř(x 1 ,x 2 )= ∑j = 1p[ y1 Ĵÿ1 +----√- ÿ2 Ĵÿ2 +----√]2------------------⎷
其中是样本中第个物种的丰度,是第个样本中所有物种的丰度之和。如果我们将数据转换为比例并应用平方根变换,则保留欧几里得距离的PCA将代表原始数据中的Hellinger距离。ÿ我ĴĴ一世ÿ我+一世
马蹄铁在生态学方面已广为人知和研究了很长时间。一些早期的文学(加上更现代的外观)是
主要的主要曲线参考是
前者是非常生态的展示。