离散数据和PCA的替代方案


9

我有一个离散的数据集(常规,特征和名义),这些变量描述了几种紧密相关的昆虫的形态翅膀特征。我要做的是进行某种分析,以便根据形态特征直观地呈现不同物种的相似性。首先出现在我脑海中的是PCA(这是我要创建的可视化类型),但是在研究之后(尤其是其他问题,例如:主成分分析可以应用于包含连续数据的混合数据集吗?和分类变量?),似乎PCA可能不适用于离散数据(文献中这些类型的研究中使用了PCA,但始终使用连续数据)。忽略了为什么该数据不合适的统计背景,PCA确实在我的生物学问题上给了我相对完美的结果(感兴趣的杂交人群恰好位于其父辈群体的中间)。

我还尝试了多种对应关系分析以安抚统计数据(至少就我的理解而言),但是我似乎无法获得与PCA相似的图,其中我的观察值(生物学个体)用颜色分开表示不同的分组(不同的物种,从生物学上来说)。似乎该分析旨在描述变量(在这里是我的形态特征)如何相互关联,而不是各个观察结果之间的关联。当我按组对观察结果进行绘制时,我只能得到描述整个个体的单个值(也许是平均值)。我已经在R中完成了分析,所以也许我还不够R精明,无法使我对工作情节有所了解。

我对数据进行这种分析是否正确,还是偏离轨道?如果您无法判断,我的统计专业知识是有限的,因此在这些分析下发生的方程式一直困扰着我。我正在尝试完全描述性地进行此分析(我不再需要进行任何下游数字运算),并且我已经读到,如果是这种情况,PCA就足够了,但是想确保我不会违反了太多的统计假设。


1
您应该能够通过多种对应分析获得所需的绘图类型。如果您可以给我们链接到您的数据,我们可以看一下。多维缩放是另一种可能性,但是MCA可以被视为一种多维缩放
kjetil b halvorsen

潜在类聚类是另一种方法选择。基本上,LCA在残差中创建异质性的“模型”,用于从中进行聚类。从历史上看,文献学有两个广泛的社会学研究领域。最初的LCA可以追溯到50年代哥伦比亚的Lazarsfeld,未经监督且使用分类数据-R的poLCA就是一个例子。最近,已经开发了用于LCA的监督有限混合模型。我不知道R模块,但是有便宜的商业软件可以做到(Latent Gold)。LG网站上有关于LCA的好文章
Mike Hunter

Answers:


1

这一点取决于您的目的,但是如果您使用可视化工具,则可以将多维比例缩放应用于随机森林接近度的输出,这可以产生漂亮的图片,并且可以处理分类数据和连续数据。在这里,您将根据预测变量对物种进行分类。但是-这是一个很大的警告-我不知道是否有人真的知道这些可视化输出的含义。

另一种选择是对诸如高尔相似度之类的东西应用多维缩放。

有一个悬而未决的问题-您的最终目的是什么?您想回答什么问题?我喜欢将这些技术用作探索性工具,也许可以引导您提出更多更好的问题,但是我不确定它们是如何解释或告诉您的。

也许我在您的问题上读得太多了,但是如果您想探索哪些预测变量具有两个纯种之间的杂种的值,则最好建立一个模型来估算导致物种和杂种直接。如果您想测量变量之间的相互关系,则可以建立一个相关矩阵-对此有很多简洁的可视化方法。


谢谢你的反馈。最终,我希望通过这种分析来对某些物种与其他物种之间的相似性进行定量测量(我有两种物种仅基于格式塔外观看起来像另一种密切相关的物种,但在遗传上却类似于另一种物种,暗示古代杂交)。该研究问题的重点是研究该群体的遗传学,而这种形态学分析只会增加整个生物学故事。多维缩放会导致类似于PCA的可视化吗?
JD 2012年

您将获得类似的可视化效果。MDS的想法/直觉是构建从高维空间(对于您而言是形态特征的空间)到一些低维空间(例如2D平面)的映射,以使高维空间中的距离“几乎等于与低维空间相同”。然后可以绘制2D平面。但这取决于从某处获取高维空间的距离度量。
Patrick Caldon 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.