我有一个离散的数据集(常规,特征和名义),这些变量描述了几种紧密相关的昆虫的形态翅膀特征。我要做的是进行某种分析,以便根据形态特征直观地呈现不同物种的相似性。首先出现在我脑海中的是PCA(这是我要创建的可视化类型),但是在研究之后(尤其是其他问题,例如:主成分分析可以应用于包含连续数据的混合数据集吗?和分类变量?),似乎PCA可能不适用于离散数据(文献中这些类型的研究中使用了PCA,但始终使用连续数据)。忽略了为什么该数据不合适的统计背景,PCA确实在我的生物学问题上给了我相对完美的结果(感兴趣的杂交人群恰好位于其父辈群体的中间)。
我还尝试了多种对应关系分析以安抚统计数据(至少就我的理解而言),但是我似乎无法获得与PCA相似的图,其中我的观察值(生物学个体)用颜色分开表示不同的分组(不同的物种,从生物学上来说)。似乎该分析旨在描述变量(在这里是我的形态特征)如何相互关联,而不是各个观察结果之间的关联。当我按组对观察结果进行绘制时,我只能得到描述整个个体的单个值(也许是平均值)。我已经在R中完成了分析,所以也许我还不够R精明,无法使我对工作情节有所了解。
我对数据进行这种分析是否正确,还是偏离轨道?如果您无法判断,我的统计专业知识是有限的,因此在这些分析下发生的方程式一直困扰着我。我正在尝试完全描述性地进行此分析(我不再需要进行任何下游数字运算),并且我已经读到,如果是这种情况,PCA就足够了,但是想确保我不会违反了太多的统计假设。