我有一个包含11个变量的数据集,并进行了PCA(正交)处理以减少数据量。根据我对主题和碎石图的了解,确定要保留的组成部分数量对我来说很明显,两个主要组成部分(PC)足以解释数据,而其余组成部分仅提供较少的信息。
具有并行分析的Scree图:观察到的特征值(绿色)和基于100次仿真的模拟特征值(红色)。Scree图建议使用3台PC,而并行测试仅建议使用前两台PC。
如您所见,前两台PC只能捕获到48%的方差。
由前两台PC在第一平面上绘制的观测结果显示,使用分层聚类聚类(HAC)和K均值聚类,得到了三个不同的聚类。事实证明这3个类别与所讨论的问题非常相关,并且也与其他发现一致。因此,除了仅捕获了48%的方差这一事实以外,其他一切都很好。
我的两位审稿人中的一位说:一位不能太依赖于这些发现,因为只能解释48%的方差,而且这个方差小于要求。
问
是否有任何需要多大的变化应该由PCA捕捉到有效的价值?它不依赖于所使用的领域知识和方法吗?有人可以仅根据所解释的方差的值来判断整个分析的优点吗?
笔记
- 数据是通过一种称为实时定量聚合酶链反应(RT-qPCR)的分子生物学中非常敏感的方法测量的11个基因变量。
- 使用R进行分析。
- 数据分析人员基于他们在微阵列分析,化学计量学,光谱分析等领域中解决现实生活问题的个人经验,给出了很多答案。
- 请考虑为您的回答提供尽可能多的参考。