PCA是否需要任何数量的方差以进行以后的分析?


15

我有一个包含11个变量的数据集,并进行了PCA(正交)处理以减少数据量。根据我对主题和碎石图的了解,确定要保留的组成部分数量对我来说很明显,两个主要组成部分(PC)足以解释数据,而其余组成部分仅提供较少的信息。

在此处输入图片说明
具有并行分析的Scree图:观察到的特征值(绿色)和基于100次仿真的模拟特征值(红色)。Scree图建议使用3台PC,而并行测试仅建议使用前两台PC。

在此处输入图片说明

如您所见,前两台PC只能捕获到48%的方差。

由前两台PC在第一平面上绘制的观测结果显示,使用分层聚类聚类(HAC)和K均值聚类,得到了三个不同的聚类。事实证明这3个类别与所讨论的问题非常相关,并且也与其他发现一致。因此,除了仅捕获了48%的方差这一事实以外,其他一切都很好。

我的两位审稿人中的一位说:一位不能太依赖于这些发现,因为只能解释48%的方差,而且这个方差小于要求。


是否有任何需要多大的变化应该由PCA捕捉到有效的价值?它不依赖于所使用的领域知识和方法吗?有人可以仅根据所解释的方差的值来判断整个分析的优点吗?

笔记

  • 数据是通过一种称为实时定量聚合酶链反应(RT-qPCR)的分子生物学中非常敏感的方法测量的11个基因变量。
  • 使用R进行分析。
  • 数据分析人员基于他们在微阵列分析,化学计量学,光谱分析等领域中解决现实生活问题的个人经验,给出了很多答案。
  • 请考虑为您的回答提供尽可能多的参考。

特征值的分布对于随机矩阵理论非常重要。Marcenko-Pastur分布有时用于类似的应用程序。
约翰

绿色代表什么,橙色/褐色代表什么?仅在轴上。
usεr11852恢复单胞菌说,

@usεr11852,请参阅更新的标题。
博士学位

Answers:


8

关于您的特定问题:

PCA应该捕获多少方差才能有效吗?

不,据我所知,没有。我坚信,您无法使用任何单一价值。捕获的方差百分比没有魔术阈值。Cangelosi和Goriely的文章:主成分分析中的成分保留以及对cDNA微阵列数据的应用,很好地概述了检测研究中的成分数量的六种标准经验法则。(Scree图,解释的总方差比例,平均特征值规则,对数特征值图等)作为经验法则,我不会强烈依赖它们。

它不依赖于所使用的领域知识和方法吗?

理想情况下,它应该是依赖的,但是您需要谨慎使用它的措辞和含义。

例如:在Acoustics中,存在Just Justableable Difference(JND)的概念。假设您正在分析声学样本,并且一台特定的PC的物理比例变化远低于JND阈值。没有人会轻易争辩说,对于Acoustics应用程序,您应该包括该PC。您将在分析听不见的噪音。包括此PC可能有一些原因,但是这些原因需要以其他方式提出。它们在RT-qPCR分析中是否类似于JND?

同样,如果一个组件看起来像9阶Legendre多项式,并且您有充分的证据证明您的样本由单个高斯凸点组成,则您有充分的理由相信您再次在建模不相关的变量。这些正交变化模式显示什么?例如,在您的情况下,第三台PC有什么“错误”?

您说“ 这三个类别与所讨论的问题非常相关 ”的事实并不是一个很强的论点。您可能会进行简单的数据挖掘(这是一件坏事)。还有其他技术,例如。等值线局部线性嵌入也很酷,为什么不使用它们呢?您为什么特别选择PCA?

您的发现与其他发现的一致性更为重要,尤其是如果这些发现被认为是公认的。对此进行更深入的研究。尝试看看您的结果是否与其他研究的PCA结果一致。

有人可以仅根据所解释的方差的值来判断整个分析的优点吗?

通常,不应这样做。但是,不要以为您的审稿人是混蛋。48%的确是一个很小的百分比,无需提出合理的理由就可以保留。


谢谢您的回答。与JND一样,RT-qPCR没什么特别的。实际上,RT-qPCR只是我们自己测量基因变量的技术。您最有可能是说PC是由所有11个线性组合组成的新变量。给定其他描述性变量,前2个PC证明与免疫反应的细胞有关,而第3个PC与之无关。否则,第三台PC不会有任何问题。
博士学位

我将研究数据挖掘技术,并进一步了解它们。但是您是否偶然知道这是否已由任何R-package实现?
博士学位

1
@doctorate:整个想法是避免数据挖掘。抱歉,我不知道有任何明确测试过的软件包。
usεr11852恢复单胞菌说,

1
+1,但是关于数据挖掘的句子(“您可能是简单的数据挖掘”)不是很清楚,也许这就是@doctorate感到困惑的原因。实际上,我发现整个段落不是很清楚:Isomap和LLE与数据挖掘有何关系?数据挖掘是好是坏?您链接到的Wiki文章首先将其描述为良好。也许您可以在该段中进行更明确的编辑?
变形虫说莫妮卡(
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.