除了已经侧重于数学特性的答案之外,我还要从实验的角度进行评论。
简介:数据生成过程通常以使数据适合于主成分(PCR)或偏最小二乘(PLS)回归的方式进行优化。
我是分析化学家。当我设计用于测量(回归或分类)某些东西的实验/方法时,我会利用我对应用程序和可用仪器的知识来获取相对于手头任务具有良好信噪比的数据。这意味着,我生成的数据被设计为与目标属性具有较大的协方差。
这导致了一个方差结构,其中有趣的方差很大,而以后的PC将仅携带(小)噪声。
为了获得更可靠或更精确的结果,我也更喜欢产生关于手头任务的冗余信息的方法。PCA将冗余的测量通道集中到一台PC中,然后PC携带大量差异,因此是第一批PC之一。
如果存在已知的混杂因素会导致与目标属性不相关的大方差,那么我通常会在数据预处理期间尝试尽可能多地校正这些混杂因素:在许多情况下,这些混杂因素是已知的物理或化学性质,并且此知识为纠正混杂因素提供了适当的方法。例如,我在显微镜下测量拉曼光谱。它们的强度取决于激光的强度以及我对显微镜的聚焦程度。两者都会导致可以通过归一化(例如对已知为恒定的信号)进行校正的更改。
因此,在数据进入PCA之前可能已经消除了对解决方案无贡献的较大方差贡献者,而在最初的PC中留下了大部分有意义的方差。
最后但并非最不重要的一点是,这里有一个自我实现的预言:显然,PCR是对数据进行的,但前提是携带信息的方差大的假设确实有意义。例如,如果我认为可能存在一些我不知道如何纠正的重要混杂因素,那么我将立即选择PLS,因为PLS可以更好地忽略对预测任务无济于事的巨大贡献。