PCA的属性用于从属观察


23

我们通常将PCA用作假设情况为iid的数据的降维技术

问题:在将PCA应用于相关的非id数据时,典型的细微差别是什么?持有iid数据的PCA的哪些好用/有用属性被破坏(或完全丢失)?

例如,数据可以是多元时间序列,在这种情况下,可以预期自相关或自回归条件异方差(ARCH)。

上应用PCA,以时间序列数据的几个相关的问题已经被问过,如1234,但是我正在寻找一个更普遍和全面的答案(而无需在每个单独的点太多展开)。

编辑:正如@ttnphns所指出的,PCA 本身不是推论分析。但是,人们可能会对PCA的泛化性能感兴趣,即关注样本PCA的总体对应物。如Nadler(2008)所写:

假设给定数据是来自(通常是未知的)分布的有限随机样本,那么一个有趣的理论和实践问题是,从有限数据计算出的样本PCA结果与基础总体模型的结果之间的关系。

参考文献:


14
只是为了注意。PCA 本身不是推论分析。它是数字多元数据集的转换;它的核心只是svd或本征分解。因此,它没有做出观察独立性假设。当我们使用PCA 作为统计工具来分析人群样本时,就会产生假设。但是它们不是PCA的假设。例如,进行球形度测试以确定PCA是否有理由减少数据确实需要独立性,并且该测试看起来好像是“ PCA内”假设测试,但实际上是“外部”测试。
ttnphns

@ttnphns,很好,谢谢。如果您发现编辑我的帖子的好方法,请随时进行编辑。我也会自己考虑一下。
理查德·哈迪

1
理查德,您的问题很好而且很重要(+1)。也许我宁愿用这样的方式重新措辞,例如“我们通常将PCA用作假设情况为iid的数据的降维处理...在案例(时间为点)是相互依存的...?”
ttnphns

1
@amoeba,对。但是,我们从未停止过获取PC的负载。在PCA普遍遵循的步骤中,在非空袭状态下我们应该注意些什么?我希望答案(以目前的说法)可能会比问题更好。如果您松散地/创造性地看待它,也许您可​​以提出一些好的要点。
理查德·哈迪

2
普通PCA仅考虑“水平”关联(即列之间),而忽略“垂直”关联(案例之间):如果将案例的顺序打乱,则列的协方差矩阵相同。能否将其称为“不假设案件有序列关系”或“假设独立案件”是一个问题。iid假设是数据分析中的默认设置,因此可以简单地将特别关注案例顺序的方法(例如PCA)推定为iid假设的“沉默支持”。
ttnphns

Answers:


1

据推测,您可以将时间分量作为附加功能添加到采样点,现在它们是iid了吗?基本上,原始数据点取决于时间:

pX一世Ť一世pX一世

但是,如果我们定义,那么我们有:X一世={X一世Ť一世}

pX一世Ť一世=pX一世

...和数据样本现在相互独立。

实际上,通过在每个数据点中包含时间作为要素,PCA可能会导致一个组件仅沿时间要素轴指向。但是,如果有任何特征与时间特征相关联,则组件可能包含一个或多个这些特征以及时间特征。


1
感谢您的回答。这是时间线性进入的非常特殊的情况。例如,一种更普遍的现象是自相关,其中时间本身不充当功能。
理查德·哈迪

XŤθXŤ-1个XŤXŤ-1个θXŤ-1个

XŤ-1个
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.