我们通常将PCA用作假设情况为iid的数据的降维技术
问题:在将PCA应用于相关的非id数据时,典型的细微差别是什么?持有iid数据的PCA的哪些好用/有用属性被破坏(或完全丢失)?
例如,数据可以是多元时间序列,在这种情况下,可以预期自相关或自回归条件异方差(ARCH)。
上应用PCA,以时间序列数据的几个相关的问题已经被问过,如1,2,3,4,但是我正在寻找一个更普遍和全面的答案(而无需在每个单独的点太多展开)。
编辑:正如@ttnphns所指出的,PCA 本身不是推论分析。但是,人们可能会对PCA的泛化性能感兴趣,即关注样本PCA的总体对应物。如Nadler(2008)所写:
假设给定数据是来自(通常是未知的)分布的有限随机样本,那么一个有趣的理论和实践问题是,从有限数据计算出的样本PCA结果与基础总体模型的结果之间的关系。
参考文献:
- 纳兹勒,波阿斯。“用于主成分分析的有限样本近似结果:矩阵摄动法。” 统计年鉴(2008):2791-2817。
14
只是为了注意。PCA 本身不是推论分析。它是数字多元数据集的转换;它的核心只是svd或本征分解。因此,它没有做出观察独立性假设。当我们使用PCA 作为统计工具来分析人群样本时,就会产生假设。但是它们不是PCA的假设。例如,进行球形度测试以确定PCA是否有理由减少数据确实需要独立性,并且该测试看起来好像是“ PCA内”假设测试,但实际上是“外部”测试。
—
ttnphns
@ttnphns,很好,谢谢。如果您发现编辑我的帖子的好方法,请随时进行编辑。我也会自己考虑一下。
—
理查德·哈迪
理查德,您的问题很好而且很重要(+1)。也许我宁愿用这样的方式重新措辞,例如“我们通常将PCA用作假设情况为iid的数据的降维处理...在案例(时间为点)是相互依存的...?”
—
ttnphns
@amoeba,对。但是,我们从未停止过获取PC的负载。在PCA普遍遵循的步骤中,在非空袭状态下我们应该注意些什么?我希望答案(以目前的说法)可能会比问题更好。如果您松散地/创造性地看待它,也许您可以提出一些好的要点。
—
理查德·哈迪
普通PCA仅考虑“水平”关联(即列之间),而忽略“垂直”关联(案例之间):如果将案例的顺序打乱,则列的协方差矩阵相同。能否将其称为“不假设案件有序列关系”或“假设独立案件”是一个问题。iid假设是数据分析中的默认设置,因此可以简单地将不特别关注案例顺序的方法(例如PCA)推定为iid假设的“沉默支持”。
—
ttnphns