PCA的属性用于从属观察

我们通常将PCA用作假设情况为iid的数据的降维技术

问题：在将PCA应用于相关的非id数据时，典型的细微差别是什么？持有iid数据的PCA的哪些好用/有用属性被破坏（或完全丢失）？

例如，数据可以是多元时间序列，在这种情况下，可以预期自相关或自回归条件异方差（ARCH）。

上应用PCA，以时间序列数据的几个相关的问题已经被问过，如1，2，3，4，但是我正在寻找一个更普遍和全面的答案（而无需在每个单独的点太多展开）。

编辑：正如@ttnphns所指出的，PCA 本身不是推论分析。但是，人们可能会对PCA的泛化性能感兴趣，即关注样本PCA的总体对应物。如Nadler（2008）所写：

假设给定数据是来自（通常是未知的）分布的有限随机样本，那么一个有趣的理论和实践问题是，从有限数据计算出的样本PCA结果与基础总体模型的结果之间的关系。

参考文献：

纳兹勒，波阿斯。“用于主成分分析的有限样本近似结果：矩阵摄动法。” 统计年鉴（2008）：2791-2817。

— 理查德·哈迪
source

只是为了注意。PCA 本身不是推论分析。它是数字多元数据集的转换；它的核心只是svd或本征分解。因此，它没有做出观察独立性假设。当我们使用PCA 作为统计工具来分析人群样本时，就会产生假设。但是它们不是PCA的假设。例如，进行球形度测试以确定PCA是否有理由减少数据确实需要独立性，并且该测试看起来好像是“ PCA内”假设测试，但实际上是“外部”测试。

— ttnphns

@ttnphns，很好，谢谢。如果您发现编辑我的帖子的好方法，请随时进行编辑。我也会自己考虑一下。

— 理查德·哈迪

理查德，您的问题很好而且很重要（+1）。也许我宁愿用这样的方式重新措辞，例如“我们通常将PCA用作假设情况为iid的数据的降维处理...在案例（时间为点）是相互依存的...？”

— ttnphns

@amoeba，对。但是，我们从未停止过获取PC的负载。在PCA普遍遵循的步骤中，在非空袭状态下我们应该注意些什么？我希望答案（以目前的说法）可能会比问题更好。如果您松散地/创造性地看待它，也许您可以提出一些好的要点。

— 理查德·哈迪

普通PCA仅考虑“水平”关联（即列之间），而忽略“垂直”关联（案例之间）：如果将案例的顺序打乱，则列的协方差矩阵相同。能否将其称为“不假设案件有序列关系”或“假设独立案件”是一个问题。iid假设是数据分析中的默认设置，因此可以简单地将不特别关注案例顺序的方法（例如PCA）推定为iid假设的“沉默支持”。

— ttnphns

据推测，您可以将时间分量作为附加功能添加到采样点，现在它们是iid了吗？基本上，原始数据点取决于时间：

p （ X_{一世} ∣ Ť_{一世} ） \neq p （ X_{一世} ）

$p(\mathbf{x}_i \mid t_i) \ne p(\mathbf{x}_i)$

但是，如果我们定义，那么我们有： $\mathbf{x}_i' = \{\mathbf{x}_i, t_i\}$

p （ X_{一世}^{'} ∣ Ť_{一世} ） = p （ X_{一世}^{'} ）

$p(\mathbf{x}'_i \mid t_i) = p(\mathbf{x}'_i)$

...和数据样本现在相互独立。

实际上，通过在每个数据点中包含时间作为要素，PCA可能会导致一个组件仅沿时间要素轴指向。但是，如果有任何特征与时间特征相关联，则组件可能包含一个或多个这些特征以及时间特征。

— 休·珀金斯
source

感谢您的回答。这是时间线性进入的非常特殊的情况。例如，一种更普遍的现象是自相关，其中时间本身不充当功能。

— 理查德·哈迪

x_{t}

$x_t$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t}

$x_t$

x_{t - 1}

$x_{t-1}$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t - 1}

$x_{t-1}$