多元高斯数据的PCA分量在统计上是否独立吗?


16

如果我们的数据是多元正态分布的,PCA成分(在主成分分析中)是否在统计上独立?如果是这样,如何证明/证明这一点?

我之所以问是因为我看到了这篇文章,其中最高答案指出:

PCA没有做出明确的高斯假设。它找到使数据中解释的方差最大化的特征向量。主成分的正交性意味着它找到了最不相关的成分来解释尽可能多的数据变化。对于多元高斯分布,组件之间的零相关性意味着独立性,这对于大多数分布而言并非如此。

给出的答案没有证据,并且似乎暗示如果数据是多元正态的,则PCA会产生独立的分量。

具体来说,假设我们的数据来自以下示例:

xN(μ,Σ)

我们将个样本放入样本矩阵,因此为。计算的SVD (居中后)得出nxXXn×mX

X=USVT

我们可以说的列在统计上是独立的,还是的行在统计上是独立的吗?通常,仅对,还是根本不正确?UVTxN(μ,Σ)


1
stats.stackexchange.com/q/110508/3277是一个类似的问题。
ttnphns

1
我不认为PC可以在多个维度上被视为“统计独立”。毕竟,按照定义,每个彼此正交。这种功能依赖性产生了非常强的统计依赖性。
whuber

1
@amoeba希望我一直对这个问题一目了然并忠实于此,我发现这个问题已经清楚地表述清楚:因为数据是随机的,所以中的所有条目也是随机的。我已经将统计独立性的定义应用于它们。就这样。您的问题似乎是,您在两种完全不同的意义上使用了“不相关”一词,却似乎没有意识到:通过如何构造的列,它们作为矢量在几何上是正交的,但是它们绝不是独立的随机向量!XUURn
ub

1
@amoeba您是正确的-仿真非常令人信服地显示出相关性可以(强烈)非零。但是,我不是在“ correlation” =“ orthogonal”的意义上争论“ PCA组件不相关”,也不是说任何特定的教科书都是不正确的。我担心的是,这样一个正确理解的陈述与问题无关紧要以致于它所能做的(和已经做的)只是在当前情况下造成了广泛的混乱。
Whuber

1
@whuber,我确定您一直期待着我的答案的另一版!这里是。我明确承认您有关依赖的观点,并声明列是渐近独立的,这是我的主要观点。这里的“渐近”指的是数Ñ的观测(行)。我非常希望我们能够就此达成一致!我还认为,对于任何合理的n,例如n = 100,列之间的依赖关系“实际上是不相关的”。我想这是一个更具争议性的观点,但是我试图在回答中使其相当准确。Unnn=100
变形虫说恢复莫妮卡

Answers:


23

我将从直观演示开始。

我从强非高斯2D分布生成了观测值,而从2D高斯分布生成了b 观测值。在这两种情况下,我为中心的数据,并执行奇异值分解X = û 小号V。然后针对每种情况,我绘制了U的前两列的散点图,一个相对另一个。注意,它通常是列ü 小号被称为“主成分”(PCS); U列是按比例缩放以具有单位范数的PC;仍然,在这个答案中,我专注于U的列。这是散点图:n=100X=USVUUSUU

高斯和非高斯数据的PCA

我认为,语句,如“PCA分量不相关”或“PCA组件都依赖/独立”通常是由约一个具体的样品基体,并参考相关性/依赖性跨行(见例如@这里ttnphns的答案)。PCA产生一个转换后的数据矩阵U,其中行是观察值,列是PC变量。也就是说,我们可以将U视为样本,并询问PC变量之间的样本相关性是什么。该样品的相关矩阵是由下式给出当然ÙÙ = XUUUU=I,表示PC变量之间的样本相关性为零。这就是人们说“ PCA对角化协方差矩阵”等的意思。

结论1:在PCA坐标中,任何数据都具有零相关性。

对于以上两个散点图都是如此。但是,很明显,左侧(非高斯)散点图上的两个PC变量y不是独立的;即使它们具有零相关性,它们强烈地依赖和实际上由相关Ý 一个X - b 2。确实,众所周知,不相关并不意味着独立xyya(xb)2

xy

结论2:在PCA坐标中,高斯数据是“非常独立的”,这意味着相关性的标准估计将约为零。

xyU10

nn=3n=2n=100U1n10

nn1

nΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛVΣYN(0,I/(n1))。即PC变量来自具有对角协方差的多元高斯。但是任何具有对角协方差矩阵的多元高斯分解为单变量高斯的乘积,这就是统计独立性的定义:

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

结论4:高斯数据的PC变量渐近()作为随机变量在统计上是独立的,并且样本互信息将总体值设为零。n

我应该注意,有可能以不同的方式理解这个问题(请参阅@whuber的评论):将整个矩阵视为一个随机变量(通过特定操作从随机矩阵获得),并询问是否有两个来自两个不同列的特定元素和在不同绘制之间在统计上是独立的。我们在后面的主题中探讨了这个问题。UXUijUklX


以上是上述四个临时结论:

  • 在PCA坐标中,任何数据都具有零相关性。
  • 在PCA坐标中,高斯数据是“非常独立的”,这意味着相关性的标准估计将约为零。
  • 严格来说,对于任何有限的,PCA坐标中的高斯数据都是相关的;但是,对于任何,这种依赖关系实际上都是不相关的。nn1
  • 高斯数据的PC变量渐近()作为随机变量在统计上是独立的,并且样本互信息将总体值设为零。n

您编写“但是,如果数据是多元高斯,则它们确实是独立的”。“它们”是主要成分,它们的系数是多少?PCA对角化协方差矩阵是什么意思?谢谢您的答复!
bill_e

“它们”指的是主要成分(它们是数据在最大方差方向上的投影)。PCA寻找最大方差的方向;事实证明,这些方向是由协方差矩阵的特征向量给出的。如果将坐标更改为“ PCA坐标”,则协方差矩阵将是对角线,这就是本征分解的工作方式。同样,问题中的SVD中的矩阵是对角矩阵。同样,矩阵是正交的,这意味着其协方差矩阵是对角线的。所有这些意味着PC的相关系数为零。SU
变形虫说恢复莫妮卡2015年

太好了,谢谢!您的答案和此评论的组合有助于为我解决很多问题。我可以将您的评论编辑成您的答案吗?
bill_e 2015年

我通过合并评论来扩大答案;看看您现在是否对此感到满意。
变形虫说恢复莫妮卡

2
有趣的讨论!当我问这个问题时,我对统计依赖性的想法是“如果您知道PC1,是否可以推断PC2?等等”。我现在将进一步研究基于互信息的独立性测试。
bill_e
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.