非高斯数据的PCA


20

关于PCA,我有几个快速问题:

  • PCA是否假定数据集是高斯的?
  • 当我将PCA应用于固有的非线性数据时会发生什么?

对于给定的数据集,过程是首先进行均值归一化,将方差设置为1,采用SVD,降低等级,最后将数据集映射到新的降低等级的空间中。在新空间中,每个维度都对应于最大方差的“方向”。

  • 但是,在新空间中该数据集的相关性是否始终为零,还是仅对本质上为高斯的数据适用?

假设我有两个数据集“ A”和“ B”,其中“ A”对应于从高斯获得的随机采样点,而“ B”对应于从另一分布中随机采样的点(例如Poisson)。

  • PCA(A)与PCA(B)相比如何?
  • 通过查看新空间中的点,我如何确定PCA(A)对应于从高斯采样的点,而PCA(B)对应于从泊松采样的点?
  • “ A”中的点的相关性是否为0?
  • “ B”中的点的相关性也为0吗?
  • 更重要的是,我要问“正确”的问题吗?
  • 我应该看看相关性,还是应该考虑另一个指标?

2
请参阅附录中有关PCA假设的附录 本文
假定正常的2012年

Answers:


17

您已经在这里有了几个很好的答案(对@ Cam.Davidson.Pilon和@MichaelChernick都+1)。让我提出几点意见,以帮助我思考这个问题。

首先,PCA在相关矩阵上运行。因此,在我看来,重要的问题是使用相关矩阵来帮助您考虑数据是否有意义。例如,皮尔逊乘积矩评估了两个变量之间的线性关系。如果您的变量是相关的,但不是线性的,则相关性不是索引关系强度的理想指标。(是有关相关性和非正态数据的关于简历的精彩讨论。)

其次,我认为了解PCA的最简单方法是旋转轴。当然,您可以做更多的事情,不幸的是PCA与因素分析相混淆(肯定还有更多的事情要做)。尽管如此,可以认为没有任何花哨的普通PCA如下:

  • 您在一张方格纸上以二维方式绘制了一些点;
  • 您具有在其上绘制了正交轴的透明度,并且在原点有一个针孔;
  • 您居中透明度的原点(即,针孔)以上,并把你的铅笔尖穿过针孔举行的地方; (x¯,y¯)
  • 然后旋转透明度,直到这些点(根据透明度的轴而不是原始索引进行索引)不相关为止。

对于PCA,这不是一个完美的隐喻(例如,我们没有将方差重新缩放为1)。但是确实给人基本的想法。现在的重点是,使用该图像来思考如果数据不是一开始就不是高斯的,结果将是什么样?这将帮助您确定此过程是否值得做。希望能有所帮助。


2
+1(很久以前)。我认为这是此主题中的最佳答案,希望它还会再收集一个投票,也将成为投票最多的一个。我喜欢您用透明的方式解释PCA的方法,这很好。
变形虫说莫妮卡(

顺便说一句,您的这个回答在我们庞大的外行PCA线程中启发了我最近的回答:我制作的这些gif动态图考虑了您的透明度。
变形虫说恢复莫妮卡的时间

@amoeba,这是一个很好的答案。比这要好得多。
gung-恢复莫妮卡

13

我可以提供部分解决方案,并为您显示答案 第二段第三个问题,关于新数据是否相关。简短的回答是“否”,新空间中的数据不相关。可以看到,将w 2视为两个唯一的主成分。那么X w 1X w 2是数据新空间X中的二维。w1w2Xw1Xw2X

由于 w i是常数,所以第二项是0(正如您所说,我们先验 X)。第一项可以改写为 w T 1 E [ X T

Cov(Xw1,Xw2)=E[(Xw1)T(Xw2)]E[Xw1]TE[Xw2]
wiX因为 w i彼此正交,因此假设 V a r X 是有限的,则整个项为零。 这完全独立于关于正态性的任何假设。
w1TE[XTX]w2=Var(X)w1Tw2=0
wiVar(X)

XXwXXw不必具有很强的描述性。

α


7

PCA中没有假定线性或正态性。这个想法只是将p维数据集中的变化分解为正交分量,这些正交分量根据所解释的方差量排序。


2
正确,但当变量之间存在非线性相关性时,“将p维数据集中的变化分解为正交分量”不是很有用,因为通常进行正交化,以便您可以辩称维是不相关的(这是也与问题的高斯部分有关)。当您执行PCA并计划以通常的方式解释结果时,有一个基本的假设,即数据位于较低维的线性子空间中。
Macro

2
@Macro不完全是。我要说的基本假设是,至少大多数可变性以及因此数据的模式都集中在某些较低维度的空间中。我可以在具有正交分量的二维空间中很好地观察抛物线。我认为可以从二维或三个维度来查看非线性形状。如果数据来自多元高斯分布,则在某些子空间中,这些点应看起来像椭球形的云。在高级PC的子空间中,该分布不必看起来像椭圆形,这很有趣。
Michael R. Chernick

4
我会略胜一筹。在经典PCA或SVD中的PCA中没有正常假设。但是,用于计算缺少数据的PCA的EM算法将假定正态性和线性。
约翰

尽管通往PCA的经典之路无需任何假设,但有另一条通往其解决方案的道路,那就是:概率PCA的测量噪声为0。
bayerj 2015年

3

在这里阅读第7页:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

他们注意到,PCA假设我们所解释的任何分布都可以用均值(零)和方差来描述,他们说它们只能是正态分布。

(基本上是Cam的回答,但我没有足够的声誉来评论:)


1
您提供给Shlens教程的链接是该教程的版本1,但是现在提供了版本3.02(最终版本?),并且删除了此特定点。另外,这个问题正好问到了这一点。
奥伦·米尔曼

0

据我所知,PCA并不假定数据是正常的。但是,如果它是正态分布的(从更一般的意义上讲是对称分布的),那么结果将更可靠。就像其他人所说的那样,关键在于PCA基于Pearson相关系数矩阵,其估计值受异常值和偏斜分布的影响。因此,在涉及的某些分析(例如统计检验或p值)中,您应该更多地关注是否满足正态性;但是在其他应用程序(例如探索性分析)中,您可以使用它,但只有在进行解释时要小心。


-1

与其他表示同意应“正常”分发数据的人达成共识。如果对其进行转换,则任何分布都将与正态分布重叠。如果您的分布不正常,则获得的结果将比正常情况下的结果差,如此处某些人所述...

  • 您可以根据需要改变发行版。
  • 您可以选择PCA并使用独立成分分析(ICA)。

如果您在第一个答案中阅读了参考文献,则在附录部分中指出该假设为正态分布。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.