稀疏PCA到底比PCA好多少?


24

我之前在课堂上的一些讲座中了解了PCA,并且通过深入了解这个引人入胜的概念,我了解了稀疏的PCA。

我想问一下,如果我没记错的话,这就是稀疏的PCA:在PCA中,如果您有个带有变量的数据点,则可以在应用PCA之前表示维空间中的每个数据点。应用PCA之后,您可以再次在同一维空间中表示它,但是,这一次,第一个主成分将包含最大的方差,第二个主要成分将包含第二个最大方差方向,依此类推。因此,您可以消除最后几个主要组件,因为它们不会导致大量数据丢失,并且可以压缩数据。对?ñpp

稀疏PCA正在选择主成分,以使这些成分的矢量系数中包含较少的非零值。

应该如何帮助您更好地解释数据?谁能举一个例子?


您好@GrowinMan!您看到我对这个问题的回答了吗?您认为它能回答吗?如果没有,请随时提出任何澄清,或者考虑编辑您的问题以使其更加精确。如果是,请考虑通过单击附近的绿色对勾进行投票和“接受”。我注意到您在CrossValidated上的票数为零,接受的线程数为零。
变形虫说恢复莫妮卡

@amoeba感谢您指出这一点。一段时间未登录,我对机器学习也有些不了解。我一定会再次阅读您的答案,并在周末之前在此处标记答案
GrowinMan

没问题。我不小心碰到了这个老话题,想到要给你打个电话。
变形虫说恢复莫妮卡

您好@GrowinMan!:-)再次遇到了这个旧线程。如果您仍然认为此问题尚未解决,请随时提出澄清。否则,请考虑单击附近的绿色对勾,以批准并“接受”答案之一。我注意到您在CrossValidated上的票数为零,接受的线程数为零。
变形虫说恢复莫妮卡

Answers:


29

稀疏PCA是否比标准PCA更容易解释,取决于您正在研究的数据集。我是这样想的:有时人们对PCA投影(数据的低维表示)更感兴趣,有时-在主轴上;只有在后一种情况下,稀疏PCA才能对解释产生任何好处。让我举几个例子。

例如,我正在处理神经数据(同时记录许多神经元),并正在应用PCA和/或相关的降维技术来获得神经种群活动的低维表示。我可能有1000个神经元(即我的数据生活在1000维空间中),并希望将其投影在三个主要主轴上。这些轴对我来说完全无关紧要,我无意以任何方式“解释”这些轴。我感兴趣的是3D投影(由于活动取决于时间,因此我会在此3D空间中得到轨迹)。因此,如果每个轴都具有1000个非零系数,那很好。

另一方面,可能有人正在处理更多“有形”数据,其中各个维度具有明显的含义(与上述单个神经元不同)。例如,各种汽车的数据集,其中尺寸从重量到价格都可以。在这种情况下,人们可能实际上会对主导主轴本身感兴趣,因为有人可能想说点什么:看,第一个主轴对应于汽车的“奇特性”(我现在完全是在弥补这一点)。如果投影稀疏,则这样的解释通常会更容易给出,因为许多变量的系数为,因此显然与该特定轴无关。对于标准PCA,通常所有变量的系数都不为零。0

在Zou等人的2006年稀疏PCA论文中,您可以找到更多示例,并对后一种情况进行一些讨论。但是,前者和后者之间的区别是,我没有在任何地方明确讨论(即使可能)。


3
这是一个很好的解释。您的“有形”数据的另一个示例是“有很多问题的调查”,您想知道调查中哪些问题最重要,也许它们的某种组合确实在询问一个主题。
bdeonovic

1

因此,您可以消除最后几个主要组件,因为它们不会导致大量数据丢失,并且可以压缩数据。对?

你是对的。并且如果有变量,那么您就有主成分,每个变量在每个PC都有一个信息(贡献)。ñV1个V2VññPC1个PC2PCñV一世PC一世

在稀疏PCA中,没有某些变量,这些变量的系数为零。PC一世VĴV

然后,如果在一个平面,变量少于预期(),则在该平面中清除它们之间的线性关系会更容易。 PC一世PCĴñ


怎么样!?与主成分不稀疏的情况相反,在这种情况下,我不认为这将易于解释。
GrowinMan 2013年

2
我对此的想法是,我们经常在PC之前进行变量聚类,以使结果更易于解释。稀疏PC将变量聚类和PC整合到一个步骤中,分析师需要的决策更少。
Frank Harrell

1

要了解稀疏性在PCA中的优势,您需要确保您知道“负荷”和“变量”之间的区别(对我来说,这些名称有些武断,但这并不重要)。

假设您有一个nxp数据矩阵X,其中n是样本数。X = USV'的SVD 为您提供三个矩阵。将前两个Z = US结合起来可以得到主成分矩阵。假设您的降级为k,则ZnxkZ本质上是降维后的数据矩阵。历史上,

您的主要成分(又名Z = US)的条目称为变量。

另一方面,V(是pxk)包含主体加载向量,并且其条目称为主体加载。给定PCA的属性,很容易证明Z = XV。这意味着:

通过使用主载荷作为数据矩阵X的线性组合中的系数来导出主成分。

既然这些定义已不复存在,我们将研究稀疏性。大多数论文(或至少我遇到的大多数论文)都对主要加载量(即V)实施稀疏性。稀疏的优点是

稀疏的V将告诉我们哪些变量(来自原始p维特征空间)值得保留。这称为可解释性。

对于Z的条目,也有一些强制执行稀疏性的解释,我见过人们称其为“稀疏变量PCA”,但是这种说法不那么受欢迎,老实说,我并没有考虑那么多。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.