Questions tagged «pca»

主成分分析(PCA)是线性降维技术。它将多变量数据集简化为较小的构造变量集,以保留尽可能多的信息(尽可能多的方差)。这些变量称为主成分,是输入变量的线性组合。


1
对主题(双)空间中PCA的几何理解
我试图对主成分分析(PCA)在主题(双)空间中的工作方式有一个直观的了解。 考虑具有两个变量x1x1x_1和x2x2x_2以及nnn数据点的2D数据集(数据矩阵XX\mathbf X为n×2n×2n\times 2并假定为居中)。PCA的通常表示是,我们考虑R 2中的nnn个点,记下2 × 2协方差矩阵,并找到其特征向量和特征值。第一个PC对应于最大方差的方向,等等。这是协方差矩阵C = (4 2 2 2)的示例R2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right)。红线表示按各自特征值平方根缩放的特征向量。 \hskip 1in 现在考虑一下主题空间中发生了什么(我从@ttnphns学到了这个术语),也称为对偶空间(机器学习中使用的术语)。这是一个nnn维空间,其中两个变量(两列XX\mathbf X)的样本形成两个向量x1x1\mathbf x_1和x2x2\mathbf x_2。每个变量向量的平方长度等于其方差,两个向量之间的夹角余弦等于它们之间的相关性。顺便说一下,这种表示在多元回归的治疗中非常标准。在我的示例中,主题空间如下所示(我只显示了由两个变量向量跨越的2D平面): \hskip 1in 主成分是两个变量的线性组合,将在同一平面上形成两个向量和p 2。我的问题是:如何在这样的图形上使用原始变量矢量来形成主成分变量矢量的几何理解/直觉是什么?给定x 1和x 2,什么几何过程将产生p 1?p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下是我目前对此的部分理解。 首先,我可以通过标准方法计算主要成分/轴并将其绘制在同一图上: \hskip 1in 此外,我们可以注意到,选择要使x i(蓝色矢量)与其在p 1上的投影之间的距离的平方和最小。这些距离是重建误差,并且用黑色虚线显示。等效地,p 1使两个投影的平方长度的总和最大化。这完全指定了p 1,并且当然完全类似于主空间中的类似描述(请参见我对“理解主成分分析,特征向量和特征值”的回答中的动画)。另请参阅@ttnphns答案的第一部分。p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf p_1p1p1\mathbf p_1 但是,这还不够几何!它没有告诉我如何找到这样的,也没有指定其长度。p1p1\mathbf …

2
如何解释时间序列数据上的PCA?
Freeman et al。,2014年(最近的免费pdf 可在实验室网站上找到)中,我试图理解PCA在最近的期刊文章“使用集群计算大规模地映射大脑活动”中的用法。他们在时间序列数据上使用PCA,并使用PCA权重创建大脑图。 的数据是试平均成像数据,存储为矩阵(称为Ý在纸)与ñ体素(或成像位置在脑中)的时间点(单一刺激的长度到大脑) 。Y^Y^\hat {\mathbf Y}nnn×t^×t^\times \hat t 他们使用SVD得出(表示矩阵转置)。V⊤VY^=USV⊤Y^=USV⊤\hat {\mathbf Y} = \mathbf{USV}^\topV⊤V⊤\mathbf V^\topVV\mathbf V 作者指出 主成分(的列)是长度为向量,而得分(的列)是长度为(体素的数量)的向量,描述了每个体素在方向上的投影。由相应组件给出,在体积上形成投影,即全脑图。吨 ü ÑVV\mathbf Vt^t^\hat tUU\mathbf Unnn 因此,PC是的长度的矢量吨。如何解释PCA教程中通常表达的“第一个主要成分解释了最多的差异”?我们从具有许多高度相关的时间序列的矩阵开始-单个PC时间序列如何解释原始矩阵中的方差?我了解整个“点的高斯云到变化最大的轴的旋转”,但是不确定这与时间序列的关系。作者在陈述时所指的方向是什么:“分数(U的列)是长度为n的向量t^t^\hat tUU\mathbf Unnn (体素数),描述每个体素在相应分量给定的方向上的投影”?主分量时程如何具有方向? 要查看由主成分1和2的线性组合以及相关的脑图得出的时间序列的示例,请转到以下链接,然后将鼠标悬停在XY图中的点上。 我的第二个问题与他们使用主成分分数创建的(状态空间)轨迹有关。 这些通过取第一分数(在我上面已经概述的“视动”的例子的情况下)产生并投射单个试验(用于创建上述试验平均矩阵)到由等式主子空间:J=U⊤Y.J=U⊤Y.\mathbf J = \mathbf U^\top \mathbf Y. 从链接的电影可以看到,状态空间中的每条迹线代表整个大脑的活动。 与关联前两台PC得分的XY图的图形相比,有人能提供状态空间电影的每个“帧”意味着什么的直觉。在给定的“框架”下,将一个试验置于XY状态空间中的一个位置,将另一个试验置于另一个位置,这意味着什么?电影中XY绘图位置与问题第一部分提到的链接图中的主成分迹线有何关系?

1
在PCA提供更好的解释方差比之前不对数据进行归一化
我对数据集进行了归一化处理,然后运行了3个分量PCA,以获得较小的解释方差比([0.50,0.1,0.05])。 当我不进行标准化但变白的数据集然后运行3分量PCA时,我得到了较高的解释方差比([0.86,0.06,0.01])。 由于我想将尽可能多的数据保留为3个组成部分,因此我不应该对数据进行规范化吗?据我了解,我们应该始终在PCA之前将其标准化。 通过归一化:将均值设置为0并具有单位方差。
19 pca 

2
同一数据集上的PCA和探索性因子分析:差异和相似性;因子模型与PCA
我想知道对同一数据集执行主成分分析(PCA)和探索性因素分析(EFA)是否合乎逻辑。我听说专业人士明确建议: 了解分析的目的是什么,并选择PCA或EFA进行数据分析; 完成一项分析后,无需执行另一项分析。 我理解两者之间的动机差异,但是我只是想知道在同时解释PCA和EFA提供的结果时是否有错误?

3
岭回归与PCA回归之间的关系
我记得在网络上的某个地方阅读过岭回归(具有正则化)和PCA回归之间的联系:在使用带超参数正则回归时,如果,则回归等同于删除特征值最小的PC变量。ℓ 2 λ λ →交通0ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 为什么会这样呢? 这与优化过程有关吗?天真的,我希望它等同于OLS。 有人为此提供参考吗?

1
将箭头定位在PCA双线图上
我正在寻找在JavaScript中实现主成分分析(PCA)的双图。我的问题是,如何从数据矩阵的奇异矢量分解(SVD)的输出确定箭头的坐标?U,V,DU,V,DU,V,D 这是R生成的示例双图: biplot(prcomp(iris[,1:4])) 我尝试在biplot上的Wikipedia文章中查找它,但它不是很有用。或正确。不知道哪个。
18 pca  svd  biplot 

1
盲源分离凸混合物?
假设我有独立的源并且观察到凸混合: X 1,X 2,。。。,X n m Y 1ñnnX1个,X2,。。。,XñX1,X2,...,XnX_1, X_2, ..., X_n米mmÿ1个。。。ÿ米= 一个11X1个+ 一个12X2+ ⋯ + 一个1 nXñ= 一个1 米X1个+ 一个2 米X2+ ⋯ + 一个米ñXñY1=a11X1+a12X2+⋯+a1nXn...Ym=am1X1+am2X2+⋯+amnXn\begin{align} Y_1 &= a_{11}X_1 + a_{12}X_2 + \cdots + a_{1n}X_n\\ ...&\\ Y_m &= a_{m1}X_1 + a_{m2}X_2 + \cdots + a_{mn}X_n \end{align} 对于所有,,对于所有,。∑Ĵ一种我Ĵ= 1∑jaij=1\sum_j a_{ij} = 1一世ii一种我Ĵ≥ 0aij≥0a_{ij} …
18 pca  ica 

1
如何使用主成分分析来白化数据?
我想将数据转换为使得方差将为1而协方差将为零(即,我想白化数据)。此外,均值应为零。XX\mathbf X 我知道我将通过Z标准化和PCA转换达到目标,但是我应该按什么顺序进行? 我应该补充一点,组成的美白转换应采用。x↦Wx+bx↦Wx+b\mathbf{x} \mapsto W\mathbf{x} + \mathbf{b} 有没有一种类似于PCA的方法,可以完全完成这两个转换并给出上面形式的公式?

1
在PCA中到底是什么叫做“主要组件”?
假设是使设计矩阵的数据投影的方差最大化的向量。uüuXXX 现在,我已经看到了将称为数据的(第一)主成分的材料,这也是具有最大特征值的特征向量。uuu 但是,我也看到数据的主要成分是。XuXuX u 显然,和是不同的。谁能在这里帮助我,告诉我这两个主要成分定义之间的区别是什么?uuuXuXüXu

2
PCA中的低方差分量,它们真的只是噪声吗?有什么方法可以测试吗?
我正在尝试决定是否保留PCA的组件。根据特征值的大小,有无数的标准,例如在此处或此处进行描述和比较。 但是,在我的应用程序中,我知道与最大(st)特征值相比,最小(最大)特征值会很小,并且基于幅度的标准都将拒绝最小(最大)特征值。这不是我想要的。我感兴趣的是:在某种意义上,是否有已知方法考虑到小特征值的实际对应部分:是真的“所有”教科书中都暗含了“只是”噪声,还是存在某种“潜在”东西?还剩利息吗?如果确实是噪声,则将其除去,否则不管特征值的大小如何都应将其保留。 对于我找不到的PCA中的组件,是否存在某种已建立的随机性或分布测试?还是有人知道这是一个愚蠢的主意吗? 更新资料 在两个用例中,组件的直方图(绿色)和法线近似值(蓝色):一次可能是真正的噪声,一次可能不是“仅”噪声(是的,值很小,但可能不是随机的)。在两种情况下,最大的奇异值都是〜160,最小的奇异值是0.0xx-对于任何截止方法来说都太小了。 我正在寻找的是一种正规化此方法的方法...
18 pca 


1
与标准PCA相比,内核PCA有何优势?
我想在一篇使用内核SVD分解数据矩阵的论文中实现一种算法。因此,我一直在阅读有关内核方法和内核PCA等的材料。但是,对于我而言,尤其是在数学细节方面,它还是很晦涩的,我有几个问题。 为什么使用内核方法?或者,内核方法有什么好处?直观的目的是什么? 是否假设与非内核方法相比,更高的维数空间在现实世界中的问题更现实,并且能够揭示数据中的非线性关系?根据材料,内核方法将数据投影到高维特征空间上,但是它们不必显式计算新的特征空间。相反,仅计算特征空间中所有数据对对的图像之间的内积就足够了。那么为什么要投影到更高维度的空间呢? 相反,SVD减少了特征空间。他们为什么要朝不同的方向做?内核方法寻求更高维度,而SVD寻求更低维度。对我来说,将它们结合起来听起来很奇怪。根据我正在阅读的论文(Symeonidis等,2010),引入内核SVD而不是SVD可以解决数据中的稀疏性问题,从而改善结果。 从图中的比较中我们可以看到,KPCA得到的特征向量的方差(特征值)比PCA高。因为对于点在特征向量(新坐标)上的投影的最大差异,KPCA是一个圆,PCA是一条直线,所以KPCA的方差大于PCA。那么,这是否意味着KPCA的主成分要高于PCA?
18 pca  svd  kernel-trick 

3
在进行PCA之前,为什么要除以标准偏差而不是其他一些标准化因子?
我在阅读以下理由(来自cs229课程注释),说明为什么我们将原始数据除以其标准偏差: 即使我理解解释的意思,但我仍不清楚为什么除以标准偏差才能实现这一目标。它说的是,每个人都处于相同的“规模”。但是,尚不完全清楚为什么除以标准偏差才能达到目标。例如,除以方差有什么问题?为什么不另加一些呢?像...绝对值的总和?或其他一些规范...选择性病是否有数学依据? 本声明中的主张是可以通过数学(和/或统计)得出/证明的理论陈述,还是因为它似乎在“实践”中起作用而做的其中一项陈述? 基本上,可以提供一种关于为什么直觉是正确的严格数学解释吗?还是仅凭经验观察,为什么我们认为在进行PCA之前总体上可行? 另外,在PCA中,这是标准化还是标准化的过程? 我的其他一些想法可能会“解释”性病的原因: 由于可以通过最大化方差来得出PCA,因此我猜测除以相关数量(例如STD)可能是我们除以STD的原因之一。但后来我认为,如果我们将其他任何规范定义为“方差”,,那么我们将用该标准的STD除以(取pth根或某物)。虽然,这只是一个猜测,我对此不是100%,因此是个问题。我想知道是否有人对此有任何了解。1n∑ni=1(xi−μ)p1n∑i=1n(xi−μ)p\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p 我确实看到可能存在一个相关的问题: PCA是相关性还是协方差? 但是似乎更多地讨论了何时使用“相关”或“协方差”,但缺乏严格,令人信服或详尽的理由,这是我主要感兴趣的。 同样适用于: 为什么我们需要在分析之前对数据进行标准化 有关: SVD / PCA的“规范化”变量

2
加权主成分分析
经过一番搜索,我发现将观测权重/测量误差纳入主成分分析的内容很少。我发现的结果倾向于依靠迭代方法来包含权重(例如,here)。我的问题是为什么需要这种方法?为什么我们不能使用加权协方差矩阵的特征向量?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.