Questions tagged «pca»

主成分分析(PCA)是线性降维技术。它将多变量数据集简化为较小的构造变量集,以保留尽可能多的信息(尽可能多的方差)。这些变量称为主成分,是输入变量的线性组合。


5
最高主成分如何保持对因变量的预测能力(甚至导致更好的预测)?
假设我正在回归。为什么通过选择X的前k个主成分,模型对Y保持预测能力?ÿ〜XY∼XY \sim XķkkXXXÿYY 从降维/特征选择的角度来看,如果我理解。。。v k是X的协方差矩阵的特征向量,具有最高k个特征值,则X v 1,X v 2。。。X v k是具有最大方差的前k个主成分。据我所知,我们可以将特征数量减少到k并保留大多数预测能力。v1个,v2,。。。vķv1,v2,...vkv_1, v_2, ... v_kXXXķkkXv1个,Xv2。。。XvķXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kķkkķkk 但是,为什么前分量保留对Y的预测能力?ķkkÿYY 如果我们谈论的一般OLS ,没有理由认为,如果功能ž 我有最大方差,然后ž 我对大多数预测能力Ÿ。ÿ〜žY∼ZY \sim Zž一世ZiZ_iž一世ZiZ_iÿYY 看到评论后进行更新:我想我已经看到了很多使用PCA进行降维的示例。我一直认为这意味着我们剩下的维度具有最大的预测能力。否则降维的目的是什么?

2
结合PCA和LDA是否有意义?
假设我有一个监督统计分类任务的数据集,例如通过贝叶斯分类器。该数据集包含20个特征,我想通过降维技术将其简化为2个特征,例如主成分分析(PCA)和/或线性判别分析(LDA)。 两种技术都将数据投影到较小的特征子空间上:使用PCA,我将找到使数据集中方差最大化的方向(分量)(不考虑类标签),而使用LDA,我将具有使两者之间的最大化的分量。级分离。 现在,我想知道是否可以,如何以及为什么可以结合使用这些技术,以及是否有意义。 例如: 通过PCA转换数据集并将其投影到新的2D子空间中 通过LDA转换(已经PCA转换的)数据集,最大 班级分离 要么 跳过PCA步骤并使用LDA的前2个组件。 或任何其他有意义的组合。

3
回归中岭正则化的解释
关于最小二乘背景下的岭罚,我有几个问题: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)该表达式表明X的协方差矩阵朝对角线矩阵收缩,这意味着(假设变量在过程之前已标准化)输入变量之间的相关性将降低。这种解释正确吗? 2)如果它是收缩应用程序,为什么不使用,假设我们可以通过归一化将lambda限制在[0,1]范围内。(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X) 3)什么是的规范化,以便可以将其限制在[0,1]之类的标准范围内。λλ\lambda 4)在对角线上添加一个常数会影响所有特征值。仅攻击奇异值或接近奇异值会更好吗?这是否等同于在回归之前将PCA应用于X并保留前N个主要成分,或者它具有不同的名称(因为它不会修改交叉协方差计算)? 5)我们可以对交叉协方差进行正则化吗,或者有什么用,意味着βridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) 较小的会降低交叉协方差。显然,这会同等地降低所有,但是也许有一种更聪明的方法,如根据协方差值进行硬/软阈值设置。βγγ\gammaββ\beta

2
如何使用R prcomp结果进行预测?
我有一个800 obs的data.frame。的40个变量,并希望使用主成分分析来改善我的预测结果(到目前为止,这在支持向量机上对大约15个手工挑选的变量效果最好)。 我了解prcomp可以帮助我改善预测,但是我不知道如何使用prcomp函数的结果。 我得到结果: > PCAAnalysis <- prcomp(TrainTrainingData, scale.=TRUE) > summary(PCAAnalysis) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 Standard deviation 1.7231 1.5802 1.3358 1.2542 1.1899 1.166 1.1249 1.1082 1.0888 1.0863 1.0805 1.0679 1.0568 1.0520 Proportion of Variance 0.0742 0.0624 0.0446 …
25 r  pca 

3
LSA与PCA(文档集群)
我正在研究文档聚类中使用的各种技术,并且想清除一些有关PCA(主要成分分析)和LSA(潜在语义分析)的疑问。 第一件事-它们之间有什么区别?我知道在PCA中,SVD分解应用于术语协方差矩阵,而在LSA中,它是术语文档矩阵。还有别的事吗? 第二-它们在文档聚类过程中的作用是什么?根据到目前为止的读物,我推断出它们的目的是减少维数,减少噪声并将项之间的关系纳入表示。在执行PCA或LSA之后,将传统算法(如k均值或凝聚法)应用于缩减后的词项空间,并使用典型的相似性度量(如余弦距离)。如果我错了,请纠正我。 第三-是否在应用PCA / LSA之前对TF / IDF术语向量进行了标准化是否重要?并且在那之后是否应该将它们再次标准化? 第四-假设我对LSA / PCA减少的术语空间进行了一些聚类。现在,我应该如何为结果集群分配标签?由于尺寸与实际单词不符,因此这是一个难题。我想到的唯一想法是使用原始项向量计算每个聚类的质心,并选择权重最大的项,但这听起来并不十分有效。有针对此问题的一些特定解决方案吗?我什么都找不到。 我将非常感谢您澄清这些问题。

2
PCA在多重共线性下不稳定吗?
我知道在回归情况下,如果您有一组高度相关的变量,由于估计系数的不稳定性(方差趋于零,而行列式趋于零),这通常是“不好的”。 我的问题是,这种“弊端”在PCA情况下是否仍然存在。当协方差矩阵变得奇异时,任何特定PC的系数/载荷/权重/特征向量会变得不稳定/任意/不唯一吗?对于仅保留第一个主要成分而所有其他成分都被视为“噪音”或“其他”或“不重要”的情况,我尤其感兴趣。 我不这么认为,因为您将剩下一些具有零或接近零方差的主要成分。 容易看到,在具有2个变量的简单极端情况下,情况并非如此-假设它们是完全相关的。然后,第一个PC将是精确的线性关系,第二个PC将与第一个PC垂直,所有观测值的所有PC值都等于零(即零方差)。想知道它是否更一般。

5
PCA的示例,方差低的PC是“有用的”
通常,在主成分分析(PCA)中,使用前几台PC,而丢弃低方差PC,因为它们不能解释数据的大部分变化。 但是,是否存在一些示例,这些示例中的低偏差PC有用(即在数据上下文中使用过,有直观的解释等)并且不应丢弃?
24 pca 

2
如何理解“非线性降维”中的“非线性”?
我试图了解线性降维方法(例如PCA)和非线性降维方法(例如Isomap)之间的差异。 在这种情况下,我不太了解(非线性)含义。我从维基百科上得知 相比之下,如果使用PCA(线性降维算法)将同一数据集缩小为二维,则结果值的组织就不太好。这表明采样此歧管的高维向量(每个代表字母“ A”)以非线性方式变化。 是什么 采样此歧管的高维向量(每个代表字母“ A”)以非线性方式变化。 意思?或更广泛地说,在这种情况下,我如何理解(非线性)?

3
稀疏PCA到底比PCA好多少?
我之前在课堂上的一些讲座中了解了PCA,并且通过深入了解这个引人入胜的概念,我了解了稀疏的PCA。 我想问一下,如果我没记错的话,这就是稀疏的PCA:在PCA中,如果您有个带有变量的数据点,则可以在应用PCA之前表示维空间中的每个数据点。应用PCA之后,您可以再次在同一维空间中表示它,但是,这一次,第一个主成分将包含最大的方差,第二个主要成分将包含第二个最大方差方向,依此类推。因此,您可以消除最后几个主要组件,因为它们不会导致大量数据丢失,并且可以压缩数据。对?ññnpppppp 稀疏PCA正在选择主成分,以使这些成分的矢量系数中包含较少的非零值。 应该如何帮助您更好地解释数据?谁能举一个例子?

1
PCA的属性用于从属观察
我们通常将PCA用作假设情况为iid的数据的降维技术 问题:在将PCA应用于相关的非id数据时,典型的细微差别是什么?持有iid数据的PCA的哪些好用/有用属性被破坏(或完全丢失)? 例如,数据可以是多元时间序列,在这种情况下,可以预期自相关或自回归条件异方差(ARCH)。 上应用PCA,以时间序列数据的几个相关的问题已经被问过,如1,2,3,4,但是我正在寻找一个更普遍和全面的答案(而无需在每个单独的点太多展开)。 编辑:正如@ttnphns所指出的,PCA 本身不是推论分析。但是,人们可能会对PCA的泛化性能感兴趣,即关注样本PCA的总体对应物。如Nadler(2008)所写: 假设给定数据是来自(通常是未知的)分布的有限随机样本,那么一个有趣的理论和实践问题是,从有限数据计算出的样本PCA结果与基础总体模型的结果之间的关系。 参考文献: 纳兹勒,波阿斯。“用于主成分分析的有限样本近似结果:矩阵摄动法。” 统计年鉴(2008):2791-2817。

2
PCA和渐近PCA有什么区别?
在1986年和1988年的两篇论文中,Connor和Korajczyk提出了一种建模资产收益的方法。由于这些时间序列通常具有比时间段观察更多的资产,因此他们建议对资产收益的横截面协方差执行PCA。他们称此方法为渐近主成分分析(APCA,这很令人困惑,因为听众立即想到PCA的渐近性质)。 我已经计算出方程,这两种方法在数值上似乎是等效的。渐近性当然是不同的,因为证明了收敛是而不是。我的问题是:有人使用过APCA并将其与PCA相比吗?有具体的区别吗?如果是这样,哪个?N→∞N→∞N \rightarrow \inftyT→∞T→∞T \rightarrow \infty
23 pca  econometrics 

4
估算PCA的缺失值
我使用该prcomp()函数在R中执行PCA(主要成分分析)。但是,该函数中存在一个错误,导致该na.action参数不起作用。我寻求有关stackoverflow的帮助;那里的两个用户提供了两种不同的NA价值观处理方式。但是,这两种解决方案的问题在于,当存在一个NA值时,该行将被删除,并且在PCA分析中不考虑该行。我的真实数据集是100 x 100的矩阵,我不想只因为它包含一个NA值而丢失整行。 下面的示例显示该prcomp()函数不包含第5行的任何主要成分,因为它包含一个NA值。 d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] <- NA # $ result <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …

1
如果维数为为什么
在PCA中,当维数大于(甚至等于)样本数,为什么您最多具有个非零特征向量?换句话说,维中协方差矩阵的秩为Ñ Ñ - 1 d ≥ ÑdddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1。 示例:您的样本是矢量化图像,尺寸为d=640×480=307200d=640×480=307200d = 640\times480 = 307\,200,但您只有N=10N=10N=10张图片。

2
为什么通过数据SVD进行数据PCA?
这个问题是关于一种计算主成分的有效方法。 关于线性PCA的许多文章都主张对个案数据使用奇异值分解。也就是说,如果我们有数据并想用主成分替换变量(其列),则可以执行SVD:,奇异值(特征值的平方根)占据了主对角线,右特征向量是轴变量到轴分量的正交旋转矩阵,左特征向量像,仅在这种情况下。然后,我们可以将分量值计算为。X = û 小号V '小号V Ù V C ^ = X V = û 小号XX\bf XX = U S V′X=USV′\bf X=USV'小号S\bf SVV\bf VüU\bf UVV\bf VC=XV=USC=XV=US \bf C=XV=US 进行变量PCA的另一种方法是通过分解方阵(即可以是变量之间的相关或协方差等)。分解可以是特征分解或奇异值分解:对于正方形对称正半定矩阵,它们将给出特征值与和的对角线相同的结果。组件值将为。- [R [R = V 大号V '大号V C ^ = X VR=X′XR=X′X\bf R=X'XRR\bf R R=VLV′R=VLV′\bf R=VLV'LL\bf LVV\bf VC=XVC=XV\bf C=XV 现在,我的问题是:如果数据是一个大矩阵,并且案例数(通常是一个案例)比变量数大得多,那么方法(1)会比方法(2)慢得多),因为方法(1)将相当昂贵的算法(例如SVD)应用于大矩阵;它计算并存储巨大的矩阵,这在我们的情况下是我们真正不需要的(变量的PCA)。如果是这样,那么为什么这么多texbook似乎主张或仅提及方式(1)?也许这很有效,但我缺少了什么?üXX\bf XUU\bf U

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.