Questions tagged «pca»

主成分分析(PCA)是线性降维技术。它将多变量数据集简化为较小的构造变量集,以保留尽可能多的信息(尽可能多的方差)。这些变量称为主成分,是输入变量的线性组合。


1
什么是计算奇异值分解(SVD)的有效算法?
维基百科有关主成分分析的文章指出: 存在有效的算法来计算的SVD,而不必形成矩阵X T X,因此,计算SVD现在是从数据矩阵计算主成分分析的标准方法,除非只需要少量的成分。XXXXŤXXŤXX^TX 有人可以告诉我本文讨论的有效算法是什么?没有提供参考(建议使用这种计算方式的文章的URL或引用会很好)。
17 pca  algorithms  svd  numerics 

1
健壮的方法真的更好吗?
我有两组主题,A和B,每组的大小大约为400,预测变量大约为300。我的目标是为二进制响应变量建立预测模型。我的客户希望看到从A到B应用从A构建的模型的结果。(在他的书《回归建模策略》中,@ FrankHarrell提​​到最好将两个数据集结合起来并以此为基础构建模型,因为这样做会增加强大和精确---参见第90页,外部验证,考虑到收集我拥有的数据类型非常昂贵且耗时,我倾向于同意他的看法,但是我无法选择客户想要的东西。)我的许多预测变量都是高度相关的,而且也很偏斜。我正在使用逻辑回归来建立预测模型。 我的预测指标主要来自力学。例如,总时间的主题是一个应力比阈值高的下为时间段[ 吨1,吨2 ]中,出于各种值α &gt; 0和。显然,仅从它们的定义来看,这些总时间中有许多是代数相关的。许多与代数无关的预测变量由于其性质而相互关联:在时间段中处于高压力下的对象在时间段[ t 3,t 4趋于高压力下αα\alpha[ Ť1个,Ť2][Ť1个,Ť2][t_1, t_2]α &gt; 0α&gt;0\alpha > 0 [ 吨1,吨2 ]0 ≤ 吨1个&lt; 吨20≤Ť1个&lt;Ť20 \leq t_1 < t_2[ Ť1个,Ť2][Ť1个,Ť2][t_1, t_2],即使 [ 吨1,吨2 ] ∩ [ 吨3,吨4 ] = ∅。为了减少数据量,我将相关的预测变量聚在一起(例如,所有总应力时间都聚在一起),并使用主成分分析来表示每个聚类。由于变量存在偏差,因此我尝试了两种替代方法:[ Ť3,Ť4][Ť3,Ť4][t_3,t_4][ Ť1个,Ť2] ∩ [ t3,Ť4] = ∅[Ť1个,Ť2]∩[Ť3,Ť4]=∅[t_1,t_2] \cap [t_3,t_4] = \emptyset 在进行PCA之前,我使用了对数转换来减少变量的偏斜。 我使用了Mia …

4
SVD / PCA的“规范化”变量
假设我们有NNN可测量的变量(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N),我们进行了M&gt;NM&gt;NM > N个测量,然后希望对结果进行奇异值分解,以找到最大方差轴。N维空间中的MMM个点。(注意:假设的装置一个我已经减去,所以⟨ 一个我 ⟩ = 0对于所有我)。NNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii 现在假设一个(或多个)变量的特征量级与其余变量具有显着不同的特征量级。例如a1a1a_1可具有值的范围在10−10010−10010-100其余的可能约为0.1−10.1−10.1-1。这将扭曲向最高方差的轴a1a1a_1的轴非常多。 大小上的差异可能仅仅是由于不幸地选择了度量单位(如果我们谈论的是物理数据,例如公里与米),但是实际上不同的变量可能具有完全不同的尺寸(例如重量与体积),因此可能没有任何明显的方法为它们选择“可比较”的单位。 问题: 我想知道是否存在任何标准/通用方法来规范化数据以避免这种问题。我更感兴趣的是产生了相当的幅度标准技术a1−aNa1−aNa_1 - a_N为了这个目的,而不是想出一些新的东西。 编辑: 一种可能性是通过其标准偏差或类似的东西标准化每个变量。但是,随后出现以下问题:让我们将数据解释为NNN维空间中的点云。该点云可以旋转,并且这种类型的归一化将根据旋转给出不同的最终结果(在SVD之后)。(例如,在最极端的情况下,想象精确地旋转数据以使主轴与主轴对齐。) 我希望不会有任何旋转不变的方法,但是如果有人能指出我对文献中有关此问题的某些讨论,特别是关于结果解释中的注意事项,我将不胜感激。

3
主成分分析“向后”:给定的变量线性组合可解释多少数据差异?
我对六个变量AAA,BBB,CCC,DDD,EEE和进行了主成分分析FFF。如果我理解正确,未旋转的PC1会告诉我这些变量的线性组合描述/解释了数据中的最大方差,而PC2告诉我这些变量的线性组合描述了数据中的第二大方差,依此类推。 我只是很好奇-有什么办法可以做到这一点吗?假设我选择了这些变量的线性组合-例如A+2B+5CA+2B+5CA+2B+5C,我能算出所描述数据的方差是多少?

1
稳健的PCA与稳健的Mahalanobis距离,可用于异常值检测
健壮的PCA(由Candes等人2009或Netrepalli等人2014年开发)是一种流行的多变量离群值检测方法,但考虑到协方差矩阵的鲁棒,规则化估计,马氏距离也可以用于离群值检测。我很好奇使用一种方法相对于另一种方法的(缺点)优势。 我的直觉告诉我,两者之间的最大区别是:当数据集为“小”(从统计意义上来说)时,稳健的PCA将给出较低等级的协方差,而稳健的协方差矩阵估计将给出完整的-由于Ledoit-Wolf正则化导致的秩协方差。这又如何影响离群值检测?

1
变量与PCA分量(在双图/加载图上)的正确关联度量是什么?
我FactoMineR用来将我的测量数据集减少到潜在变量。 变量地图上面很清楚我解释,但是当它涉及到的变量和组件1.纵观可变地图之间的关联我很困惑,ddp并且cov非常接近在地图的组件,ddpAbs是一个远一点远。但是,这不是相关性显示的内容: $Dim.1 $Dim.1$quanti correlation p.value jittAbs 0.9388158 1.166116e-11 rpvi 0.9388158 1.166116e-11 sd 0.9359214 1.912641e-11 ddpAbs 0.9327135 3.224252e-11 rapAbs 0.9327135 3.224252e-11 ppq5 0.9319101 3.660014e-11 ppq5Abs 0.9247266 1.066303e-10 cov 0.9150209 3.865897e-10 npvi 0.8853941 9.005243e-09 ddp 0.8554260 1.002460e-07 rap 0.8554260 1.002460e-07 jitt 0.8181207 1.042053e-06 cov5_x 0.6596751 4.533596e-04 ps13_20 -0.4593369 2.394361e-02 ps5_12 -0.5237125 …

2
为什么在执行主成分分析之前先对数据进行日志转换?
我在这里遵循教程:http : //www.r-bloggers.com/computing-and-visualizing-pca-in-r/以更好地了解PCA。 本教程使用Iris数据集,并在PCA之前应用对数转换: 注意,在下面的代码中,我们按照[1]的建议对连续变量应用了对数转换,center并在调用中设置和scale等于,以在应用PCA之前标准化变量。TRUEprcomp 有人可以用简单的英文给我解释为什么您首先在Iris数据集的前四列上使用log函数。我知道它与使数据相对有关,但对日志,中心和刻度的确切功能感到困惑。 上面的参考文献[1]涉及Venables和Ripley,S-PLUS的Modern Applied Statistics,第11.1节,其中简要说明: 数据是物理测量,因此合理的初始策略是按对数比例工作。贯穿整个过程。

1
多元高斯数据的PCA分量在统计上是否独立吗?
如果我们的数据是多元正态分布的,PCA成分(在主成分分析中)是否在统计上独立?如果是这样,如何证明/证明这一点? 我之所以问是因为我看到了这篇文章,其中最高答案指出: PCA没有做出明确的高斯假设。它找到使数据中解释的方差最大化的特征向量。主成分的正交性意味着它找到了最不相关的成分来解释尽可能多的数据变化。对于多元高斯分布,组件之间的零相关性意味着独立性,这对于大多数分布而言并非如此。 给出的答案没有证据,并且似乎暗示如果数据是多元正态的,则PCA会产生独立的分量。 具体来说,假设我们的数据来自以下示例: x∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma}) 我们将个样本放入样本矩阵,因此为。计算的SVD (居中后)得出nnnxx\mathbf{x}XX\mathbf{X}XX\mathbf{X}n×mn×mn \times mXX\mathbf{X} X=USVTX=USVT\mathbf{X} = \mathbf{USV}^{T} 我们可以说的列在统计上是独立的,还是的行在统计上是独立的吗?通常,仅对,还是根本不正确?UU\mathbf{U}VTVT\mathbf{V}^Tx∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})
16 pca  independence  svd 

2
在地图上显示时空相关性
我有整个美国气象站网络的数据。这给了我一个包含日期,纬度,经度和一些测量值的数据框。假设每天收集一次数据,并且受区域范围天气的驱动(不,我们将不进行讨论)。 我想以图形方式显示跨时间和空间的同时测量值如何关联。我的目标是显示正在调查的值的区域同质性(或缺乏同质性)。 资料集 首先,我带了一组在马萨诸塞州和缅因州的车站。我从NOAA的FTP站点上可用的索引文件中按纬度和经度选择了站点。 马上您就会看到一个问题:许多站点具有相似的标识符或非常接近。FWIW,我同时使用USAF和WBAN代码识别它们。深入了解元数据,我发现它们具有不同的坐标和高程,数据从一个站点停止,然后从另一个站点开始。因此,因为我不知道更好,所以必须将它们视为独立的站。这意味着数据包含彼此非常接近的站点对。 初步分析 我尝试按日历月对数据进行分组,然后计算不同对数据之间的普通最小二乘回归。然后,我将所有线对之间的相关性绘制为一条连接测站的线(下图)。线条颜色显示了来自OLS拟合的R2值。然后,该图显示了感兴趣区域中不同站点之间从一月,二月等开始的30多个数据点如何关联。 我已经编写了基础代码,以便仅在每6小时内有数据点时才计算每日平均值,因此数据在各个站点之间应该是可比较的。 问题 不幸的是,在一个绘图上根本没有太多数据可以理解。无法通过减小行的大小来解决。 ķķk 网络似乎太复杂了,所以我认为我需要找到一种降低复杂性或应用某种空间内核的方法。 我也不确定什么是最合适的指标来显示相关性,但是对于目标受众(非技术人员),OLS的相关系数可能只是最简单的解释。我可能还需要提供其他一些信息,例如梯度或标准误差。 问题 我正在学习同时进入该领域和R的方法,并希望就以下方面提出建议: 我要做什么的更正式的名字是什么?有一些有用的术语可以让我找到更多的文献吗?我的搜索正在为必不可少的应用程序绘制空白。 有没有更合适的方法来显示空间上分隔的多个数据集之间的相关性? ...尤其是易于从视觉上显示结果的方法? 这些是否在R中实现? 这些方法是否适合自动化?

2
我们何时将降维与聚类结合在一起?
我正在尝试执行文档级群集。我构建了术语文档频率矩阵,并尝试使用k均值对这些高维向量进行聚类。我所做的不是直接聚类,而是首先应用LSA(潜在语义分析)奇异矢量分解来获得U,S,Vt矩阵,然后使用scree图选择合适的阈值,然后对归约矩阵进行聚类(特别是Vt,因为它给了我一个概念文件信息),似乎给了我很好的结果。 我听说有人说SVD(奇异矢量分解)正在聚类(通过使用余弦相似性度量等),并且不确定是否可以在SVD的输出上应用k-均值。我认为这在逻辑上是正确的,因为SVD是降维技术,为我提供了许多新矢量。另一方面,k均值将采用簇数作为输入,并将这些向量划分为指定的簇数。这个程序有缺陷吗,或者有什么方法可以改进?有什么建议么?

2
评估问卷的可靠性:维度,有问题的项目以及是否使用alpha,lambda6或其他某种指数?
我正在分析参加实验的参与者给出的分数。我想估计问卷的可靠性,该问卷由6个项目组成,旨在估计参与者对产品的态度。 我计算了克朗巴赫(Cronbach)的alpha值,将所有项目视为一个比例(alpha约为0.6),并一次删除了一项(最大alpha约为0.72)。我知道,根据项目的数量和底层构造的维数,alpha可能会被低估和高估。因此,我还执行了PCA。该分析表明,有三个主要成分解释了大约80%的方差。所以,我所有的问题都是关于我现在该如何进行? 我是否需要在每个维度上执行alpha计算? 我是否已移除影响可靠性的物品? 此外,在网上搜索时,我发现还有另一种可靠性度量:guttman的lambda6。 此度量与alpha的主要区别是什么? lambda的高价值是什么?

3
解释PCA分数
有人可以帮助我解释PCA分数吗?我的数据来自关于熊的态度的问卷。根据负载,我将主要成分之一解释为“恐惧熊”。该主要成分的分数是否与每个受访者对该主要成分的衡量方式(他/她在该分数上是正面/负面得分)相关?
16 pca 

1
偏最小二乘,减少秩回归和主成分回归之间有什么联系?
缩减秩回归和主成分回归只是偏最小二乘的特殊情况吗? 本教程(第6页,“目标比较”)指出,当我们在不投影X或Y的情况下进行偏最小二乘时(即“不偏”),相应地,它变成了降低秩回归或主成分回归。 在此SAS文档页面的 “降低的等级回归”和“方法之间的关系”部分中做出了类似的说明。 一个更基本的跟进问题是他们是否具有相似的潜在概率模型。

2
R中插入符号包中的PCA和k倍交叉验证
我刚刚重新观看了Coursera上机器学习课程的演讲。在教授讨论PCA以便在有监督的学习应用程序中对数据进行预处理的部分中,他说PCA仅应在训练数据上执行,然后使用映射来转换交叉验证和测试集。另请参阅PCA和火车/测试区。 但是,在caretR包中,传递给train()函数的训练数据已经由PCA处理。因此,当算法执行k倍交叉验证时,交叉验证集已经通过PCA preProcess()和进行了处理,predict()并且实际上已用于PCA“拟合”中。 我对情况的理解正确吗?是否表示插入符号与PCA(或实际上使用任何缩放/定中心方法)进行交叉验证的过程是“错误的”,因为数据的预处理是在交叉验证集和训练集上进行的?如果是这样,这将对结果产生多大的影响?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.