Questions tagged «pca»

主成分分析(PCA)是线性降维技术。它将多变量数据集简化为较小的构造变量集,以保留尽可能多的信息(尽可能多的方差)。这些变量称为主成分,是输入变量的线性组合。

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

1
常规PCA和概率PCA有什么区别?
我知道常规的PCA不遵循概率模型来观察数据。那么PCA和PPCA之间的基本区别是什么?在PPCA中,潜变量模型包含例如观测变量,潜变量(未观察变量x)和矩阵W,矩阵W不必像常规PCA那样是正交的。我可以想到的另一个区别是,常规PCA仅提供主要组件,而PPCA提供了数据的概率分布。yyyxxxWWW 有人可以进一步谈谈PCA和PPCA之间的区别吗?
15 pca 

2
根据PCA / FA中保留的几个主要成分或因素创建一个索引
我正在使用主成分分析(PCA)创建研究所需的索引。我的问题是我应该如何使用通过PCA计算出的保留主成分来创建单个索引。 例如,在使用PCA之后,我决定保留3个主要成分,并计算了这3个主要成分的得分。为每位受访者从这三个分数中创建一个索引的合适方法是什么? 将3个计算所得的分数相加得到一个复合值是否有意义? 还是将这3个分数取平均值才能获得这样的价值? 还是只保留第一个主成分(最强)并将其分数用作索引? 或者,可以使用因子分析(FA),但仍然存在相同的问题:如何基于多个因子得分创建单个索引?

1
设置中的回归:如何选择正则化方法(套索,PLS,PCR,山脊)?
我想查看是否去岭回归,LASSO,主成分回归(PCR),或偏最小二乘(PLS)中的情况下有大量的变量/特征()和样品的较小数量(Ñ < p),而我的目标是预测。pppn < pn<pn np > 10 np>10np>10n 变量(和Y)以不同程度相互关联。XXXÿYY 我的问题是哪种策略最适合这种情况?为什么?



1
PCA是否需要任何数量的方差以进行以后的分析?
我有一个包含11个变量的数据集,并进行了PCA(正交)处理以减少数据量。根据我对主题和碎石图的了解,确定要保留的组成部分数量对我来说很明显,两个主要组成部分(PC)足以解释数据,而其余组成部分仅提供较少的信息。 具有并行分析的Scree图:观察到的特征值(绿色)和基于100次仿真的模拟特征值(红色)。Scree图建议使用3台PC,而并行测试仅建议使用前两台PC。 如您所见,前两台PC只能捕获到48%的方差。 由前两台PC在第一平面上绘制的观测结果显示,使用分层聚类聚类(HAC)和K均值聚类,得到了三个不同的聚类。事实证明这3个类别与所讨论的问题非常相关,并且也与其他发现一致。因此,除了仅捕获了48%的方差这一事实以外,其他一切都很好。 我的两位审稿人中的一位说:一位不能太依赖于这些发现,因为只能解释48%的方差,而且这个方差小于要求。 问 是否有任何需要多大的变化应该由PCA捕捉到有效的价值?它不依赖于所使用的领域知识和方法吗?有人可以仅根据所解释的方差的值来判断整个分析的优点吗? 笔记 数据是通过一种称为实时定量聚合酶链反应(RT-qPCR)的分子生物学中非常敏感的方法测量的11个基因变量。 使用R进行分析。 数据分析人员基于他们在微阵列分析,化学计量学,光谱分析等领域中解决现实生活问题的个人经验,给出了很多答案。 请考虑为您的回答提供尽可能多的参考。
15 variance  pca 

4
哪些变量解释了哪些PCA组件,反之亦然?
使用此数据: head(USArrests) nrow(USArrests) 我可以这样进行PCA: plot(USArrests) otherPCA <- princomp(USArrests) 我可以在中获得新组件 otherPCA$scores 和方差的比例由组件解释 summary(otherPCA) 但是,如果我想知道哪些变量主要由哪些主要成分来解释?反之亦然:例如PC1或PC2是否主要由解释murder?我怎样才能做到这一点? 例如,我可以说PC1是由murder或解释的80%assault吗? 我认为载荷在这里对我有帮助,但它们显示的是方向性,而不是我理解的方差,例如 otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974


1
“因子分析的基本定理”如何应用于PCA,或如何定义PCA载荷?
我目前正在查看用于“因子分析”(据我所知的PCA)的幻灯片集。 其中,得出了“因子分析的基本定理”,它声称可以使用因子加载矩阵()恢复进入分析的数据的相关矩阵():RR\bf RAA\bf A R=AA⊤R=AA⊤\bf R = AA^\top 但是,这使我感到困惑。在PCA中,“因子负载”矩阵由数据协方差/相关矩阵的特征向量矩阵给出(因为我们假设数据已经标准化,所以它们是相同的),每个特征向量都按比例缩放为具有长度一。此矩阵是正交的,从而这是在一般不等于。AA⊤=IAA⊤=I\bf AA^\top = IRR\bf R

2
为什么通过Bartlett检验诊断的球形度表示PCA不适当?
我了解Bartlett检验与确定您的样本是否来自方差相等的总体有关。 如果样本来自方差相等的总体,则我们无法拒绝检验的原假设,因此,主成分分析是不合适的。 我不确定这种情况(具有同方差数据集)的问题在哪里。拥有所有数据的基础分布都相同的数据集会出现什么问题?如果存在这种情况,我只是没什么大不了的。为什么这会使PCA不合适? 我似乎无法在网上找到任何好的信息。有人解释这一测试为何与PCA有关的经验吗?


1
PCA双线图中的箭头是什么意思?
考虑以下PCA双线图: library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) 有一堆红色箭头,它们是什么意思?我知道标有“ Var1”的第一个箭头应指向数据集变化最大的方向(如果我们认为它们是2000个数据点,则每个都是大小为6的向量)。我还从某处读取,变化最大的方向应该是第一特征向量的方向。 但是,请阅读R中的biplot代码。有关箭头的线是: if(var.axes) arrows(0, 0, y[,1L] * 0.8, y[,2L] * 0.8, col = col[2L], y实际在哪里是荷载矩阵,它是特征向量矩阵。所以它看起来像第一个箭头实际上是从指向(0, 0)到(y[1, 1], y[1, 2])。我了解我们正在尝试在2D平面上绘制高维箭头。这就是为什么我们要使用y[1, ]向量的第一和第二元素。但是我不明白的是: 第一特征向量方向y[, 1]不是由表示的向量y[1, ]吗?(同样,这y是通过PCA或通过的特征分解获得的特征向量矩阵t(x) %*% x),即特征向量应该是列向量,而不是那些水平向量。 即使我们将它们绘制在2D平面上,我们也应该绘制第一个方向从(0, 0)指向(y[1, 1], y[2, 1])?
14 r  pca  linear-algebra  biplot 

3
我如何解释我从PCA中获得的收益?
作为大学任务的一部分,我必须对相当庞大的多元(> 10)原始数据集进行数据预处理。我不是一个统计学家,所以我对发生的事情有些困惑。提前道歉可能是一个可笑的简单问题-在查看了各种答案并试图通过统计数据发言后,我的头开始旋转。 我读过: PCA使我可以减少数据的维数 它是通过合并/删除大量相关的属性/维度来实现的(因此是不必要的) 它是通过在协方差数据上找到特征向量来实现的(这要归功于我学习了一个很好的教程) 太好了 但是,我真的很想知道如何将其实际应用到我的数据中。例如(如果我要使用类似...的数据集,这不是我将要使用的数据集,而是尝试一个不错的示例,人们可以使用)。 PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score 1 1 2 5 7 60 75 2 1 3 8 2 70 85 3 2 2 6 6 50 77 ... ... ... ... ... ... ... …
14 pca 

2
我可以使用CLR(中心对数比转换)为PCA准备数据吗?
我正在使用脚本。它用于核心记录。我有一个数据框,该数据框显示了给定深度(第一列)中各列的不同元素组成。我想用它来执行PCA,我对必须选择的标准化方法感到困惑。 你们中有没有人使用clr()来准备的数据prcomp()?还是将我的解决方案掺假了?除了在中使用属性scale之外,我还尝试clr()在使用prcomp()函数之前对数据使用on prcomp()。 data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html 描述scale是为了缩放数据,因此它们具有单位差异。我想我的数据规模与我想要的完全不同。问题是,当我使用上面的代码或跳过时clr()(这会产生更想要的结果),我收到了不同的解决方案。但是我想知道为什么clr()在这种情况下令人不安?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.