Questions tagged «pca»

主成分分析(PCA)是线性降维技术。它将多变量数据集简化为较小的构造变量集,以保留尽可能多的信息(尽可能多的方差)。这些变量称为主成分,是输入变量的线性组合。

5
PCA中的载荷与特征向量:何时使用一个或另一个?
在主成分分析(PCA)中,我们获得特征向量(单位向量)和特征值。现在,让我们将载荷定义为Loadings=Eigenvectors⋅Eigenvalues−−−−−−−−−−√.Loadings=Eigenvectors⋅Eigenvalues.\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}. 我知道特征向量只是方向,载荷(如上定义)也包括沿这些方向的方差。但是为了更好地理解,我想知道应该在哪里使用加载而不是特征向量?一个例子将是完美的! 我通常只看到人们使用特征向量,但是偶尔他们每次都使用加载(如上定义),然后我感到自己不太了解其中的区别。
66 pca 

8
PCA后跟旋转(例如varimax)是否仍然是PCA?
我试图重现从SPSS一些研究(使用PCA)在R.根据我的经验,principal() 功能从包psych是差一点的唯一功能(或者,如果我没记错的话,死的)来匹配输出。为了匹配与SPSS中相同的结果,我必须使用parameter principal(..., rotate = "varimax")。我见过一些论文谈论它们如何进行PCA,但是基于SPSS的输出和旋转的使用,听起来更像是因子分析。 问题:即使旋转(使用varimax),PCA还是PCA吗?我的印象是,这实际上可能是因子分析……如果不是这样,我遗漏了哪些细节?

5
k均值聚类和PCA之间有什么关系?
通常的做法是在聚类算法(例如k均值)之前应用PCA(主要成分分析)。据信,它在实践中改善了聚类结果(降噪)。 但是,我有兴趣对PCA和k-means之间的关系进行比较和深入的研究。例如,Chris Ding和Hexiaofeng He,2004年,通过主成分分析进行的K-means聚类分析表明:“主要成分是K-means聚类离散聚类成员指标的连续解”。但是,我很难理解本文,而Wikipedia实际上声称这是错误的。 同样,从PCA有助于减少“特征”数量而又保留方差的角度来看,这两种方法的结果有些不同,而聚类通过根据期望/均值汇总几个点来减少“数据点”的数量。 (对于k均值)。因此,如果数据集由每个具有特征的个点组成,则PCA旨在压缩特征,而聚类旨在压缩数据点。NNNŤ ÑTTTTTTNNN 我正在寻找关于这两种技术之间关系的外行解释,以及更多有关这两种技术的技术论文。

2
ZCA美白和PCA美白有什么区别?
我对ZCA增白和普通增白感到困惑(通过将主成分除以PCA特征值的平方根获得)。我所知道的, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},其中是PCA特征向量。UU\mathbf U ZCA美白有什么用途?普通美白和ZCA美白有什么区别?


9
高级统计书籍推荐
该站点上有多个线程可提供有关入门统计和机器学习的书籍建议,但我正在寻找有关高级统计的文章,其中包括按优先级排列的顺序:最大似然,广义线性模型,主成分分析,非线性模型。我已经尝试过AC Davison的统计模型,但是坦率地说,我不得不在2章之后将其放下。本书内容涵盖了百科全书和数学知识,但是作为一名从业者,我喜欢通过首先了解直觉来接近学科,然后再深入研究数学背景。 这些是一些我认为具有教学价值的文章。我想为我提到的更高级的科目找到同等的科目。 统计,D。Freedman,R。Pisani,R。Purves。 预测:方法与应用,R。Hyndman等。 多元回归与超越,TZ基思 Rand R. Wilcox,《应用当代统计技术》 R语言中的统计学习及其应用简介(已发布PDF版本),Gareth James,Daniela Witten,Trevor Hastie和Robert Tibshirani 统计学习的要素:数据挖掘,推理和预测。-(PDF发布版本),哈斯提,蒂布希拉尼和弗里德曼(2009)

3
使用主成分分析(PCA)进行特征选择
我是功能选择的新手,我想知道您将如何使用PCA进行功能选择。PCA是否为每个输入变量计算一个相对分数,您可以使用它来过滤掉非信息性输入变量?基本上,我希望能够按差异或所包含的信息量对数据中的原始特征进行排序。

7
具有大量功能(> 10K)的最佳PCA算法?
我之前在StackOverflow上问过这个问题,但由于它在SO上没有任何答案,因此似乎在这里更合适。这是统计和编程之间的交集。 我需要编写一些代码来进行PCA(主成分分析)。我浏览了众所周知的算法并实现了这一算法,据我所知,它等效于NIPALS算法。它可以很好地找到前2-3个主成分,但是收敛似乎很慢(大约数百到数千次迭代)。以下是我需要的详细信息: 当处理大量特征(10,000到20,000数量级)和数百个样本量的样本时,该算法必须高效。 它必须在没有像样的线性代数/矩阵库的情况下可以合理地实现,因为目标语言是D,但尚不存在,即使有,我也不想将其作为对相关项目的依赖项添加。 附带说明一下,在同一个数据集上,R看起来非常快地找到了所有主成分,但是它使用了奇异值分解,这不是我想自己编写的东西。

5
关于PCA如何从几何问题(具有距离)转变为线性代数问题(具有特征向量)的直观解释是什么?
我读过很多关于PCA,包括各种教程和问题(如这一个,这一个,这一个,而这一个)。 PCA试图优化的几何问题对我来说很清楚:PCA试图通过最小化重建(投影)误差来找到第一个主成分,这同时使投影数据的方差最大化。 当我第一次阅读该书时,我立即想到了线性回归之类的东西。也许您可以根据需要使用梯度下降法解决它。 但是,当我看到通过使用线性代数并找到特征向量和特征值来解决优化问题时,我的想法震惊了。我根本不了解线性代数的这种用法如何发挥作用。 所以我的问题是:PCA如何从几何优化问题变成线性代数问题?有人可以提供直观的解释吗? 我不是在寻找像一个回答这一个,说:“当你解决PCA的数学问题,它最终被等同于找到协方差矩阵的特征值和特征向量。” 请解释为什么特征向量出来是主要成分,为什么特征值出来是投影到它们上的数据的方差 顺便说一句,我是软件工程师,而不是数学家。 注意:上图是从本PCA教程中获取并修改的。

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
PCA的目标功能是什么?
主成分分析可以使用矩阵分解,但这只是达到此目的的工具。 在不使用矩阵代数的情况下如何找到主成分? 目标函数(目标)是什么,约束是什么?
42 pca 

1
如何使用自举法或蒙特卡洛方法确定重要的主要成分?
我对确定从主成分分析(PCA)或经验正交函数(EOF)分析得出的有效模式的数量感兴趣。我对将这种方法应用于气候数据特别感兴趣。数据字段是一个MxN矩阵,其中M是时间维度(例如天),N是空间维度(例如lon / lat位置)。我已经读过一种可能的引导方法来确定重要的PC,但是无法找到更详细的描述。到目前为止,我一直在使用North的经验法则(North 等人,1982)来确定该临界值,但是我想知道是否有更健壮的方法可用。 举个例子: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal …
40 r  pca  bootstrap  monte-carlo 

3
在某些情况下,PCA比t-SNE更合适吗?
我想看看7种文本纠正行为的度量标准(纠正文本所花费的时间,击键次数等)如何相互关联。措施是相关的。我运行PCA来查看这些度量如何投影到PC1和PC2上,避免了在度量之间运行单独的双向相关性测试的重叠。 我被问到为什么不使用t-SNE,因为某些度量之间的关系可能是非线性的。 我可以看到允许非线性如何改善这一点,但是我想知道是否有充分的理由在这种情况下使用PCA而不是t-SNE?我不希望根据文本与度量的关系来聚类文本,而是对度量本身之间的关系感兴趣。 (我想EFA也可以是一种更好/另一种方法,但这是不同的讨论。)与其他方法相比,此处关于t-SNE的文章很少,因此这个问题似乎值得提出。
39 pca  tsne 

3
PCA是否适用于布尔(二进制)数据类型?
我想降低高阶系统的维数,并捕获最好在2维或1维场上的大多数协方差。我了解这可以通过主成分分析来完成,并且我在许多情况下都使用了PCA。但是,我从未将其与布尔数据类型一起使用,并且我想知道使用此集合进行PCA是否有意义。因此,例如,假设我有定性或描述性指标,并且如果该指标对该维度有效,那么我将分配“ 1”,否则将分配“ 0”(二进制数据)。因此,例如,假设您要比较《白雪公主》中的七个小矮人。我们有: Doc,Dopey,Bashful,Grumpy,Sneezy,Sleepy和Happy,您想根据自己的特质来安排它们,方法如下: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜d Ø Çd ø p ë ÿ乙一个小号ħ ˚Fü 升ģ ř ü 米p ÿ小号ñ Ë É žÿ小号升Ë È p ÿH一个p p ÿ大号一个ç 吨ö 小号Ë 我 Ñ 吨ø 升é ř 一个Ñ 吨1个01个1个01个1个一^ h ø Ñ ø - [R [R ö 升升 0001个1个01个甲吨ħ 升é 吨我Ç1个01个1个1个00w ^Ë 一升吨ħ ÿ1个01个1个000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.