Questions tagged «pca»

主成分分析(PCA)是线性降维技术。它将多变量数据集简化为较小的构造变量集,以保留尽可能多的信息(尽可能多的方差)。这些变量称为主成分,是输入变量的线性组合。

2
主成分分析中双峰的解释
我遇到了一个很好的教程:《使用R进行统计分析的手册》。第13章。主成分分析:奥林匹克七项全能,其中涉及如何用R语言进行PCA。我不理解图13.3的解释: 因此,我正在绘制第一个特征向量与第二个特征向量。这意味着什么?假设对应于第一特征向量的特征值解释了数据集中60%的变化,第二特征值-特征向量解释了20%的变化。将它们相互绘制意味着什么?

1
居中如何使PCA有所不同(对于SVD和本征分解)?
将数据居中(或取消定义)对PCA有什么区别?我听说它可以简化数学运算,也可以防止第一台PC被变量的均值控制,但是我觉得我还不能完全掌握这个概念。 例如,此处的最佳答案是如何使数据居中摆脱回归和PCA中的截距?描述了不居中如何将第一个PCA拉过原点,而不是点云的主轴。基于我对如何从协方差矩阵的特征向量中获得PC的理解,我不明白为什么会发生这种情况。 而且,我自己进行的有无居中的计算似乎毫无意义。 考虑irisR 中的数据集中的setosa花。我按如下方式计算了样本协方差矩阵的特征向量和特征值。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 如果我首先对数据集进行居中,则会得到完全相同的结果。这似乎很明显,因为居中根本不会改变协方差矩阵。 df.centered <- scale(df,scale=F,center=T) e.centered<- …
30 r  pca  svd  eigenvalues  centering 

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
因子分析中的最佳因子提取方法
SPSS提供了几种因子提取方法: 主成分(根本不是因子分析) 未加权最小二乘 广义最小二乘法 最大似然 主轴 阿尔法分解 图像分解 忽略第一种方法,不是因素分析(而是主成分分析,PCA),哪种方法是“最佳方法”?不同方法的相对优势是什么?基本上,我将如何选择使用哪一个? 另一个问题:是否应该从这6种方法中获得相似的结果?


3
如何通过PCA执行正交回归(最小二乘法)?
我总是用lm()R 在上执行线性回归。该函数返回系数,使得y = \ beta x。yyyxxxββ\betay=βx.y=βx.y = \beta x. 今天,我了解了总最小二乘法,并且princomp()可以使用该函数(主成分分析,PCA)来执行它。对我来说应该是有益的(更准确)。我使用进行了一些测试princomp(),例如: r <- princomp( ~ x + y) 我的问题是:如何解释其结果?如何获得回归系数?“系数”是指我必须用来乘以x值以得到接近y的数字\ beta。ββ\betaxxxyyy

4
为什么吴安德为什么更喜欢使用SVD而不是协方差矩阵的EIG来进行PCA?
我正在从Andrew Ng的Coursera课程和其他材料中学习PCA。在斯坦福大学自然语言处理课程中,cs224n的第一次作业,以及安德鲁·伍的演讲视频(,他们进行奇异值分解而不是协方差矩阵的特征向量分解,而且吴还说SVD在数值上比特征分解更稳定。 根据我的理解,对于PCA,我们应该对(m,n)大小的数据矩阵进行SVD ,而不是对大小的协方差矩阵进行SVD (n,n)。以及协方差矩阵的特征向量分解。 为什么他们使用协方差矩阵而不是数据矩阵的SVD?

1
是否有针对序数或二进制数据的因子分析或PCA?
我已经完成了主成分分析(PCA),探索性因素分析(EFA)和确认性因素分析(CFA),并用李克特量表(5级答复:无,有,有..)将数据视为连续数据。变量。然后,使用Lavaan,我重复了CFA,将变量定义为分类变量。 我想知道当数据本质上是序数时,什么类型的分析适用于PCA和EFA?而当二进制。 我也将对可以轻松实现此类分析的特定软件包或软件提出建议。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
使用R进行尺寸缩减的t-SNE vs PCA有什么问题?
我有一个336x256浮点数的矩阵(336个细菌基因组(列)x 256个标准化四核苷酸频率(行),例如,每列总计1)。 使用主成分分析运行分析时,我得到很好的结果。首先,我根据数据计算kmeans聚类,然后运行PCA并基于2D和3D中的初始kmeans聚类为数据点着色: library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with 5 centers and iterations =10000 km <- kmeans(mydata,5,10000) # run principle component analysis pc<-prcomp(mydata) # plot dots plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16) # plot …
27 r  pca  tsne 

5
什么会导致PCA恶化分类器的结果?
我有一个要进行交叉验证的分类器,还有一百个要进行正向选择以查找特征的最佳组合的特征。我还将这与PCA进行的相同实验进行了比较,在该实验中,我采用了潜在特征,应用了SVD,将原始信号转换到新的坐标空间,并在前向选择过程中使用了前特征。ķķk 我的直觉是PCA会改善结果,因为信号比原始功能更具“信息性”。我对PCA的幼稚理解是否会使我陷入麻烦?有人能提出PCA在某些情况下可以改善结果,而在另一些情况下却会恶化结果的一些常见原因吗?

4
当主要目标是仅估计少量成分时,PCA或FA的最小样本量?
如果我有一个包含观察值和p个变量(维度)的数据集,并且通常n很小(n = 12 − 16),并且p的范围可能从很小(p = 4 − 10)到更大(p = 30 − 50)。nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 我记得曾听说过应该大于p才能进行主成分分析(PCA)或因子分析(FA),但似乎在我的数据中可能并非如此。请注意,出于我的目的,我对PC2之后的任何主要组件都不感兴趣。nnnppp 问题: 当可以使用PCA时,最小样本量的经验法则是什么? 即使或n &lt; p,也可以使用前几台PC 吗?n=pn=pn=pn&lt;pn&lt;pn<p 有什么参考吗? 您的主要目标是使用PC1还是可能使用PC2,这有关系吗: 简单地以图形方式,或 作为综合变量,然后用于回归分析?



7
测试矩阵列之间的线性相关性
我有一个行列式为零的安全收益相关矩阵。(这有点令人惊讶,因为样本相关矩阵和相应的协方差矩阵在理论上应该是正定的。) 我的假设是,至少一种证券线性依赖于其他证券。R中是否有一个函数可以按顺序测试每个列的线性相关性? 例如,一种方法是一次建立一个安全性的相关矩阵,并在每个步骤计算行列式。当行列式= 0时,请停止运行,因为您已确定证券是其他证券的线性组合。 识别在这样的矩阵中的线性相关性的任何其他技术是可以理解的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.