统计和大数据 pca

2

我遇到了一个很好的教程：《使用R进行统计分析的手册》。第13章。主成分分析：奥林匹克七项全能，其中涉及如何用R语言进行PCA。我不理解图13.3的解释：因此，我正在绘制第一个特征向量与第二个特征向量。这意味着什么？假设对应于第一特征向量的特征值解释了数据集中60％的变化，第二特征值-特征向量解释了20％的变化。将它们相互绘制意味着什么？

30 r pca data-visualization interpretation biplot

1

居中如何使PCA有所不同（对于SVD和本征分解）？

将数据居中（或取消定义）对PCA有什么区别？我听说它可以简化数学运算，也可以防止第一台PC被变量的均值控制，但是我觉得我还不能完全掌握这个概念。例如，此处的最佳答案是如何使数据居中摆脱回归和PCA中的截距？描述了不居中如何将第一个PCA拉过原点，而不是点云的主轴。基于我对如何从协方差矩阵的特征向量中获得PC的理解，我不明白为什么会发生这种情况。而且，我自己进行的有无居中的计算似乎毫无意义。考虑irisR 中的数据集中的setosa花。我按如下方式计算了样本协方差矩阵的特征向量和特征值。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 如果我首先对数据集进行居中，则会得到完全相同的结果。这似乎很明显，因为居中根本不会改变协方差矩阵。 df.centered <- scale(df,scale=F,center=T) e.centered<- …

30 r pca svd eigenvalues centering

5

如何在机器学习中处理分层/嵌套数据

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

因子分析中的最佳因子提取方法

SPSS提供了几种因子提取方法：主成分（根本不是因子分析）未加权最小二乘广义最小二乘法最大似然主轴阿尔法分解图像分解忽略第一种方法，不是因素分析（而是主成分分析，PCA），哪种方法是“最佳方法”？不同方法的相对优势是什么？基本上，我将如何选择使用哪一个？另一个问题：是否应该从这6种方法中获得相似的结果？

29 spss pca factor-analysis

1

对二进制数据进行主成分分析或因子分析

我有一个包含大量“是/否”响应的数据集。可予使用这种类型的数据的主成分（PCA）或任何其他数据缩减分析（如因子分析）？请告知我如何使用SPSS进行此操作。

29 spss categorical-data pca factor-analysis binary-data

3

如何通过PCA执行正交回归（最小二乘法）？

我总是用lm()R 在上执行线性回归。该函数返回系数，使得y = \ beta x。yyyxxxββ\betay=βx.y=βx.y = \beta x. 今天，我了解了总最小二乘法，并且princomp()可以使用该函数（主成分分析，PCA）来执行它。对我来说应该是有益的（更准确）。我使用进行了一些测试princomp()，例如： r <- princomp( ~ x + y) 我的问题是：如何解释其结果？如何获得回归系数？“系数”是指我必须用来乘以x值以得到接近y的数字\ beta。ββ\betaxxxyyy

29 r pca least-squares deming-regression total-least-squares

4

为什么吴安德为什么更喜欢使用SVD而不是协方差矩阵的EIG来进行PCA？

我正在从Andrew Ng的Coursera课程和其他材料中学习PCA。在斯坦福大学自然语言处理课程中，cs224n的第一次作业，以及安德鲁·伍的演讲视频（，他们进行奇异值分解而不是协方差矩阵的特征向量分解，而且吴还说SVD在数值上比特征分解更稳定。根据我的理解，对于PCA，我们应该对(m,n)大小的数据矩阵进行SVD ，而不是对大小的协方差矩阵进行SVD (n,n)。以及协方差矩阵的特征向量分解。为什么他们使用协方差矩阵而不是数据矩阵的SVD？

29 pca linear-algebra svd eigenvalues numerics

1

是否有针对序数或二进制数据的因子分析或PCA？

我已经完成了主成分分析（PCA），探索性因素分析（EFA）和确认性因素分析（CFA），并用李克特量表（5级答复：无，有，有..）将数据视为连续数据。变量。然后，使用Lavaan，我重复了CFA，将变量定义为分类变量。我想知道当数据本质上是序数时，什么类型的分析适用于PCA和EFA？而当二进制。我也将对可以轻松实现此类分析的特定软件包或软件提出建议。

28 pca factor-analysis ordinal-data binary-data likert

1

自由度可以是非整数吗？

当我使用GAM时，它给了我剩余的DF为（代码的最后一行）。这意味着什么？超越GAM示例，通常，自由度可以是非整数吗？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

使用R进行尺寸缩减的t-SNE vs PCA有什么问题？

我有一个336x256浮点数的矩阵（336个细菌基因组（列）x 256个标准化四核苷酸频率（行），例如，每列总计1）。使用主成分分析运行分析时，我得到很好的结果。首先，我根据数据计算kmeans聚类，然后运行PCA并基于2D和3D中的初始kmeans聚类为数据点着色： library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with 5 centers and iterations =10000 km <- kmeans(mydata,5,10000) # run principle component analysis pc<-prcomp(mydata) # plot dots plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16) # plot …

27 r pca tsne

5

什么会导致PCA恶化分类器的结果？

我有一个要进行交叉验证的分类器，还有一百个要进行正向选择以查找特征的最佳组合的特征。我还将这与PCA进行的相同实验进行了比较，在该实验中，我采用了潜在特征，应用了SVD，将原始信号转换到新的坐标空间，并在前向选择过程中使用了前特征。ķķk 我的直觉是PCA会改善结果，因为信号比原始功能更具“信息性”。我对PCA的幼稚理解是否会使我陷入麻烦？有人能提出PCA在某些情况下可以改善结果，而在另一些情况下却会恶化结果的一些常见原因吗？

27 classification pca feature-selection

4

当主要目标是仅估计少量成分时，PCA或FA的最小样本量？

如果我有一个包含观察值和p个变量（维度）的数据集，并且通常n很小（n = 12 − 16），并且p的范围可能从很小（p = 4 − 10）到更大（p = 30 − 50）。nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 我记得曾听说过应该大于p才能进行主成分分析（PCA）或因子分析（FA），但似乎在我的数据中可能并非如此。请注意，出于我的目的，我对PC2之后的任何主要组件都不感兴趣。nnnppp 问题：当可以使用PCA时，最小样本量的经验法则是什么？即使或n < p，也可以使用前几台PC 吗？n=pn=pn=pn<pn<pn<p 有什么参考吗？您的主要目标是使用PC1还是可能使用PC2，这有关系吗：简单地以图形方式，或作为综合变量，然后用于回归分析？

27 pca sample-size factor-analysis

1

为什么PCA对异常值敏感？

该SE上有许多帖子讨论了主成分分析（PCA）的可靠方法，但是我无法找到一个很好的解释，说明为什么 PCA首先对异常值敏感。

26 machine-learning pca outliers

1

用PCA获得的低秩逼近矩阵可以使重构误差的范数最小化？

由于矩阵的PCA（或SVD）近似与矩阵，我们知道是最好的低阶近似。XXXX^X^\hat XX^X^\hat XXXX 这是根据诱导的范数∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2（即最大特征值范数）还是Frobenius范数？∥⋅∥F∥⋅∥F\parallel \cdot \parallel_F

26 pca svd matrix-decomposition

7

测试矩阵列之间的线性相关性

我有一个行列式为零的安全收益相关矩阵。（这有点令人惊讶，因为样本相关矩阵和相应的协方差矩阵在理论上应该是正定的。）我的假设是，至少一种证券线性依赖于其他证券。R中是否有一个函数可以按顺序测试每个列的线性相关性？例如，一种方法是一次建立一个安全性的相关矩阵，并在每个步骤计算行列式。当行列式= 0时，请停止运行，因为您已确定证券是其他证券的线性组合。识别在这样的矩阵中的线性相关性的任何其他技术是可以理解的。

26 r correlation pca linear-model svd

Questions tagged «pca»