3 如何将高维空间投影到二维平面中? 我在N维空间中有一组数据点。此外,在相同的N维空间中,我也有一个质心。有什么方法可以让我将这些数据点投影到二维空间中,同时将它们的相对距离信息保留在原始空间中。PCA是正确的吗? 11 data-visualization pca multidimensional-scaling
2 出于回归的目的,减少预测变量的维数有什么优势? 与传统的回归技术(不进行任何降维处理)相比,降维回归(DRR)或监督降维(SDR)技术有哪些应用或优势?这些技术类别可为回归问题找到特征集的低维表示。此类技术的示例包括切片逆回归,主Hessian方向,切片平均方差估计,内核切片逆回归,主成分回归等。 就交叉验证的RMSE而言,如果在没有任何降维的情况下算法在回归任务上表现更好,那么降维用于回归的真正用途是什么?我不了解这些技术。 这些技术是否有机会用于减少回归所需的时间和空间?如果这是主要优点,那么使用此技术后,一些有关降低高维数据集复杂性的资源将很有帮助。我以运行DRR或SDR技术本身需要一些时间和空间这一事实来对此进行辩论。低调数据集上的此SDR / DRR +回归是否比高调数据集上的仅回归快? 是否仅出于抽象兴趣对这种设置进行了研究,并且没有很好的实际应用? 顺带一提:有时会假设特征和响应的联合分布在流形上。在这种情况下,从观察到的样本中学习流形对于解决回归问题是有意义的。ÿXXXÿYY 11 regression machine-learning pca dimensionality-reduction
3 实用的PCA数据教程 在Internet上搜索PCA教程可获得数千个结果(甚至是视频)。许多教程非常好。但是我找不到任何实际的示例,其中使用一些可用于演示的数据集来解释PCA。我需要一个教程,该教程提供一些易于绘制的小型数据集(而不是10000s的数据线和100s的尺寸),在PCA分析之前和之后,其差异/结果可以清楚地说明。(我认为一个逐步的实际示例非常有用,该示例中的数据大约有100条线和3维。 你有什么建议吗? 11 data-visualization dataset pca data-mining
7 数据缩减技术来识别国家类型 我教经济地理入门课程。为了帮助我的学生更好地了解当代世界经济中的国家类型以及对数据缩减技术的理解,我想构建一项作业,以创建不同国家类型的研究(例如,高收入高收入国家预期寿命长;高收入自然资源出口国的预期寿命中等;德国是第一类,而也门是第二类。这将使用可公开获得的开发计划署数据(如果我记得正确的话,其中包含有关不到200个国家的社会经济数据;抱歉,没有可用的区域数据)。 在进行此分配之前,将有另一个要求他们(使用相同的-主要是区间或比率水平-数据)检查这些相同变量之间的相关性。 我的希望是,他们将首先对不同变量之间的关系类型产生一种直觉(例如,预期寿命与[财富的各种指标]之间的正相关;财富与出口多样性之间的正相关)。然后,当使用数据缩减技术时,构成要素或因素将具有一定的直观意义(例如,构成要素/要素1体现了财富的重要性;构成要素/要素2体现了教育的重要性)。 鉴于这些是第二至四年级的学生,通常他们对分析性思维的了解通常比较有限,那么您建议哪种单一的数据缩减技术最适合第二次作业?这些是人口数据,因此推论统计(p-vlaues等)并不是真正必要的。 11 pca factor-analysis dimensionality-reduction
1 R中princomp()对象的summary()和loadings()之间有什么区别? 示例代码: (pc.cr <- princomp(USArrests)) summary(pc.cr) loadings(pc.cr) ## note that blank entries are small but not zero 我从每个人那里得到了不同的输出,而且我不确定我理解有什么不同。 这是输出: > summary(pc.cr) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 82.8908472 14.06956001 6.424204055 2.4578367034 Proportion of Variance 0.9655342 0.02781734 0.005799535 0.0008489079 Cumulative Proportion 0.9655342 0.99335156 0.999151092 1.0000000000 > loadings(pc.cr) ## note … 11 r pca
1 R中PCA双图中基础变量的箭头 冒着使问题成为特定于软件的风险,并以其普遍存在和特质为借口,我想问一下biplot()R中的函数,更具体地说,是有关其默认的叠加红色箭头的计算和绘图的问题。到基础变量。 [为了理解某些评论,最初发布的地块存在稀缺性问题,现在已删除。] 11 r pca biplot
1 R / mgcv:为什么te()和ti()张量积产生不同的曲面? 的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # … 11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa
2 如何确定t-SNE的参数以减小尺寸? 我对词嵌入非常陌生。我想将学习后的文档形象化。我读到t-SNE是做到这一点的方法。我有100K个文档,其嵌入尺寸为250个尺寸。也有几个软件包。 但是,对于t-SNE,我不知道应该学习多少次迭代,alpha值或perperxility值。 这些是超参数,还是可以由某些属性确定? 11 pca dimensionality-reduction word2vec word-embeddings tsne
3 第一个主要组件不会分隔类别,而其他PC会分开。那怎么可能? 我对17个定量变量运行了PCA,以获取较小的变量集(即主要成分),该变量集用于有监督的机器学习中,用于将实例分为两类。在PCA之后,PC1占数据方差的31%,PC2占数据的17%,PC3占10%,PC4占8%,PC5占7%,PC6占6%。 但是,当我看两类计算机之间的均值差异时,令人惊讶的是,PC1不能很好地区分两类计算机。剩下的PC就是很好的鉴别器。另外,PC1在决策树中使用时变得无关紧要,这意味着在修剪树后甚至在树中都不存在它。该树由PC2-PC6组成。 这个现象有什么解释吗?衍生变量会出问题吗? 11 machine-learning classification pca dimensionality-reduction
4 Python中的主成分分析和回归 我试图找出如何在Python中重现我在SAS中所做的一些工作。使用这个存在多重共线性问题的数据集,我想在Python中执行主成分分析。我看过scikit-learn和statsmodels,但是我不确定如何获取它们的输出并将其转换为与SAS相同的结果结构。一方面,当您使用时,SAS似乎在相关矩阵上执行PCA PROC PRINCOMP,但是大多数(全部?)Python库似乎都在使用SVD。 在数据集中,第一列是响应变量,接下来的5个是预测变量,称为pred1-pred5。 在SAS中,常规工作流程为: /* Get the PCs */ proc princomp data=indata out=pcdata; var pred1 pred2 pred3 pred4 pred5; run; /* Standardize the response variable */ proc standard data=pcdata mean=0 std=1 out=pcdata2; var response; run; /* Compare some models */ proc reg data=pcdata2; Reg: model response = pred1 pred2 … 11 pca python scikit-learn
2 为什么PCA最大化投影的总方差? 克里斯托弗·毕晓普(Christopher Bishop)在他的《模式识别和机器学习》一书中写道,在将数据投影到与先前选定的组件正交的空间之后,每个连续的主分量将投影在一个维度上的方差最大化。其他人显示类似的证明。 但是,这仅证明了就最大方差而言,每个连续分量都是对一个维度的最佳投影。为什么这意味着,首先选择这样的组件,投影到5个维度的方差最大化? 11 machine-learning variance pca dimensionality-reduction eigenvalues
3 可以使用线性判别分析(LDA)中的标定值在线性判别式上绘制解释变量吗? 使用通过主成分分析获得的值的双图,可以探索构成每个主成分的解释变量。 使用线性判别分析是否也有可能? 提供的示例使用。数据为“埃德加·安德森的虹膜数据”(http://en.wikipedia.org/wiki/Iris_flower_data_set)。这是虹膜数据: id SLength SWidth PLength PWidth species 1 5.1 3.5 1.4 .2 setosa 2 4.9 3.0 1.4 .2 setosa 3 4.7 3.2 1.3 .2 setosa 4 4.6 3.1 1.5 .2 setosa 5 5.0 3.6 1.4 .2 setosa 6 5.4 3.9 1.7 .4 setosa 7 4.6 3.4 1.4 .3 … 11 r pca multivariate-analysis discriminant-analysis biplot
3 PCA,ICA和Laplacian特征图 题 我对拉普拉斯特征图方法非常感兴趣。目前,我正在使用它来缩小我的医疗数据集的尺寸。 但是,使用该方法遇到了问题。 例如,我有一些数据(光谱信号),并且可以使用PCA(或ICA)来获取一些PC(或IC)。问题是如何使用LE获得原始数据的类似降维分量? 根据拉普拉斯特征图方法,我们需要解决广义特征值问题,即 Ly=λDyLy=λDyL y = \lambda D y 此处yyy是特征向量。如果我绘制例如前3个特征向量(根据3个特征值的解),结果将无法解释。 但是,当我绘制前3个PC和前3个IC时,结果似乎总是(直观地)代表原始数据xxx。 我认为原因是因为矩阵LLL由权重矩阵(邻接矩阵WWW)定义,并且数据xxx已与热核拟合以创建WWW,这是使用指数函数。我的问题是如何检索xxx的简化分量(而不是矩阵L的特征向量yyy)?LLL 数据 我的数据集受到限制,并且不容易演示该问题。在这里,我创建了一个玩具问题,以显示我的意思和想要问的问题。 请看图片 首先,我创建了一些以红色曲线显示的正弦波A,B,C(图的第一列)。A,B和C具有1000个样本,换句话说,保存在1x1000向量中。 其次,我使用随机创建的线性组合(例如混合源A,B,,其中是随机值。混合信号处于非常高的维空间中,例如,,1517是随机选择的高维空间。我仅以绿色曲线显示信号M的前三行(该图的第二列)。M=r1∗A+r2∗B+r3∗CM=r1∗A+r2∗B+r3∗CM = r_1*A + r_2*B + r_3*Cr1,r2,r3r1,r2,r3r_1, r_2, r_3MMMM∈R1517×1000M∈R1517×1000M \in R^{1517\times1000} 接下来,我运行PCA,ICA和Laplacian特征图以获取降维结果。我选择使用3台PC,3个IC和3个LE进行公平比较(蓝色曲线分别显示为该图的第3列,第4列和最后一列)。 从PCA和ICA的结果(图的第3列,第4列),我们可以将结果解释为某种尺寸的减小,即,对于ICA结果,我们可以通过恢复混合信号(我不确定我们是否也可以通过PCA结果获得,但结果对我来说似乎很合适)。M=b1∗IC1+b2∗IC2+b3∗IC3M=b1∗IC1+b2∗IC2+b3∗IC3M = b_1*IC1 + b_2*IC2 + b_3*IC3M=a1∗PC1+a2∗PC2+a3∗PC3M=a1∗PC1+a2∗PC2+a3∗PC3M = a_1*PC1 + a_2*PC2 + a_3*PC3 但是,请查看LE的结果,我几乎无法解释结果(该图的最后一列)。减少的组件似乎有些“错误”。另外,我想提一提的是,最后一列的最后情节的特征向量式yyyLy=λDyLy=λDyL y = \lambda D y 你们有更多的想法吗? … 11 pca ica
3 您何时会在分类中使用PCA而不是LDA? 我正在阅读这篇文章,了解主成分分析和多重判别分析(线性判别分析)之间的区别,并且我试图理解为什么您会使用PCA而不是MDA / LDA。 解释总结如下: 粗略地讲,在PCA中,我们试图找到数据散布最大的方差最大的轴(在一个类内,因为PCA将整个数据集视为一个类),而在MDA中,我们额外在最大化各类之间的散布。 您不是总想同时最大化方差和最大化类之间的差异吗? 10 classification pca dimensionality-reduction discriminant-analysis
1 如何获得非PCA特征向量的向量的“特征值”(解释方差的百分比)? 我想了解如何获取数据集的方差百分比,而不是在PCA提供的坐标空间中,而是在稍微不同的一组(旋转)向量上。 set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee <- eigen(cov(vecs))$values a1 <- vv[, 1] a2 <- vv[, 2] theta = pi/10 rotmat <- matrix(c(cos(theta), sin(theta), -sin(theta), … 10 r variance pca linear-algebra