Questions tagged «pca»

主成分分析(PCA)是线性降维技术。它将多变量数据集简化为较小的构造变量集,以保留尽可能多的信息(尽可能多的方差)。这些变量称为主成分,是输入变量的线性组合。


2
主成分分析可以用于股票价格/非平稳数据吗?
我正在阅读《面向黑客的机器学习》一书中给出的示例。我将首先详细说明示例,然后再讨论我的问题。 范例: 以25个股价的10年为一个数据集。以25股价格运行PCA。将主要成分与道琼斯指数进行比较。观察PC与DJI之间的强烈相似之处! 据我了解,该示例更像是一个玩具,可以帮助像我这样的新手了解PCA工具的有效性! 但是,从另一个消息来源看,我发现股价是不稳定的,以股价运行PCA是荒谬的。我从中阅读的资料完全嘲笑了计算股价的协方差和PCA的想法。 问题: 这个例子如何运作得如此好?股价的PCA与DJI非常接近。该数据是2002-2011年股价的真实数据。 有人可以为我指出一些不错的资源来读取固定/非固定数据吗?我是电脑程序编制员。我有很好的数学背景。但是三年来我都没有做过认真的数学运算。我已经开始重新阅读有关随机漫步等内容的信息。

1
PCA仅保留较大的成对距离是什么意思?
我目前正在阅读t-SNE可视化技术,有人提到使用主成分分析(PCA)来可视化高维数据的缺点之一是它仅保留了点之间的较大成对距离。在高维空间中相距较远的意义点在低维子空间中也将相距较远,但除此之外,所有其他成对距离都将被搞砸。 有人可以帮助我理解为什么会这样吗?它在图形上意味着什么?

1
大规模PCA甚至可能吗?
主成分分析(PCA)的经典方法是在输入数据矩阵上进行,列的均值为零(然后PCA可以“最大化方差”)。通过将列居中可以轻松实现。但是,当输入矩阵稀疏时,居中的矩阵现在将变得稀疏,并且-如果矩阵很大,则不再适合内存。有针对存储问题的算法解决方案吗?

1
为什么所有PLS组件一起只能解释原始数据的一部分差异?
我有一个由10个变量组成的数据集。我运行偏最小二乘(PLS)来预测这10个变量的单个响应变量,提取10个PLS分量,然后计算每个分量的方差。在原始数据上,我得出所有变量的方差之和为702。 然后,我将每个PLS分量的方差除以该总和,得到由PLS解释的方差的百分比,令人惊讶的是,所有分量一起解释了原始方差的44%。 对此有什么解释?不应该是100%吗?

1
当维数大于观测次数时,PCA是否仍通过协方差矩阵的特征分解完成?
我有一个矩阵,在D = 100维空间中包含我的N = 20个样本。现在,我希望在Matlab中编写自己的主成分分析(PCA)。我首先将X贬为X_0。X N = 20 D = 100 X X 020 × 10020×10020\times100XXXñ= 20N=20N=20d = 100D=100D=100XXXX0X0X_0 我从某人的代码中了解到,在这种情况下,我们的维数比观测值大,我们不再对X0X0X_0的协方差矩阵进行特征分解。取而代之的是,我们对\ frac {1} {N-1} X_0X_0 ^ T进行特征分解1个ñ− 1X0XŤ01N−1X0X0T\frac{1}{N-1}X_0X_0^T。为什么正确? 正常协方差矩阵的大小为深× 深D×DD\times D,其中每个元素告诉我们二维之间的协方差。对我来说,1个ñ− 1X0XŤ01N−1X0X0T\frac{1}{N-1}X_0X_0^T甚至尺寸都不正确!它是N \ x Nñ× Nñ×ñN\times N矩阵,那么它将告诉我们什么?两个观察值之间的协方差?
10 pca 

2
将PCA应用于测试数据以进行分类
我最近了解了出色的PCA,并完成了scikit-learn文档中概述的示例。 我想知道如何将PCA应用于新数据点以进行分类。 在二维平面(x,y轴)上可视化PCA之后,我看到我可能可以画一条线来分隔数据点,以便一侧将属于一种分类,而另一侧则属于另一种分类。如何绘制此“边界”并将其应用于新数据点?

1
对特征向量的视觉解释感到困惑:视觉上不同的数据集如何具有相同的特征向量?
许多统计教科书提供了一个直观的说明协方差矩阵的特征向量是: 向量u和z形成本征向量(本征轴)。这是有道理的。但是令我困惑的一件事是,我们从相关矩阵中提取特征向量,而不是原始数据。此外,完全不同的原始数据集可以具有相同的相关矩阵。例如,以下两个都具有以下相关矩阵: [ 10.970.971个][10.970.971]\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right] 因此,它们的特征向量指向相同的方向: [ .71.71− .71.71][.71−.71.71.71]\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right] 但是,如果对特征向量在原始数据中的哪个方向应用相同的视觉解释,则会得到指向不同方向的向量。 有人可以告诉我我哪里出问题了吗? 第二次编辑:如果我这么大胆,下面给出了出色的答案,我就能够弄清混乱并作了说明。 视觉解释与以下事实相吻合:从协方差矩阵提取的特征向量是不同的。 协方差和特征向量(红色): [ 11个1个1个] [ .7.72− .72.7][1111][.7−.72.72.7]\left[\begin{array}{} 1 & 1 \\ 1 & 1\end{array}\right] \left[\begin{array}{} .7 & -.72 \\ .72 & .7\end{array}\right] 协方差和特征向量(蓝色): [ .25.5.51个] [ …

2
为了选择零件数量,有什么好的指标可以评估PCA配合的质量?
评估主成分分析(PCA)质量的良好指标是什么? 我在数据集上执行了该算法。我的目标是减少功能数量(信息非常冗余)。我知道保留的方差百分比可以很好地表明我们保留了多少信息,是否可以使用其他信息指标来确保我删除了冗余信息并且没有“丢失”此类信息?


1
如何从人们感兴趣的领域的调查中解释这个PCA双线图?
背景:我询问了数百名受访者对所选区域的兴趣(按李克特五分制,其中1分表示“不感兴趣”,5分表示“感兴趣”)。 然后我尝试了PCA。下图是前两个主要组成部分的投影。颜色用于性别,PCA箭头是原始变量(即兴趣)。 我注意到: 点(受访者)被第二部分很好地分开了。 没有左箭头。 有些箭比其他箭短得多。 变量趋向于形成集群,而不是观察值。 看来,指向男性的向下箭头主要是男性的利益,指向上方的箭头主要是女性的利益。 一些箭头既不指向下方也不指向上方。 问题:如何正确解释点(受访者),颜色(性别)和箭头(变量)之间的关系?从这个情节中可以得出关于受访者及其兴趣的其他结论吗? 数据可以在这里找到。

3
选择要保留的主要成分数量
向我建议的一种方法是查看碎石图并检查“弯头”以确定要使用的正确PC数。但是,如果情节不清楚,R是否可以通过计算来确定数字? fit <- princomp(mydata, cor=TRUE)
10 r  pca 

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.