Questions tagged «pca»

主成分分析(PCA)是线性降维技术。它将多变量数据集简化为较小的构造变量集,以保留尽可能多的信息(尽可能多的方差)。这些变量称为主成分,是输入变量的线性组合。

1
PCA如何处理自相关数据?
仅仅因为一些通讯员提出了一个有关自相关计算方法的有趣问题,我才开始研究它,几乎不了解时间序列和自相关。 记者安排了他的数据(一个时间序列的数据点),每个数据点之间一个时滞,因此他拥有一个数据的矩阵(据我),其中第一行是原始数据,第二行是原始数据数据移动了时间单位,下一行又移动了一个,依此类推。我还通过将末端粘到尾巴上来实现了这一点,因此制作了“圆形”数据集。32323232 × 3232×3232\times321个1个1 然后,为了寻找可能产生的结果,我计算了相关矩阵,并由此得出了主要成分。出乎意料的是,我得到了一个频率分解的图像,并且(再次与其他数据)得到了一个频率,说在数据中有一个周期位于第一主成分中,而在四个数据中具有四个周期位于第二个PC中,依此类推。 (我有台特征值 “相关” PC323232666> 1>1个>1)。首先,我认为这取决于输入数据,但是现在,我假设通过具有循环移位的数据集的特殊构造(也称为“ Toeplitz”矩阵)来系统地采用这种方式。将PC解决方案旋转为varimax或其他旋转条件会产生稍微不同且可能有趣的结果,但总的来说似乎提供了这种频率分解。 这是我根据点数据集制作的图片的链接。这些曲线仅由因子矩阵的载荷绘制而成:一条曲线是一个因子的载荷。第一个PC1的曲线应显示最高振幅(大致是因为它具有最大的载荷平方和)323232 问题: Q1:这是设计使然吗?(具有这种类型的数据集的PCA) 问题2:这种方法确实确实可以用于严肃的频率/波长分析方法吗? [更新]这是数据集(希望它可以为您复制) -5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4 -3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5 -1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3 0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1 2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0 4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2 6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4 5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6 3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5 1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3 1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1 0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1 -2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0 -3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2 -1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3 0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1 3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0 5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3 7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5 6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7 7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6 5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7 4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5 3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4 2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3 3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2 5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3 4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5 3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4 2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3 3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2 4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3

1
在生态学中使用什么标准将变量分为解释变量和排序方法的响应?
我有在人群中相互作用的不同变量。基本上,我一直在盘点千足虫,并测量其他一些地形值,例如: 标本的种类和数量 动物所在的不同环境 pH值 有机物百分比 磷,钾,镁,钙,锰,铁,锌,铜的含量 Ca + Mg / K关系 基本上,我想使用PCA来确定哪些变量驱动样本的可变性并使森林(环境)有所不同。我应该为“变量”使用哪些变量,为“个人”使用哪些变量?

3
ICA是否需要首先运行PCA?
我审阅了一篇基于应用程序的论文,说在应用ICA之前先应用PCA(使用fastICA软件包)。我的问题是,ICA(fastICA)是否要求PCA首先运行? 本文提到 ...也有人认为,预先应用PCA可以通过(1)在白化之前丢弃小的尾随特征值,以及(2)通过使成对依存关系最小化来降低计算复杂度,从而提高ICA性能。PCA对输入数据进行解相关;其余的高阶依存关系由ICA分隔。 另外,其他论文也正在ICA之前应用PCA,例如该论文。 在ICA之前运行PCA还有其他利弊吗?请提供理论参考。

4
类似于PCA的非正交技术
假设我有一个二维点数据集,并且我想检测数据中所有局部极大值方差的方向,例如: PCA在这种情况下无济于事,因为它是正交分解,因此无法检测到我用蓝色表示的两条线,而是它的输出可能看起来像绿线所示。 请推荐任何适合此目的的技术。谢谢。


1
使用主成分分析与对应分析
我正在分析有关潮间带群落的数据集。数据是四方类动物(海藻,藤壶,贻贝等)的覆盖百分比。我习惯于根据物种计数来考虑对应分析(CA),而将主成分分析(PCA)视为对线性环境(而非物种)趋势更有用的方法。我真的没有运气来确定PCA或CA是否更适合百分比覆盖率(找不到任何论文),而且我什至不确定如何将封顶为100%的内容分发出去? 我熟悉粗略的指导原则,即如果第一个去趋势对应分析(DCA)轴的长度大于2,则可以放心地假定应该使用CA。DCA轴1的长度为2.17,这对我没有帮助。


1
离散数据和PCA的替代方案
我有一个离散的数据集(常规,特征和名义),这些变量描述了几种紧密相关的昆虫的形态翅膀特征。我要做的是进行某种分析,以便根据形态特征直观地呈现不同物种的相似性。首先出现在我脑海中的是PCA(这是我要创建的可视化类型),但是在研究之后(尤其是其他问题,例如:主成分分析可以应用于包含连续数据的混合数据集吗?和分类变量?),似乎PCA可能不适用于离散数据(文献中这些类型的研究中使用了PCA,但始终使用连续数据)。忽略了为什么该数据不合适的统计背景,PCA确实在我的生物学问题上给了我相对完美的结果(感兴趣的杂交人群恰好位于其父辈群体的中间)。 我还尝试了多种对应关系分析以安抚统计数据(至少就我的理解而言),但是我似乎无法获得与PCA相似的图,其中我的观察值(生物学个体)用颜色分开表示不同的分组(不同的物种,从生物学上来说)。似乎该分析旨在描述变量(在这里是我的形态特征)如何相互关联,而不是各个观察结果之间的关联。当我按组对观察结果进行绘制时,我只能得到描述整个个体的单个值(也许是平均值)。我已经在R中完成了分析,所以也许我还不够R精明,无法使我对工作情节有所了解。 我对数据进行这种分析是否正确,还是偏离轨道?如果您无法判断,我的统计专业知识是有限的,因此在这些分析下发生的方程式一直困扰着我。我正在尝试完全描述性地进行此分析(我不再需要进行任何下游数字运算),并且我已经读到,如果是这种情况,PCA就足够了,但是想确保我不会违反了太多的统计假设。

2
PCA或因子分析中的变量偏斜
我想基于22个变量对SPSS进行主成分分析(因子分析)。但是,我的一些变量非常偏斜(根据SPSS计算得出的偏斜范围为2–80!)。 所以这是我的问题: 我应该保留这样的偏斜变量,还是可以在主成分分析中转换变量?如果是,我将如何解释因子得分? 我应该进行哪种类型的转换?log10还是ln? 最初,我的KMO(Kaiser–Meyer–Olkin)为0.413。许多文献建议最小值为0.5。我仍然可以进行因子分析,还是需要删除变量以将我的KMO提高到0.5?

2
为什么我的第一台PC解释的方差量如此接近平均成对相关性?
第一主成分和相关矩阵中的平均相关之间是什么关系? 例如,在经验应用中,我观察到平均相关性几乎与第一主成分(第一特征值)的方差与总方差(所有特征值之和)之比相同。 有数学关系吗? 以下是实证结果图表。其中,相关性是在15天滚动窗口中计算的DAX股指成分收益之间的平均相关性,而解释的方差是在15天滚动窗口中计算的第一主成分所解释的方差的份额。 可以用CAPM之类的常见风险因素模型来解释吗?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
何时选择PCA与LSA / LSI
题: 是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间? PCA与LSA / LSI的简要概述: 从主要成分分析(PCA)和潜在语义分析(LSA)或潜在语义索引(LSI)的角度来看,它们都基本都依赖于奇异值分解(SVD)在矩阵上的应用。 据我所知,LSA和LSI是同一件事。LSA与PCA的根本区别不在于PCA,而在于在应用SVD之前对矩阵条目进行预处理的方式。 在LSA中,预处理步骤通常涉及规范化计数矩阵,其中列对应于“文档”,行对应于某种单词。可以将条目视为某种(规范化的)文档出现字数。 在PCA中,预处理步骤涉及从原始矩阵计算协方差矩阵。从概念上讲,原始矩阵在本质上比LSA更具“一般性”。在涉及PCA的情况下,通常称列指的是通用样本向量,而称行指的是要测量的单个变量。协方差矩阵的定义是平方和对称的,实际上,由于可以通过对角化分解协方差矩阵,因此不必应用SVD。值得注意的是,PCA矩阵几乎肯定比LSA / LSI变体更密集-零条目仅在变量之间的协方差为零(即变量独立)的情况下才会出现。 最后,另一个经常被用来区分两者的描述点是: LSA寻求Frobenius范数中的最佳线性子空间,而PCA则寻求最佳仿射线性子空间。 无论如何,这些技术的差异和相似性已在整个互联网的各个论坛中激烈辩论,并且显然存在一些显着差异,并且显然这两种技术将产生不同的结果。 因此,我重复我的问题:是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间?如果我有类似术语文档矩阵的内容,那么LSA / LSI始终是最佳选择吗?在某些情况下,可能希望通过为LSA / LSI准备术语/文档矩阵,然后将PCA应用于结果,而不是直接应用SVD来获得更好的结果?

1
如何解释降维/多维缩放的结果?
为了更好地理解数据的结构,我同时执行了SVD分解和6维数据矩阵的多维缩放。 不幸的是,所有奇异值都具有相同的阶数,这意味着数据的维数确实为6。但是,我希望能够解释奇异矢量的值。例如,第一个似乎在每个维度上都差不多相等(即(1,1,1,1,1,1)),第二个也有有趣的结构(类似(1,-1,1,-1,-1,1))。 我如何解释这些向量?您能指出一些有关该主题的文献吗?

2
可以使用内核PCA进行功能选择吗?
是否可以以与使用PCA相同的方式将内核主成分分析(kPCA)用于潜在语义索引(LSI)? 我使用prcompPCA功能在R中执行LSI,并从第一个中提取负载最大的功能ķkk组件。这样,我就可以最好地描述组件的功能。 我试图使用该kpca功能(从kernlib包装中获取),但看不到如何访问要素的权重。使用内核方法时,总体上可能吗?

2
如何找到不同类型事件之间的关系(由事件的2D位置定义)?
我有同一时间段内发生的事件的数据集。每个事件都有一个类型(很少有不同类型,少于十个)和一个位置,以2D点表示。 我想检查事件类型之间或类型与位置之间是否存在任何关联。例如,也许类型A的事件通常不会发生,而类型B的事件却不会发生。也许在某些地区,大多数是C型事件。 我可以使用哪种工具来执行此操作?作为统计分析的新手,我的第一个想法是在此数据集上使用某种PCA(主成分分析),以查看每种类型的事件是否具有自己的成分,或者某些事件是否共享相同的成分(即相关的成分)? 我不得不提到,我的数据集约为500'000点,因此使处理起来有些困难。(x ,y,吨ÿp ë )(x,y,type)(x, y, type) 编辑:如下面的答案和评论中所述,方法是将此模型建模为标记点过程,然后使用R来完成所有繁重的工作,如本研讨会报告中的详细说明:http:// /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.