统计和大数据 correspondence-analysis

6

我有一个既包含连续数据又包含分类数据的数据集。我正在使用PCA进行分析，想知道是否可以将分类变量作为分析的一部分。我的理解是PCA只能应用于连续变量。那是对的吗？如果不能将其用于分类数据，则可以使用哪些替代方法进行分析？

147 categorical-data pca correspondence-analysis mixed-type-data

3

我想降低高阶系统的维数，并捕获最好在2维或1维场上的大多数协方差。我了解这可以通过主成分分析来完成，并且我在许多情况下都使用了PCA。但是，我从未将其与布尔数据类型一起使用，并且我想知道使用此集合进行PCA是否有意义。因此，例如，假设我有定性或描述性指标，并且如果该指标对该维度有效，那么我将分配“ 1”，否则将分配“ 0”（二进制数据）。因此，例如，假设您要比较《白雪公主》中的七个小矮人。我们有： Doc，Dopey，Bashful，Grumpy，Sneezy，Sleepy和Happy，您想根据自己的特质来安排它们，方法如下： ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜d Ø Çd ø p ë ÿ乙一个小号ħ ˚Fü 升ģ ř ü 米p ÿ小号ñ Ë É žÿ小号升Ë È p ÿH一个p p ÿ大号一个ç 吨ö 小号Ë 我 Ñ 吨ø 升é ř 一个Ñ 吨1个01个1个01个1个一^ h ø Ñ ø - [R [R ö 升升 0001个1个01个甲吨ħ 升é 吨我Ç1个01个1个1个00w ^Ë 一升吨ħ ÿ1个01个1个000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

1

PCA和对应关系分析与Biplot的关系

Biplot通常用于显示主成分分析（和相关技术）的结果。它是一个双散点图或叠加散点图，同时显示了组件负荷和组件分数。今天，@ amoeba通知我，他给出的答案与我的评论不符，而是一个问题，询问如何生成/缩放Biplot坐标；他的回答更详细地考虑了几种方式。@amoeba询问我是否愿意与biplot分享我的经验。我的经验（无论是理论上还是实验上的经验），尽管非常谦虚，但都突出了两点，但这两点很少得到人们的认可：（1）应将Biplot归类为分析技术，而不是辅助散点图；（2）PCA，对应分析（以及其他一些众所周知的技术）实际上是双图的特殊情况。或者至少，他们俩几乎都是双胞胎。如果可以做双图，则可以做另外两个。我对您的问题是：它们（PCA，CA，Biplot）如何为您连接？请分享您的想法。同时，我正在发布自己的帐户。我想请增加更多答案并发表批评。

38 pca multivariate-analysis svd correspondence-analysis biplot

1

PCA /对应分析中的“马蹄效应”和/或“拱效应”是什么？

生态统计中有许多技术可用于多维数据的探索性数据分析。这些被称为“协调”技术。许多统计数据与其他地方的通用技术相同或紧密相关。原型示例可能是主成分分析（PCA）。生态学家可能会使用PCA和相关技术来探索“梯度”（我尚不完全清楚什么是梯度，但我已经对其有所了解。）在此页面上，主成分分析（PCA）下的最后一项是： PCA对于植被数据有一个严重的问题：马蹄效应。这是由于物种沿梯度分布的曲线性所致。由于物种响应曲线通常是单峰的（即非常强烈的曲线），因此马蹄效应很常见。在页面的下方，在“ 对应分析”或“互惠平均”（RA）下，它称为“拱形效应”： RA有一个问题：拱效应。这也是由沿梯度分布的非线性引起的。拱形不如PCA的马蹄效应那么严重，因为坡度的末端没有回旋。有人可以解释吗？最近，我在重新表示低维空间数据的绘图中看到了这种现象（即对应分析和因子分析）。 “梯度”将更广泛地对应于什么（即在非生态环境中）？如果您的数据发生这种情况，这是“问题”（“严重问题”）吗？为了什么？在马蹄形拱门出现的地方应该如何解释输出？是否需要采取补救措施？什么？原始数据的转换会有所帮助吗？如果数据是序数等级怎么办？答案可能存在于该站点的其他页面中（例如，对于PCA，CA和DCA）。我一直在努力解决这些问题。但是，这些讨论是用不够熟悉的生态术语和实例进行的，因此很难理解这个问题。

20 pca eda ecology correspondence-analysis

1

解释2D对应分析图

我一直在广泛地搜索互联网...我还没有找到关于如何解释2D对应分析图的非常好的概述。有人可以提供一些建议来解释点之间的距离吗？也许一个例子会有所帮助，这是我所见过的许多讨论对应分析的网站上的图表。红色三角形代表眼睛的颜色，黑色点代表头发的颜色。查看上图，您能否对在这些数据中看到的内容做一些陈述。关于三角形和点之间的不同尺寸和关系的兴趣点？行点对列点的解释，特别是在示例中使用单词“ profile”将很有帮助。

19 interpretation correspondence-analysis biplot

1

R线性回归分类变量“隐藏”值

这只是我多次遇到的示例，因此我没有任何示例数据。在R中运行线性回归模型： a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的，具有三个值，例如“低”，“中”和“高”。但是，R给出的输出将类似于： summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素（x2是一个因素）上引入了某种虚拟编码。我只是想知道，如何解释x2“高”值？例如，x2在此处给出的示例中，“ High” 对响应变量有什么影响？我在其他地方（例如这里）已经看到了这样的示例，但是还没有找到我能理解的解释。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

在生态学中使用什么标准将变量分为解释变量和排序方法的响应？

我有在人群中相互作用的不同变量。基本上，我一直在盘点千足虫，并测量其他一些地形值，例如：标本的种类和数量动物所在的不同环境 pH值有机物百分比磷，钾，镁，钙，锰，铁，锌，铜的含量 Ca + Mg / K关系基本上，我想使用PCA来确定哪些变量驱动样本的可变性并使森林（环境）有所不同。我应该为“变量”使用哪些变量，为“个人”使用哪些变量？

9 pca multivariate-analysis ecology correspondence-analysis

1

使用主成分分析与对应分析

我正在分析有关潮间带群落的数据集。数据是四方类动物（海藻，藤壶，贻贝等）的覆盖百分比。我习惯于根据物种计数来考虑对应分析（CA），而将主成分分析（PCA）视为对线性环境（而非物种）趋势更有用的方法。我真的没有运气来确定PCA或CA是否更适合百分比覆盖率（找不到任何论文），而且我什至不确定如何将封顶为100％的内容分发出去？我熟悉粗略的指导原则，即如果第一个去趋势对应分析（DCA）轴的长度大于2，则可以放心地假定应该使用CA。DCA轴1的长度为2.17，这对我没有帮助。

9 r pca multivariate-analysis correspondence-analysis

1

离散数据和PCA的替代方案

我有一个离散的数据集（常规，特征和名义），这些变量描述了几种紧密相关的昆虫的形态翅膀特征。我要做的是进行某种分析，以便根据形态特征直观地呈现不同物种的相似性。首先出现在我脑海中的是PCA（这是我要创建的可视化类型），但是在研究之后（尤其是其他问题，例如：主成分分析可以应用于包含连续数据的混合数据集吗？和分类变量？），似乎PCA可能不适用于离散数据（文献中这些类型的研究中使用了PCA，但始终使用连续数据）。忽略了为什么该数据不合适的统计背景，PCA确实在我的生物学问题上给了我相对完美的结果（感兴趣的杂交人群恰好位于其父辈群体的中间）。我还尝试了多种对应关系分析以安抚统计数据（至少就我的理解而言），但是我似乎无法获得与PCA相似的图，其中我的观察值（生物学个体）用颜色分开表示不同的分组（不同的物种，从生物学上来说）。似乎该分析旨在描述变量（在这里是我的形态特征）如何相互关联，而不是各个观察结果之间的关联。当我按组对观察结果进行绘制时，我只能得到描述整个个体的单个值（也许是平均值）。我已经在R中完成了分析，所以也许我还不够R精明，无法使我对工作情节有所了解。我对数据进行这种分析是否正确，还是偏离轨道？如果您无法判断，我的统计专业知识是有限的，因此在这些分析下发生的方程式一直困扰着我。我正在尝试完全描述性地进行此分析（我不再需要进行任何下游数字运算），并且我已经读到，如果是这种情况，PCA就足够了，但是想确保我不会违反了太多的统计假设。

9 pca discrete-data correspondence-analysis mixed-type-data

2

什么是法国数据分析？

一些统计方法-我不记得它是主要成分分析还是类似的方法-有时被称为“法国数据分析”。究竟是什么？有人说这个名字具有讽刺意味，是真的，为什么？

9 multivariate-analysis terminology correspondence-analysis

Questions tagged «correspondence-analysis»