Questions tagged «correspondence-analysis»

对应分析是用于名义变量的降维和映射技术。它通常应用于列联表,以探索行和列类别之间的视觉亲和力。如果表格是3维以上,则该分析称为多重对应分析。


3
PCA是否适用于布尔(二进制)数据类型?
我想降低高阶系统的维数,并捕获最好在2维或1维场上的大多数协方差。我了解这可以通过主成分分析来完成,并且我在许多情况下都使用了PCA。但是,我从未将其与布尔数据类型一起使用,并且我想知道使用此集合进行PCA是否有意义。因此,例如,假设我有定性或描述性指标,并且如果该指标对该维度有效,那么我将分配“ 1”,否则将分配“ 0”(二进制数据)。因此,例如,假设您要比较《白雪公主》中的七个小矮人。我们有: Doc,Dopey,Bashful,Grumpy,Sneezy,Sleepy和Happy,您想根据自己的特质来安排它们,方法如下: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜d Ø Çd ø p ë ÿ乙一个小号ħ ˚Fü 升ģ ř ü 米p ÿ小号ñ Ë É žÿ小号升Ë È p ÿH一个p p ÿ大号一个ç 吨ö 小号Ë 我 Ñ 吨ø 升é ř 一个Ñ 吨1个01个1个01个1个一^ h ø Ñ ø - [R [R ö 升升 0001个1个01个甲吨ħ 升é 吨我Ç1个01个1个1个00w ^Ë 一升吨ħ ÿ1个01个1个000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA …

1
PCA和对应关系分析与Biplot的关系
Biplot通常用于显示主成分分析(和相关技术)的结果。它是一个双散点图或叠加散点图,同时显示了组件负荷和组件分数。今天,@ amoeba通知我,他给出的答案与我的评论不符,而是一个问题,询问如何生成/缩放Biplot坐标;他的回答更详细地考虑了几种方式。@amoeba询问我是否愿意与biplot分享我的经验。 我的经验(无论是理论上还是实验上的经验),尽管非常谦虚,但都突出了两点,但这两点很少得到人们的认可:(1)应将Biplot归类为分析技术,而不是辅助散点图;(2)PCA,对应分析(以及其他一些众所周知的技术)实际上是双图的特殊情况。或者至少,他们俩几乎都是双胞胎。如果可以做双图,则可以做另外两个。 我对您的问题是:它们(PCA,CA,Biplot)如何为您连接?请分享您的想法。同时,我正在发布自己的帐户。我想请增加更多答案并发表批评。

1
PCA /对应分析中的“马蹄效应”和/或“拱效应”是什么?
生态统计中有许多技术可用于多维数据的探索性数据分析。这些被称为“协调”技术。许多统计数据与其他地方的通用技术相同或紧密相关。原型示例可能是主成分分析(PCA)。生态学家可能会使用PCA和相关技术来探索“梯度”(我尚不完全清楚什么是梯度,但我已经对其有所了解。) 在此页面上,主成分分析(PCA)下的最后一项是: PCA对于植被数据有一个严重的问题:马蹄效应。这是由于物种沿梯度分布的曲线性所致。由于物种响应曲线通常是单峰的(即非常强烈的曲线),因此马蹄效应很常见。 在页面的下方,在“ 对应分析”或“互惠平均”(RA)下,它称为“拱形效应”: RA有一个问题:拱效应。这也是由沿梯度分布的非线性引起的。 拱形不如PCA的马蹄效应那么严重,因为坡度的末端没有回旋。 有人可以解释吗?最近,我在重新表示低维空间数据的绘图中看到了这种现象(即对应分析和因子分析)。 “梯度”将更广泛地对应于什么(即在非生态环境中)? 如果您的数据发生这种情况,这是“问题”(“严重问题”)吗?为了什么? 在马蹄形拱门出现的地方应该如何解释输出? 是否需要采取补救措施?什么?原始数据的转换会有所帮助吗?如果数据是序数等级怎么办? 答案可能存在于该站点的其他页面中(例如,对于PCA,CA和DCA)。我一直在努力解决这些问题。但是,这些讨论是用不够熟悉的生态术语和实例进行的,因此很难理解这个问题。

1
解释2D对应分析图
我一直在广泛地搜索互联网...我还没有找到关于如何解释2D对应分析图的非常好的概述。有人可以提供一些建议来解释点之间的距离吗? 也许一个例子会有所帮助,这是我所见过的许多讨论对应分析的网站上的图表。红色三角形代表眼睛的颜色,黑色点代表头发的颜色。 查看上图,您能否对在这些数据中看到的内容做一些陈述。关于三角形和点之间的不同尺寸和关系的兴趣点? 行点对列点的解释,特别是在示例中使用单词“ profile”将很有帮助。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
在生态学中使用什么标准将变量分为解释变量和排序方法的响应?
我有在人群中相互作用的不同变量。基本上,我一直在盘点千足虫,并测量其他一些地形值,例如: 标本的种类和数量 动物所在的不同环境 pH值 有机物百分比 磷,钾,镁,钙,锰,铁,锌,铜的含量 Ca + Mg / K关系 基本上,我想使用PCA来确定哪些变量驱动样本的可变性并使森林(环境)有所不同。我应该为“变量”使用哪些变量,为“个人”使用哪些变量?

1
使用主成分分析与对应分析
我正在分析有关潮间带群落的数据集。数据是四方类动物(海藻,藤壶,贻贝等)的覆盖百分比。我习惯于根据物种计数来考虑对应分析(CA),而将主成分分析(PCA)视为对线性环境(而非物种)趋势更有用的方法。我真的没有运气来确定PCA或CA是否更适合百分比覆盖率(找不到任何论文),而且我什至不确定如何将封顶为100%的内容分发出去? 我熟悉粗略的指导原则,即如果第一个去趋势对应分析(DCA)轴的长度大于2,则可以放心地假定应该使用CA。DCA轴1的长度为2.17,这对我没有帮助。

1
离散数据和PCA的替代方案
我有一个离散的数据集(常规,特征和名义),这些变量描述了几种紧密相关的昆虫的形态翅膀特征。我要做的是进行某种分析,以便根据形态特征直观地呈现不同物种的相似性。首先出现在我脑海中的是PCA(这是我要创建的可视化类型),但是在研究之后(尤其是其他问题,例如:主成分分析可以应用于包含连续数据的混合数据集吗?和分类变量?),似乎PCA可能不适用于离散数据(文献中这些类型的研究中使用了PCA,但始终使用连续数据)。忽略了为什么该数据不合适的统计背景,PCA确实在我的生物学问题上给了我相对完美的结果(感兴趣的杂交人群恰好位于其父辈群体的中间)。 我还尝试了多种对应关系分析以安抚统计数据(至少就我的理解而言),但是我似乎无法获得与PCA相似的图,其中我的观察值(生物学个体)用颜色分开表示不同的分组(不同的物种,从生物学上来说)。似乎该分析旨在描述变量(在这里是我的形态特征)如何相互关联,而不是各个观察结果之间的关联。当我按组对观察结果进行绘制时,我只能得到描述整个个体的单个值(也许是平均值)。我已经在R中完成了分析,所以也许我还不够R精明,无法使我对工作情节有所了解。 我对数据进行这种分析是否正确,还是偏离轨道?如果您无法判断,我的统计专业知识是有限的,因此在这些分析下发生的方程式一直困扰着我。我正在尝试完全描述性地进行此分析(我不再需要进行任何下游数字运算),并且我已经读到,如果是这种情况,PCA就足够了,但是想确保我不会违反了太多的统计假设。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.