Questions tagged «multivariate-analysis»

分析一次同时分析多个变量的地方,这些变量要么是因变量(响应),要么是分析中唯一的变量。这可以与“多个”或“多变量”分析形成对比,后者暗示了多个预测变量(独立变量)。

4
如何进行多元机器学习?(预测多个因变量)
我希望预测某人会购买的物品组...即,我有多个共线性因变量。 我不应该建立7个左右的独立模型来预测某人购买这7个项目中的每一个的概率,然后结合结果,而是应该采用什么方法来建立一个模型来说明7个相关的因变量之间的关系(他们可以购买的东西)。 我将R用作编程语言,因此请特别感谢R的任何建议。

1
使用主成分分析与对应分析
我正在分析有关潮间带群落的数据集。数据是四方类动物(海藻,藤壶,贻贝等)的覆盖百分比。我习惯于根据物种计数来考虑对应分析(CA),而将主成分分析(PCA)视为对线性环境(而非物种)趋势更有用的方法。我真的没有运气来确定PCA或CA是否更适合百分比覆盖率(找不到任何论文),而且我什至不确定如何将封顶为100%的内容分发出去? 我熟悉粗略的指导原则,即如果第一个去趋势对应分析(DCA)轴的长度大于2,则可以放心地假定应该使用CA。DCA轴1的长度为2.17,这对我没有帮助。



1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


4
减少多元回归中的变量数量
我有一个庞大的数据集,其中包含数百个金融变量的值,这些变量可以用于多元回归,以预测指数基金随时间的行为。我想将变量的数量减少到十个左右,同时仍保留尽可能多的预测能力。 补充:减少的变量集必须是原始变量集的子集,以保留原始变量的经济意义。因此,例如,我不应该以原始变量的线性组合或聚合结局。 有关如何执行此操作的一些想法(可能是幼稚的): 对每个变量执行简单的线性回归,然后选择具有最大值的十个变量。当然,不能保证十个最佳个体变量的组合将是十个最佳组。R2R2R^2 执行主成分分析,并尝试查找与前几个主轴关联最大的十个原始变量。 我认为我不能执行分层回归,因为变量不是真正嵌套的。尝试使用十个变量的所有可能组合在计算上是不可行的,因为组合太多。 是否有标准方法来解决减少多元回归中变量数量的问题? 似乎这将是一个足够普遍的问题,因此将存在一种标准方法。 一个非常有用的答案将是不仅提及标准方法,而且概述其工作方式和原因。或者,如果没有一种标准的方法,而是多种方法各有优缺点,那么讨论其优缺点的答案将非常有用。 Whuber在下面的评论表明,最后一段中的要求太宽泛。相反,我会接受一个主要方法列表作为一个好的答案,也许对每个方法都有一个非常简短的描述。一旦有了条款,我就可以挖掘每个人的详细信息。

1
如何为频率差异很大的点过程构造四边形?
我想对几个点过程(或一个标记点​​过程)执行平方计数分析,然后应用一些降维技术。 这些标记分布不均,即某些标记经常出现,而有些则很少。因此,我不能简单地将2D空间划分为规则的网格,因为频率较高的标记将“淹没”频率较低的标记,从而掩盖了它们的外观。 因此,我尝试构建网格,以使每个像元中最多包含N个点(为此,我将每个像元简单地递归地划分为四个较小(大小相同)的像元,直到每个像元中不超过N个点为止。它)。 您如何看待这种“规范化”技术?有没有做这种事情的标准方法?

2
如何找到不同类型事件之间的关系(由事件的2D位置定义)?
我有同一时间段内发生的事件的数据集。每个事件都有一个类型(很少有不同类型,少于十个)和一个位置,以2D点表示。 我想检查事件类型之间或类型与位置之间是否存在任何关联。例如,也许类型A的事件通常不会发生,而类型B的事件却不会发生。也许在某些地区,大多数是C型事件。 我可以使用哪种工具来执行此操作?作为统计分析的新手,我的第一个想法是在此数据集上使用某种PCA(主成分分析),以查看每种类型的事件是否具有自己的成分,或者某些事件是否共享相同的成分(即相关的成分)? 我不得不提到,我的数据集约为500'000点,因此使处理起来有些困难。(x ,y,吨ÿp ë )(x,y,type)(x, y, type) 编辑:如下面的答案和评论中所述,方法是将此模型建模为标记点过程,然后使用R来完成所有繁重的工作,如本研讨会报告中的详细说明:http:// /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.