Questions tagged «multivariate-analysis»

分析一次同时分析多个变量的地方,这些变量要么是因变量(响应),要么是分析中唯一的变量。这可以与“多个”或“多变量”分析形成对比,后者暗示了多个预测变量(独立变量)。


13
在多元数据中识别异常值的最佳方法是什么?
假设我有一组包含至少三个变量的多变量数据。如何找到异常值?成对散点图将不起作用,因为离群值可能存在于3维中,而不是任何二维子空间中的离群值。 我不是在考虑回归问题,而是真正的多元数据。因此,涉及稳健回归或计算杠杆的答案无济于事。 一种可能是计算主成分分数,并在前两个分数的双变量散点图中寻找离群值。这样可以保证工作吗?有更好的方法吗?


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
R中的多元多元回归
我有2个因变量(DV),每个因变量的得分可能受7个独立变量(IV)的影响。DV是连续的,而IV则由连续变量和二进制编码变量组成。(在下面的代码中,连续变量用大写字母写,二进制变量用小写字母写。) 该研究的目的是揭示IV变量如何影响这些DV。我提出了以下多元多元回归(MMR)模型: my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) 为了解释结果,我调用两个语句: summary(manova(my.model)) Manova(my.model) 这两个调用的输出都粘贴在下面,并且有很大的不同。有人可以解释一下应该适当选择总结MMR结果的两种说法中的哪一种吗?为什么?任何建议将不胜感激。 使用using的输出summary(manova(my.model)): > summary(manova(my.model)) Df Pillai approx F num Df den Df Pr(>F) c 1 0.105295 5.8255 2 99 0.004057 ** d 1 0.085131 4.6061 2 99 …


5
在多元回归中为多个比较调整p值是一个好主意吗?
假设您是一名社会科学研究员/计量经济学家,试图找到有关服务需求的相关预测因子。您有2个描述需求的结果/因变量(使用服务“是/否”和次数)。您有10个预测变量/独立变量,可以从理论上解释需求(例如,年龄,性别,收入,价格,种族等)。运行两个单独的多元回归将得出20个系数估计及其p值。如果回归中有足够的自变量,您迟早会发现至少一个在因变量和自变量之间具有统计显着相关性的变量。 我的问题是:如果我想在回归中包括所有自变量,则为多个测试校正p值是一个好主意吗?非常感谢对以前工作的任何引用。

3
条件高斯分布背后的直觉是什么?
假设X〜 Ñ2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})。然后,给定X 2 = x 2的的条件分布是均值的多元正态分布:X1个X1X_1X2= x2X2=x2X_2 = x_2 Ë[ P(X1个| X2= x2)] = μ1个+ σ12σ22(x2- μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) 和方差:V 一- [R [P(X1个| X2= x2)] = σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} 由于我们拥有更多信息,因此方差会减小是有道理的。但是平均公式背后的直觉是什么?X1X1X_1和之间的协方差如何X2X2X_2影响条件均值?

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
倾向得分与在回归中添加协变量相比有何不同?何时优先选择后者?
我承认我在倾向得分和因果分析方面还比较陌生。 作为一个新手,对我而言不明显的一件事是,使用倾向得分的“平衡”在数学上与在回归中添加协变量时发生了什么变化?该操作有何不同,为什么它(或它)比在回归中添加子群体协变量更好? 我看过一些对这些方法进行实证比较的研究,但是我没有看到关于这两种方法的数学性质的很好的讨论,为什么PSM却不适合因果关系而又不包括回归协变量。在这个领域似乎也有很多困惑和争议,这使得事情变得更加难以掌握。 对这个问题有什么想法,或者有什么好的资源/论文可以更好地理解两者之间的区别?(我正在慢慢浏览Judea Pearl的因果关系书,因此无需指出这一点)

1
PCA和对应关系分析与Biplot的关系
Biplot通常用于显示主成分分析(和相关技术)的结果。它是一个双散点图或叠加散点图,同时显示了组件负荷和组件分数。今天,@ amoeba通知我,他给出的答案与我的评论不符,而是一个问题,询问如何生成/缩放Biplot坐标;他的回答更详细地考虑了几种方式。@amoeba询问我是否愿意与biplot分享我的经验。 我的经验(无论是理论上还是实验上的经验),尽管非常谦虚,但都突出了两点,但这两点很少得到人们的认可:(1)应将Biplot归类为分析技术,而不是辅助散点图;(2)PCA,对应分析(以及其他一些众所周知的技术)实际上是双图的特殊情况。或者至少,他们俩几乎都是双胞胎。如果可以做双图,则可以做另外两个。 我对您的问题是:它们(PCA,CA,Biplot)如何为您连接?请分享您的想法。同时,我正在发布自己的帐户。我想请增加更多答案并发表批评。

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
相关矩阵的SVD应该是可加的,但似乎不是
我只是想复制以下论文中的主张,即从Gene Expression Data中找到相关的Biclusters,即: 命题4.如果。那么我们有:XIJ=RICTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} 一世。如果是具有加性模型的理想双齐群,则X I J是在列上具有相关性的理想双齐群; ii。如果C J是带加性模型的理想双齐群,则X I J是行相关的理想双齐群。 iii。如果R I和C J都是具有加性模型的理想双齐群,则X I J是理想的相关双齐群。RIRIR_{I}XIJXIJX_{IJ}CJCJC_JXIJXIJX_{IJ}RIRIR_ICJCJC_JXIJXIJX_{IJ} 这些主张很容易得到证明。 ...但是,当然,他们没有证明这一点。 我使用论文中的一些简单示例以及基本代码+自定义R代码来查看我是否可以演示该建议。 corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (来自表1F) 一些自定义代码,可以将标准X = svd形式转换为X = R C T,如本文所述:üdVŤüdVŤUdV^TX= R CŤX=[RCŤX=RC^{T} svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) { #convert standard SVD decomposed matrices UEV' …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.