Questions tagged «ancova»

协方差分析。这实际上是多元线性回归的一种特殊情况,用于类似于ANOVA的设置中,除了分类变量外,还具有一些连续的协变量。

5
分析前后治疗控制设计的最佳实践
想象以下通用设计: 将100名参与者随机分配至治疗组或对照组 因变量是数字的,并且在处理前后进行了测量 分析此类数据的三个显而易见的选择是: 在混合方差分析中通过时间交互作用测试组 做一个ANCOVA,条件为IV,前测为协变量,后测为DV 做一个t检验,条件为IV,事前变更分数为DV 题: 分析此类数据的最佳方法是什么? 是否有理由倾向于一种方法而不是另一种方法?

2
多元回归如何真正“控制”协变量?
我们都熟悉观察性研究,这些研究试图通过在多元回归模型中包含所有可能的潜在混杂因素,在非随机预测变量X和结果之间建立因果关系。该论点认为,通过“控制”所有混杂因素,我们可以分离出感兴趣的预测变量的影响。 我对这个想法越来越感到不适,主要是根据我的统计课程的各个教授的副言。它们分为几个主要类别: 1.您只能控制您认为和测量的协变量。 这是显而易见的,但是我想知道它是否真的是所有最有害和不可克服的。 2.这种做法在过去导致了丑陋的错误。 例如,Petitti&Freedman(2005)讨论了数十年经过统计学调整的观察性研究如何得出关于激素替代疗法对心脏病风险的影响的灾难性错误结论。后来的RCT发现了几乎相反的效果。 3.当您控制协变量时,预测结果与结果之间的关系可能会表现得很奇怪。 Tu Yu-Kang Tu,Gunnell和Gilthorpe(2008) 讨论了一些不同的表现形式,包括Lord悖论,Simpson悖论和抑制变量。 4.单一模型(多元回归)很难充分调整协变量并同时对预测结果关系建模。 我听说这是因为倾向得分和对混杂因素进行分层等方法具有优越性的原因,但是我不确定我是否真的理解。 5. ANCOVA模型要求相关的协变量和预测变量是独立的。 当然,我们会精确地调整混杂因素,因为它们与感兴趣的预测因素相关联,因此,看起来该模型在我们最想要的确切实例中不会成功。有观点认为,调整仅适用于随机试验中的降噪。Miller&Chapman,2001年作了很好的评论。 所以我的问题是: 这些问题和我可能不知道的其他问题有多严重? 当我看到一项研究“控制一切”时,我应该有多害怕? (我希望这个问题不会在讨论中冒出太大的麻烦,并乐意邀请任何改进它的建议。) 编辑:我找到新参考文献后添加了第5点。

4
创建模型时,是否应保留“没有统计学意义的协变量”?
我在模型的计算中有几个协变量,但并不是所有协变量都具有统计学意义。我应该删除那些不是吗? 这个问题讨论了这种现象,但没有回答我的问题: 如何解释ANCOVA中协变量的非显着影响? 但是,该问题的答案中没有任何内容建议删除不重要的协变量,因此,现在我倾向于认为它们应该保留。即使在阅读该答案之前,我也想过,因为协变量仍然可以解释某些方差(从而有助于模型),而不必解释超出某个阈值(显着性阈值,我认为不适用于协变量)的数量。 在CV上还有另一个问题,对于这个问题的答案似乎暗示着应将协变量保持在无关紧要的位置,但是对此尚不清楚。(我想链接到该问题,但是我暂时无法再次找到它。) 因此...模型计算中是否应保留未显示统计显着性的协变量?(我已经编辑了这个问题,以阐明无论如何计算都不会在模型输出中显示协变量。) 为了增加复杂性,如果协变量对于数据的某些子集(必须单独处理的子集)在统计上有意义,该怎么办。我将默认保留这样的协变量,否则在其中一种情况下,要么必须使用不同的模型,要么在统计上缺少重要的协变量。但是,如果您也对此拆分案有答案,请提及它。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

6
了解ANOVA和ANCOVA的好资源?
我正在进行论文实验,并且正在寻找一本有趣的书/网站以正确了解ANOVA和ANCOVA的工作方式。我有很好的数学背景,所以我不一定需要粗俗的解释。 我还想知道如何确定何时使用ANOVA代替ANCOVA。

3
什么时候应该使用带有虚拟编码的多元回归与ANCOVA?
我最近分析了一个使用ANCOVA操纵2个类别变量和1个连续变量的实验。但是,一位审阅者建议,将分类变量编码为虚拟变量的多元回归是对分类变量和连续变量进行实验的更合适的测试。 什么时候使用带有虚拟变量的ANCOVA与多元回归比较合适?在两次测试之间进行选择时应考虑哪些因素? 谢谢。

4
需要受治疗影响的协变量的良好数据示例
我查看了很多R数据集,DASL中的发布以及其他地方,但没有找到很多有趣的数据集的很好的例子来说明实验数据的协方差分析。在统计教科书中有许多“玩具”数据集,其中包含人为的数据。 我想举一个例子: 数据是真实的,有一个有趣的故事 至少有一个治疗因素和两个协变量 至少一个协变量受一种或多种治疗因素的影响,而一个不受治疗的影响。 实验性而非观察性,最好 背景 我的真正目标是找到一个很好的例子,将我的R包放入小插图中。但是更大的目标是,人们需要看到良好的例子来说明协方差分析中的一些重要问题。考虑以下组合方案(请理解,我的农业知识充其量只是肤浅的)。 我们进行了一项实验,其中将肥料随机分配给田地,并种植了农作物。经过适当的生育期后,我们收获农作物并测量一些质量特征-这就是响应变量。但是,我们还记录了生长期的总降雨量,以及收获时的土壤酸度,当然还记录了使用的肥料。因此,我们有两个协变量和一个处理。 分析结果数据的常用方法是将处理作为一个因素拟合线性模型,并对协变量进行累加效应。然后总结一下结果,在平均降雨量和3平均土壤酸度下,计算“调整均值”(AKA最小二乘均值),这是每种肥料模型预测的结果。这使一切都处于平等地位,因为当我们比较这些结果时,我们将降雨量和酸度保持恒定。 但这可能是错误的做法-因为肥料可能会影响土壤酸度以及反应。这会使调整后的方法产生误导,因为处理效果包括其对酸度的影响。解决此问题的一种方法是将酸度从模型中剔除,然后通过降雨调整后的方法进行公平的比较。但是,如果酸度很重要,那么这种公平性将付出巨大代价,这会增加残留变化。 有多种方法可以解决此问题,方法是在模型中使用调整后的酸度版本而不是其原始值。我的R软件包lsmeans即将更新,这将使这一切变得容易。但是我想有一个很好的例子来说明这一点。我将非常感谢并适当感谢任何能将我引向一些出色的说明性数据集的人。

4
如何在R中执行ANCOVA
我想对有关植物附生植物密度的数据进行ANCOVA分析。首先,我想知道两个坡度(一个N和一个S)之间的植物密度是否存在任何差异,但是我还有其他数据,例如海拔,冠层开放度和寄主植物的高度。我知道我的协变量必须是两个斜率(N和S)。我建立了在R中运行的模型,尽管我不知道它是否运行良好。我也想知道如果使用符号+或会有什么区别*。 model1 <- aov(density~slope+altitude+canopy+height) summary(model1) model1
17 r  ancova 

1
在设计的实验中,如何在ANOVA和ANCOVA之间进行选择?
我正在进行以下实验: DV:切片消耗(连续或分类) IV:健康消息,不健康消息,无消息(对照)(在其中随机分配了3个组的人员-分类)这是有关切片的健康性的可操纵消息。 以下IV可被视为个体差异变量: 冲动性(可以是分类的,即高与低或连续的,并通过标尺进行测量) 甜味偏爱(这也是通过问卷调查来衡量的,每个问题有3种选择) BMI-将对参与者进行相应的称重(也可以视为绝对或连续)。 由于将各组随机分配到3个组中的一个,因此我假设我正在进行某种ANOVA,并且可能会使用阶乘ANOVA,因为我对哪种IV对DV的影响最大,而且IV之间的相互作用也很感兴趣(如研究所示)某些组合之间存在关系。 但是由于需要知道IV最好是分类的,连续的还是混合的,我对此并不完全确定。 还是ANCOVA是一种可能性甚至是回归,但我不确定,因为将他们分配到了各个小组,然后根据他们对调查的回答进行了分类。 我希望这是有道理的,并希望能收到某人的询问。

1
广义线性模型的假设
我制作了一个具有单个响应变量(连续/正态分布)和4个解释变量(其中3个是因子,第四个是整数)的广义线性模型。我使用了具有身份链接功能的高斯误差分布。我目前正在检查模型是否满足广义线性模型的假设,即: Y的独立性 正确的链接功能 解释变量的正确计量范围 没有影响力的观察 我的问题是:如何检查模型是否满足这些假设?最好的起点似乎是针对每个解释变量绘制响应变量。但是,有3个解释变量是分类的(具有1-4个级别),那么在图中我应该寻找什么? 另外,我是否需要检查解释变量之间的多重共线性和相互作用?如果是,我该如何使用分类解释变量?

4
ANCOVA中的事后测试
问题: 在对协变量的影响进行调整之后,有什么好的方法可以进行事后检验组均值之间的差异? 典型示例: 四组,每组30名参与者(例如,四个不同的临床心理学人群) 因变量是数字(例如,智力得分) 协变量是数字(例如,社会经济地位指数) 研究问题涉及在控制协变量之后,任何一对组在因变量上是否存在显着差异 相关问题: 首选方法是什么? R中有哪些可用的实现? 关于协变量如何更改事后检验程序,是否有任何一般性参考?

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
在同一个数据集上运行两个线性模型是否可以接受?
对于具有多个组(先验定义的自然组)的线性回归,是否可以在同一数据集上运行两个不同的模型来回答以下两个问题? 每个组是否具有非零的斜率和非零的截距,并且组回归中每个参数的参数是什么? 无论组成员身份如何,是否存在非零趋势和非零截距,并且跨组回归的参数有哪些? 在R中,第一个模型为lm(y ~ group + x:group - 1),因此估计的系数可以直接解释为每个组的截距和斜率lm(y ~ x + 1)。 备选方案将是lm(y ~ x + group + x:group + 1),这将导致复杂的系数汇总表,并且必须根据组中的斜率和截距来计算系数和截距,而斜率和截距必须来自某个参考。另外,您还必须重新排序组并再次运行模型,以获取最后一个组差异的p值(有时)。 这是否使用两个单独的模型以任何方式或这种标准惯例对推理产生了负面影响? 为了说明这一点,将x表示为药物剂量,将各组视为不同的种族。了解特定种族的医生的剂量反应关系可能很有趣,或者根本不知道药物对哪个种族起作用,但是有时了解整个(人类)人群的剂量反应关系也可能很有趣。不管竞选公共卫生官员。这只是一个例子,说明人们可能对组内和组间回归分别感兴趣。剂量反应关系是否应为线性并不重要。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.