Questions tagged «anova»

ANOVA代表AAnalysis Of VAriance,这是一种统计模型和一组用于比较多个组均值的程序。ANOVA模型中的自变量是分类的,但是ANOVA表也可以用于测试连续变量。

2
双向方差分析是否合适?
这是我的研究的描述。我正在试验三种植物:A,B和C。这些植物被认为可以降低糖尿病患者的血糖。我想确定这三种植物中的哪一种对小鼠单次给药后对降低血糖的影响更长。这是通过在7个时间点(第1、2、3、5、7、10和14天)测量小鼠的血糖来完成的。因此,有4组(未处理,A处理,B处理和C处理)。对于每组,使用3只小鼠(n = 3)。我的目标是: 为了确定每种植物处理的效果与未处理相比是否显着。 比较各组之间每天的效果。 为了确定哪个治疗组在14天后效果最长。 我的解决方案是使用双向ANOVA,因为有两个以上的组,并且我想每天比较各组,最后比较总体效果。 这是正确的方法吗?我能否排名第二和第三最好的工厂?还是应该使用时间序列分析?

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

1
如何在R中的重复测量方差分析中编写误差项:误差(主题)vs误差(主题/时间)
我的问题与先前的帖子非常相关,该帖子 在R中的重复度量ANOVA中指定Error()项。但是,我想对如何定义错误项有更多的了解。 假设我有一个双向重复方差分析,组效应之间的因素是治疗(对照组与安慰剂),而时间是组内效应的4倍以上(T1〜T4)。患者ID被记录为“主题”。在这里,我从http://gjkerns.github.io/R/2012/01/20/power-sample-size.html中的教程示例中借用了数据, 因此数据看起来像这样 Time Subject Method NDI 0min 1 Treat 51.01078 15min 1 Treat 47.12314 48hrs 1 Treat 26.63542 96hrs 1 Treat 20.78196 0min 2 Treat 42.61345 15min 2 Treat 32.77171 要应用方差分析: aovComp <- aov(NDI ~ Time*Method + Error(Subject/Time), theData) summary(aovComp) Error: Subject Df Sum Sq Mean Sq F …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
如何解释这些自定义对比?
我正在使用自定义对比度进行单因素方差分析(每个物种)。 [,1] [,2] [,3] [,4] 0.5 -1 0 0 0 5 1 -1 0 0 12.5 0 1 -1 0 25 0 0 1 -1 50 0 0 0 1 我将强度0.5与5、5与12.5进行比较,依此类推。这些是我正在处理的数据 具有以下结果 Generalized least squares fit by REML Model: dark ~ intensity Data: skofijski.diurnal[skofijski.diurnal$species == "niphargus", ] AIC BIC logLik …

2
对于三向重复测量方差分析,什么是有效的事后分析?
我已经执行了三向重复测量方差分析;事后分析有效吗? 这是一个完全平衡的设计(2x2x2),其中一个因素具有重复进行内部测量的功能。我知道R中重复测量ANOVA的多变量方法,但是我的第一个直觉是继续进行ANOVA的简单aov()风格: aov.repeated <- aov(DV ~ IV1 * IV2 * Time + Error(Subject/Time), data=data) DV =响应变量 IV1 =自变量1(2个级别,A或B) IV2 =自变量2(2个级别,是或否) IV3 =时间(2级,之前或之后) 主题=主题ID(总共40个主题,每个IV1级别20个:nA = 20,nB = 20) summary(aov.repeated) Error: Subject Df Sum Sq Mean Sq F value Pr(>F) IV1 1 5969 5968.5 4.1302 0.049553 * IV2 1 3445 3445.3 2.3842 …


1
方差分析回答什么问题?
我想学习方差分析。在我开始学习算法如何工作(必须进行哪些计算)以及为什么工作之前,我首先想知道我们使用ANOVA实际解决了什么问题,或者我们试图回答什么问题。换句话说:算法的输入是什么,输出是什么? 我确实了解我们用作输入的内容。我们有一组数字。每个数字都带有一个或多个分类变量(也称为“因子”)的值。例如: +------------+------------+-------+ | factor 1 | factor 2 | value | +------------+------------+-------+ | "A" | "a" | 1.0 | | "A" | "a" | 2.4 | | "A" | "b" | 0.3 | | "A" | "b" | 7.4 | | "B" | "a" | 1.2 | | "B" …
10 anova 

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
在R中的重复测量方差分析中指定Error()项
我在定义R中的双向重复测量方差分析的误差项时遇到问题。我的数据包括沿从树中提取的芯线的三个径向位​​置(内部,中间和外部)的木材密度估计。一共有20种树,每种树有6个个体,每个树有两个核心。 为了测试径向位置对木材密度的影响,我使用以下两种方差分析模型,其中的误差项解释了个体之间的差异: radpos.aov <- aov(WD ~ Species*Radialposition + Error(Individual), data=Radpos) 但是,我不确定我对错误术语的说明是否足够。我还应该考虑核心内的可变性吗?对我来说,这种可变性与径向位置是相同的,而径向位置是我感兴趣的主要因素。 尽管我花了一些时间阅读有关在“重复测量ANOVA”中指定错误项的信息,但是在实际指定错误项方面仍然存在问题。我将对此有所帮助。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

5
Ω平方表示R中的作用?
我正在阅读的统计书建议使用Ω平方来衡量实验的效果。我已经使用分割图设计(对象内部和对象间设计的混合)证明了我的对象内部因子具有统计学显着性,p <0.001,F = 17。 现在,我希望看到两者之间的区别有多大...针对R(或python?)的某个地方是否实现了omega平方的实现?痛苦*,我不知道如何用C寻找东西。 谢谢!

3
多次表面接触后手指上的细菌积聚:非正常数据,重复测量,交叉参与者
介绍 我有一些参与者在两种情况下反复接触被大肠杆菌污染的表面(A =戴手套,B =不戴手套)。我想知道戴着和不戴着手套的指尖上的细菌数量之间以及接触数之间是否存在差异。这两个因素都是参与者。 实验方法: 参与者(n = 35)用同一根手指触摸每个方块一次,最多8个接触点(见图a)。 然后,我擦拭参与者的手指,并在每次接触后测量指尖上的细菌。然后,他们用一根新手指触摸不同数量的表面,以此类推,从1到8个触点(见图b)。 这是真实数据:真实数据 该数据是非正态的,因此请参见下面的细菌边际分布| NumberContacts。x =细菌。每个方面都是不同数量的联系人。 模型 根据使用gamma(link =“ log”)和NumberContacts的多项式的变形虫的建议,从lme4 :: glmer尝试: cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant), data=(K,CFU<4E5), family=Gamma(link="log") ) plot(cfug) 注意 Gamma(link =“ inverse”)不会说PIRLS减半未能减少偏差。 结果: cfug的拟合vs残差 qqp(resid(cfug)) 题: 是否正确定义了我的glmer模型,以纳入每个参与者的随机影响以及每个人都同时进行实验A和实验B的事实? 加成: 参与者之间似乎存在自相关。这可能是因为没有在同一天对它们进行测试,并且细菌瓶随着时间的推移而增长和下降。有关系吗? acf(CFU,lag = 35)显示一个参与者与另一个参与者之间的显着相关性。

2
调查人口之间的差异
假设我们有两个样本:A和B。假设这些人口是由个体组成的,我们选择根据特征来描述个体。这些功能中有些是分类的(例如,它们开车上班吗?),有些是数字的(例如,它们的高度)。我们称这些功能为:。我们收集了数百个这样的功能(例如n = 200),为简单起见,我们假设所有个人都没有错误也没有噪音。X1个… XñX1…XnX_1 \ldots X_n 我们假设两个人口是不同的。我们的目标是回答以下两个问题: 它们实际上有很大不同吗? 它们之间有何显着不同? 决策树(例如,随机森林)和线性回归分析等方法可以提供帮助。例如,可以查看随机森林中的要素重要性或线性回归中的拟合系数,以了解可以区分这些类别的要素,并探索要素与种群之间的关系。 在走这条路之前,我想先了解一下我的选择,什么是好做法以及现代与坏做法。请注意,我的目的不是预测本身,而是测试并发现组之间的任何重大差异。 解决该问题的一些原则方法是什么? 这是我的一些担忧: 线性回归分析之类的方法可能无法完全回答(2),对吧?例如,一次拟合可以帮助您找到一些差异,但不是所有明显的差异。例如,多重共线性可能使我们无法找到所有特征在组之间的变化方式(至少在一次拟合中)。出于同样的原因,我希望方差分析也无法提供(2)的完整答案。 尚不清楚预测方法将如何回答(1)。例如,我们应该最小化什么分类/预测损失函数?而且一旦适应后,我们如何测试两组之间是否存在显着差异?最后,我担心我得到的答案(1)可能取决于我使用的特定分类模型集。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.