Questions tagged «anova»

ANOVA代表AAnalysis Of VAriance,这是一种统计模型和一组用于比较多个组均值的程序。ANOVA模型中的自变量是分类的,但是ANOVA表也可以用于测试连续变量。

1
方差分析:测试多组正常性的假设,每组样本很少
假定以下情况: 我们有大量(例如20个),小组规模较小(例如n = 3)。我注意到,如果我从均匀分布生成值,则即使误差分布均匀,残差也将看起来近似正态。以下R代码演示了此行为: n.group = 200 n.per.group = 3 x <- runif(n.group * n.per.group) gr <- as.factor(rep(1:n.group, each = n.per.group)) means <- tapply(x, gr, mean) x.res <- x - means[gr] hist(x.res) 如果我查看三个一组的样本的残差,则很明显会出现这种情况: [R1个= x1个− 平均值(x 1 ,x 2 ,x 3 )= x 1 − x1个+ x2+ x33= 23X1个− x2− …

2
偏离ANOVA中的正态性假设:峰度或偏度更重要吗?
Kutner等人应用线性统计模型。陈述了以下有关偏离ANOVA模型正态性假设的内容:就推断的影响而言,误差分布的峰度(比正态分布或多或少达到峰值)比分布的偏度更为重要。 我对此声明感到有点困惑,并且没有在书中或在线上找到任何相关信息。我很困惑,因为我还了解到,尾巴较重的QQ曲线表明线性回归模型的正态性假设“足够好”,而偏斜的QQ曲线则更受关注(即,进行转换可能会合适) 。 我是否对ANOVA进行同样的推理,并且对单词的选择(就推理的影响而言更重要)选择得很差,是否正确?也就是说,偏斜的分布会产生更严重的后果,应避免,而少量峰度是可以接受的。 编辑:正如rolando2所说,很难说一个在所有情况下都比另一个更重要,但是我只是在寻找一些一般的见识。我的主要问题是,我被告知,在简单的线性回归中,尾巴较重(=峰度?)的QQ曲线是可以的,因为F检验对此非常有力。另一方面,倾斜的QQ曲线(抛物线形)通常是一个更大的问题。尽管ANOVA模型可以转换为回归模型,并且应该具有相同的假设,但这似乎与我的教科书为ANOVA提供的指导方针直接背道而驰。 我确信我忽略了某件事,或者我有一个错误的假设,但是我无法弄清楚这可能是什么。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


2
线性回归中t检验和方差分析之间的差异
我想知道线性回归中t检验和ANOVA之间有什么区别? 是t检验来检验任何一个斜率和截距是否均值为零,而方差分析是用来检验所有斜率是否均均值为零吗?这是它们之间的唯一区别吗? 在简单的线性回归中,即只有一个预测变量的情况下,只有一个斜率可以估计。那么,t检验和ANOVA是否等效?如果是的话,假设它们使用不同的统计量(t检验使用t统计量,而ANOVA则使用F统计量),怎么做?

2
如何为使用汽车的重复测量方差分析指定特定的对比?
我正在尝试在R中运行重复测量Anova,然后对该数据集进行一些特定的对比。我认为正确的方法是 Anova()从汽车包装中使用。 让我们用?Anova使用 OBrienKaiser数据的示例来说明我的问题(注意:我省略了示例中的性别因素): 我们设计了一个在受试者因素,治疗之间(3个级别:对照,A,B)和两个重复的因素-测量(在受试者内)因素,阶段(3个级别:测试前,测试后,随访)和小时(5个级别:1至5)。 标准ANOVA表的给出方式为(与example(Anova)不同,我切换到Type 3 Squares of Squares,这是我的领域想要的): require(car) phase <- factor(rep(c("pretest", "posttest", "followup"), c(5, 5, 5)), levels=c("pretest", "posttest", "followup")) hour <- ordered(rep(1:5, 3)) idata <- data.frame(phase, hour) mod.ok <- lm(cbind(pre.1, pre.2, pre.3, pre.4, pre.5, post.1, post.2, post.3, post.4, post.5, fup.1, fup.2, fup.3, fup.4, fup.5) ~ treatment, data=OBrienKaiser) …

2
剖分方差分析:R中的模型比较测试
如何使用R中的X和M参数使用合适的模型比较来测试分割图方差分析中的效果anova.mlm()?我熟悉?anova.mlmDalgaard(2007)[1]。不幸的是,它只能刷分割图设计。在具有两个受试者内部因素的完全随机设计中进行此操作: N <- 20 # 20 subjects total P <- 3 # levels within-factor 1 Q <- 3 # levels within-factor 2 DV <- matrix(rnorm(N* P*Q), ncol=P*Q) # random data in wide format id <- expand.grid(IVw1=gl(P, 1), IVw2=gl(Q, 1)) # intra-subjects layout of data matrix library(car) # for Anova() fitA …

4
ANOVA比较多个组的平均值与ANOVA比较嵌套模型之间有什么关系?
到目前为止,我已经看到ANOVA以两种方式使用: 首先,在我的介绍性统计文本中,引入了ANOVA作为比较三个或更多组均值的一种方法,是对成对比较的改进,目的是确定一种均值是否具有统计学上的显着差异。 第二,在我的统计学习课文中,我已经看到ANOVA用于比较两个(或多个)嵌套模型,以确定使用模型2预测变量子集的模型1是否同样适合数据,或者是否完整模型2是上乘的。 现在,我认为这两者在某种程度上实际上是非常相似的,因为它们都在使用ANOVA测试,但是从表面上看,它们对我来说似乎完全不同。对于第一个方法,第一个用法比较三个或更多组,而第二个方法只能用于比较两个模型。有人请介意阐明这两种用途之间的联系吗?

2
为什么这些回归方差分析表相同?
我有两个相同Y的回归和三个级别的X。总体n = 15,X的每个组或级别中的n = 5。第一个回归将X视为分类,将指标变量分配给级别2和3一个作为参考。指示器/虚拟对象如下:如果级别= 2,则X1 = 1;否则,则为0;如果级别= 3,则X2 = 1;否则,则为0。 结果,我的拟合模型看起来像这样:y = b0 + b1(x1)+ b2(x2) 我运行回归,并且输出包括此方差分析表: 其余输出与此处无关。 好吧,现在我对相同的数据进行不同的回归。我放弃分类分析并将X视为连续的,但是我向方程式中添加了一个变量:X ^ 2,即X的平方。因此,现在我具有以下模型:y = b0 + b1(X)+ b2(X) ^ 2 如果我运行它,它将吐出与我上面显示的完全相同的方差分析表。为什么这两个回归会产生相同的表? [这个小难题的贷方是加利福尼亚大学洛杉矶分校生物统计学系的托马斯·贝林。
11 regression  anova 

2
阅读箱须图:是否可以收集组之间的显着差异?
假设我们正在查看这个箱须图: 在周四和周五之间,我认为大多数人都会同意,睡眠时间似乎有很大差异。但是,这是一个统计上有效的猜想吗?由于周四和周五之间两个四分位数的范围都没有重叠,我们能否辨别出显着差异?星期四和星期五的上下晶须重叠的事实又如何呢?这会影响我们的分析吗? 通常伴随这样的图表是某种方差分析,但我很好奇,仅通过查看箱线图我们能说出多少组之间的差异。


2
巴特利特测试vs莱文测试
我目前正在尝试解决违反方差分析假设的问题。我曾用Shapiro-Wilk检验正态性,并涉猎了Levene检验和Bartlett检验方差相等。从那以后,我用对数转换了我的数据,以尝试纠正不平等的差异。我对经过对数转换的数据重新进行了Bartlett检验,但仍然收到了显着的p值,出于好奇,我也进行了Levene检验,得到了不重要的p值。我应该依靠哪个测试?

2
MANOVA的原假设是什么?
背景 为了分析不同组之间某个连续变量之间的差异(由类别变量给出),可以执行单向方差分析。如果存在多个解释性(分类)变量,则可以执行阶乘方差分析。如果要分析几个连续变量(即几个响应变量)之间的差异,则必须执行多元ANOVA(MANOVA)。 题 我几乎不了解如何对多个响应变量执行类似于ANOVA的测试,更重要的是,我不了解原假设是什么。是原假设: “对于每个响应变量,所有组的均值均相等”, 还是 “对于至少一个响应变量,所有组的均值相等”, 还是还有其他东西?H0H0H_0

2
什么是lme4 :: lmer等同于三向重复测量方差分析?
我的问题基于此回答,该回答表明哪个lme4::lmer模型对应于两次重复测量方差分析: require(lme4) set.seed(1234) d <- data.frame( y = rnorm(96), subject = factor(rep(1:12, 4)), a = factor(rep(1:2, each=24)), b = factor(rep(rep(1:2, each=12))), c = factor(rep(rep(1:2, each=48)))) # standard two-way repeated measures ANOVA: summary(aov(y~a*b+Error(subject/(a*b)), d[d$c == "1",])) # corresponding lmer call: anova(lmer(y ~ a*b+(1|subject) + (1|a:subject) + (1|b:subject), d[d$c == "1",])) 我现在的问题是如何将其扩展到三向方差分析的情况: …

2
t检验和单向方差分析是否都是Wald检验?
通过用费希尔在样本均值处的正态分布信息估算样本均值的标准偏差,可以将用于检验正态分布样本均值是否等于常数的t检验称为Wald检验。但是t检验中的检验统计量具有学生t分布,而Wald检验中的检验统计量渐近具有卡方分布。我想知道如何解释吗? 在单向方差分析中,检验统计量定义为类间差异与类内差异之间的比率。我想知道这是否也是Wald测试?但是单向方差分析中的检验统计量具有F分布,而Wald检验中的检验统计量渐近地具有卡方分布。我想知道如何解释吗? 感谢致敬!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.