Questions tagged «anova»

ANOVA代表AAnalysis Of VAriance,这是一种统计模型和一组用于比较多个组均值的程序。ANOVA模型中的自变量是分类的,但是ANOVA表也可以用于测试连续变量。

5
与线性回归相比,为什么将ANOVA当作一种不同的研究方法来教授/使用?
使用适当的虚拟变量,ANOVA等效于线性回归。无论使用ANOVA还是线性回归,结论均保持不变。 鉴于它们的等效性,是否有任何理由使用ANOVA代替线性回归? 注意:我对了解使用ANOVA而不是线性回归的技术原因特别感兴趣。 编辑 这是一个使用单向方差分析的示例。假设您想知道男性和女性的平均身高是否相同。为了检验您的假设,您需要从男性和女性的随机样本(每个样本为30个)中收集数据,并进行ANOVA分析(即,性别和错误的平方和)来确定一种效应是否存在。 您还可以使用线性回归对此进行测试,如下所示: 定义: 如果受访者是男性,则否则为。 其中:Gender=1Gender=1\text{Gender} = 1000Height=Intercept+β∗Gender+errorHeight=Intercept+β∗Gender+error \text{Height} = \text{Intercept} + \beta * \text{Gender} + \text{error} error∼N(0,σ2)error∼N(0,σ2)\text{error}\sim\mathcal N(0,\sigma^2) 然后检验是否等效于您的假设。β=0β=0\beta = 0
91 regression  anova 

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


2
事后测试之前是否需要进行全局测试?
我经常听到,只有在ANOVA本身很重要的情况下,才能使用ANOVA之后的事后测试。 但是,事后测试会调整以使I类全局错误率保持在5%,不是吗?ppp 那么,为什么我们首先需要进行全局测试? 如果我们不需要全局测试,那么“事后”术语是否正确? 还是有多种事后测试,有些假设了重要的整体测试结果,而另一些则没有这种假设?

5
分析前后治疗控制设计的最佳实践
想象以下通用设计: 将100名参与者随机分配至治疗组或对照组 因变量是数字的,并且在处理前后进行了测量 分析此类数据的三个显而易见的选择是: 在混合方差分析中通过时间交互作用测试组 做一个ANCOVA,条件为IV,前测为协变量,后测为DV 做一个t检验,条件为IV,事前变更分数为DV 题: 分析此类数据的最佳方法是什么? 是否有理由倾向于一种方法而不是另一种方法?

3
方差分析假设正态性/残差的正态分布
ANOVA上的Wikipedia页面列出了三个假设,即: 案例独立性–这是简化统计分析模型的假设。 正态性–残差的分布是正态的。 方差的均等(或“同质”),称为均方差... 这里的兴趣点是第二个假设。几个资料来源列出了不同的假设。有人说原始数据是正常的,有人说残差。 弹出几个问题: 残差的正态性和正态分布是否是同一个人(根据Wikipedia条目,我会说正态性是一个属性,并且与残差不直接相关(但可以是残差的属性(括号内的深层嵌套文本,怪异)))? 如果没有,应该采用哪种假设?一?都? 如果正态分布残差的假设是正确的假设,我们是否仅通过检查原始值的直方图的正态性来犯一个严重的错误?

4
为什么方差分析等同于线性回归?
我读到方差分析和线性回归是一回事。考虑到方差分析的输出是一些值和一些值,您将基于该结论得出结论,即样本在不同样本中的均值是相同还是不同。pFFFppp 但是,假设均值不相等(拒绝零假设),则ANOVA不会告诉您有关线性模型系数的任何信息。那么线性回归与ANOVA有何相同?
50 regression  anova 


5
如果两组的t检验和ANOVA相等,为什么它们的假设不相等?
我确定我已经完全把它包裹在头上了,但是我只是想不通。 t检验使用Z分布比较两个正态分布。这就是为什么DATA中存在正常性的原因。 与OLS一样,ANOVA等效于具有虚拟变量的线性回归,并且使用平方和。这就是为什么存在RESIDUALS正常性的假设。 我花了几年的时间,但我认为我终于掌握了这些基本事实。那么为什么t检验等同于两组ANOVA?如果他们甚至不对数据假设相同的东西,怎么能等效呢?

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
如何解释I型,II型和III型ANOVA和MANOVA?
我的主要问题是进行I型(顺序)方差分析时如何解释输出(系数,F,P)? 我的具体研究问题要复杂一些,因此我将把例子分成几部分。首先,如果我对蜘蛛密度(X1)对植物生长(Y1)的影响感兴趣,并且我在围墙内种植了幼苗并控制了蜘蛛密度,那么我可以使用简单的ANOVA或线性回归分析数据。然后,对于ANOVA使用I,II或III平方和(SS)都没关系。就我而言,我有5个密度级别的4个副本,因此可以将密度用作因子或连续变量。在这种情况下,我更喜欢将其解释为连续的独立(预测变量)变量。在RI中可以运行以下命令: lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) 运行方差分析功能对于以后的比较很有希望,因此请在这里忽略它的奇怪之处。输出为: Response: y1 Df Sum Sq Mean Sq F value Pr(>F) density 1 0.48357 0.48357 3.4279 0.08058 . Residuals 18 2.53920 0.14107 现在,让我怀疑我无法控制的土壤中无机氮的起始水平可能也显着影响了植物的生长。我对这种效果并不特别感兴趣,但是想潜在地解释它引起的变化。确实,我的主要兴趣在于蜘蛛密度的影响(假设:蜘蛛密度的增加会导致植物生长的增加-大概是通过减少草食性昆虫引起的,但我只测试这种作用而不是机理)。我可以将无机氮的影响添加到我的分析中。 出于我的问题,让我们假设我测试了交互作用密度* inorganicN,并且它并不重要,因此我将其从分析中删除并运行以下主要效果: > lm2 <- lm(y1 ~ density + inorganicN, data = Ena) > anova(lm2) …

2
使用lmer进行重复测量的线性混合效应模型
编辑2:我本来以为我需要对一个因素进行重复测量的两因素方差分析,但现在我认为线性混合效应模型将对我的数据更好。我想我几乎知道需要做什么,但仍然有些困惑。 我需要分析的实验如下: 将受试者分配到几个治疗组之一 在多天的时间对每个受试者进行测量 所以: 受试者嵌套在治疗中 治疗越过一天 (每个受试者仅被分配一种治疗,并且每天对每个受试者进行测量) 我的数据集包含以下信息: 主题=阻止因素(随机因素) 天=主题或重复测量因子之内(固定因子) 治疗=主观因素之间(固定因素) Obs =测得(因变量) 更新 好,所以我去找统计学家,但他是SAS用户。他认为该模型应为: 治疗+天+受试者(治疗)+天*受试者(治疗) 显然,他的表示法与R语法不同,但是该模型应考虑以下因素: 治疗(固定) 日(固定) 治疗*天互动 受试者嵌套在治疗内(随机) 当天与“治疗中的受试者”交叉(随机) 那么,这是使用正确的语法吗? m4 <- lmer(Obs~Treatment*Day + (1+Treatment/Subject) + (1+Day*Treatment/Subject), mydata) 我特别担心当天与“治疗中的受试者”部分是否正确。是否有任何熟悉SAS的人,或者对他们了解模型中正在发生的事情有信心的人,能够评论我对R语法的可悲尝试是否匹配? 这是我以前建立模型和编写语法的尝试(在答案和评论中讨论): m1 <- lmer(Obs ~ Treatment * Day + (1 | Subject), mydata) 我该如何处理对象嵌套在治疗中的事实?如何m1从不同: m2 <- lmer(Obs …

3
如何解释方差分析中的F值和p值?
我是统计学新手,目前正在与ANOVA合作。我在R中使用A进行ANOVA测试 aov(dependendVar ~ IndependendVar) 除其他外,我得到一个F值和一个p值。 我的原假设()是所有组均值相等。H0H0H_0 关于如何计算F有很多可用信息,但是我不知道如何读取F统计信息以及F和p是如何连接的。 因此,我的问题是: 如何确定拒绝的临界F值?H0H0H_0 每个F是否都有对应的p值,所以它们的含义基本相同吗?(例如,如果,则拒绝)高0p &lt; 0.05p&lt;0.05p<0.05H0H0H_0

1
如何在具有统计意义的和非重要意义的分析中解释和报告eta平方/部分eta平方?
我有一些数据,这些数据具有eta平方值和部分eta平方值,这些值作为对组均值差的影响大小的度量。 eta平方和部分eta平方有什么区别?可以使用相同的科恩准则(1988年我认为:0.01 =小,0.06 =中,0.13 =大)来解释它们吗? 另外,如果比较检验(即t检验或单向ANOVA)不显着,是否可以用于报告效应大小?在我的脑海中,这就像说“平均差异未达到统计显着性,但仍需特别注意,因为从eta平方指示的效应大小为中等”。或者,效应量是重要性检验的替代值,而不是互补值吗?

1
异方差数据的单向方差分析的替代方法
我有3个藻类生物量(,,)的数据,它们包含不相等的样本大小(,,),我想比较一下这两个组是否来自同一种群。AAABBBCCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 单向ANOVA绝对是必经之路,但是在对我的数据进行正态性测试时,异质性似乎是主要问题。我的原始数据未经任何转换就产生了方差比(),该比率远高于临界值(F _ {\ rm crit} = 4.16),因此我无法执行单向方差分析。Fmax=19.1Fmax=19.1F_{\max} = 19.1Fcrit=4.16Fcrit=4.16F_{\rm crit} = 4.16 我还尝试了转换以标准化我的数据。即使经过各种变换(对数,平方根,平方)的试验,使用\ log_ {10}变换进行变换后产生的最低F _ {\ max}也为7.16,与F _ {\ rm crit}相比仍然更高。FmaxFmaxF_{\max}log10log10\log_{10}7.167.167.16FcritFcritF_{\rm crit} 这里有人可以建议我从这里出发吗?我想不出其他通过数据标准化的转换方法。有单向方差分析的替代方法吗? PS:我的原始数据如下: A: 0.178 0.195 0.225 0.294 0.315 0.341 0.36 0.363 0.371 0.398 0.407 0.409 0.432 0.494 0.719 B: 0.11 0.111 0.204 0.416 0.417 0.441 0.492 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.