统计和大数据 anova

2

关于连续预测变量的共线性有很多，但我在分类预测变量上找不到太多。我的数据如下所示。第一个因素是遗传变量（等位基因计数），第二个因素是疾病类别。显然，基因在疾病之前，并且是显示导致诊断的症状的因素。但是，像SPSS心理中通常使用的II型或III型平方和的常规分析会失去效果。输入适当的订单（因为它与订单有关）时，我进行平方和分析的类型就会选择它。此外，疾病过程中可能存在与基因无关的额外成分，这些成分与II型或III型不能很好地鉴定，请参阅下面的anova （lm1） vs lm2或Anova。示例数据： set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, …

11 r anova categorical-data multicollinearity sums-of-squares

1

如何使用R进行4 x 4混合方差分析，在对象间和对象内进行对比？

R的初学者在这里一直在反复测量方差分析。我有一个数据集，该数据集由一个具有4个级别的主体因素之间的代码（编码为一个称为“组”的单个变量）和一个具有4个级别的主体因素内的数据集（分别编码为四个单独的变量“ DV1”，“ DV2”，“ DV3” '，'DV4'）。我的目标如下：运行总体重复测量方差分析。使用自定义对比来比较组（如SPSS中的LMATRIX命令）。使用自定义对比度（如SPSS中的MMATRIX命令）比较不同级别的DV。同时进行2）和3）的组合，因此我只比较对象内因素处于特定水平的特定组。运行一组不为零的对比。我知道我可以在SPSS中做到这一点，但没有很多问题，但是我不清楚如何在R中做到这一点。到目前为止，还没有看到这在R中的一个过程或一组相关过程中如何工作。

11 r anova repeated-measures contrasts

1

确定一组广告中哪个具有最高点击率所需的样本量

我是一名行业软件设计师，并且正在为一个客户从事项目，因此我想确保我的分析在统计上是正确的。考虑以下情况：我们有n个广告（n <10），我们只是想知道哪个广告效果最好。我们的广告服务器将随机投放这些广告之一。成功的前提是用户点击了广告-我们的服务器会对其进行跟踪。给出：置信区间：95％问题：估计的样本量是多少？（我们必须投放多少个广告），为什么？（记住我是个假人）谢谢

11 anova sample-size t-test rule-of-thumb

3

由Levene或Bartlett检验方差同质性产生的p值的解释

我对一项实验的一组数据进行了Levene和Bartlett的检验，以验证我没有违反ANOVA的方差均质性假设。如果您不介意的话，我想与大家确认我没有做任何错误的假设这两个测试返回的p值是我的数据（如果再次使用相等方差生成的数据）相同的概率。因此，通过使用这些检验，可以说我没有违反方差分析关于方差均匀性的假设，我只需要一个高于所选alpha水平（例如0.05）的p值？例如，根据我当前使用的数据，巴特利特检验返回p = 0.57，而莱文（Levene）检验（我们称其为Brown-Forsythe Levene型检验）得出ap = 0.95。这意味着，无论我使用哪种测试，我都可以说我的数据符合假设。我有什么错误吗？谢谢。

11 anova heteroscedasticity levenes-test

4

MANOVA与因变量之间的相关性：太强有多强？

MANOVA中的因变量不应“过强地相关”。但是相关性有多强呢？得到人们对此问题的看法将是很有趣的。例如，在以下情况下，您会继续使用MANOVA吗？ Y1和Y2与和p < 0.005r = 0.3r=0.3r=0.3p < 0.005p<0.005p<0.005 Y1和Y2与和p = 0.049r = 0.7r=0.7r=0.7p = 0.049p=0.049p=0.049 更新资料回应@onestop的一些代表性报价： “ MANOVA在DV之间存在适度相关性的情况下效果很好”（来自旧金山州立大学的课程注释） “相关变量适用于Manova”（美国EPA Stats Primer） “因变量应该在概念上相关，并且应该在低到中等水平上相互关联。” （北亚利桑那大学的课程笔记） “相关的DV从大约0.3到大约0.7是合格的”（Maxwell，2001年，消费者心理学杂志） nb我不是指这样的假设，即Y1和Y2之间的互相关在所有自变量级别上都应该相同，只是关于互相关的实际大小的这个明显的灰色区域。

11 correlation anova multivariate-analysis rule-of-thumb manova

5

测试重复测量方差分析的正态假设？（在R中）

因此，假设有必要测试方差分析的正态性假设（请参见1和2）如何在R中对其进行测试？我希望做这样的事情： ## From Venables and Ripley (2002) p.165. utils::data(npk, package="MASS") npk.aovE <- aov(yield ~ N*P*K + Error(block), npk) residuals(npk.aovE) qqnorm(residuals(npk.aov)) 这是行不通的，因为“残差”没有针对重复测量方差分析的方法（对此也无法预测）。那么在这种情况下应该怎么做？是否可以从没有误差项的情况下简单地从同一拟合模型中提取残差？我对文献还不够熟悉，无法知道这是否有效，在此先感谢您的任何建议。

11 r anova normality-assumption repeated-measures

3

后期治疗控制设计中相互作用效应的效应大小

如果您选择使用混合方差分析来分析具有连续因变量的前后治疗控制设计，则有多种方法可以量化出现在治疗组中的影响。交互作用是一种主要选择。通常，我特别喜欢Cohen的d型度量（即）。我不喜欢用方差解释的量度，因为结果会根据不相关的因素（例如组的相对样本大小）而有所不同。μ1个- μ2σμ1个-μ2σ{\frac{\mu_1 - \mu_2}{\sigma}} 因此，我想我可以量化如下效果 Δ μC= μc ^ 2- μç 1ΔμC=μC2-μC1个\Delta\mu_c = \mu_{c2} - \mu_{c1} Δ μŤ= μ第2- μŤ 1ΔμŤ=μŤ2-μŤ1个\Delta\mu_t = \mu_{t2} - \mu_{t1} 因此，效果大小可以定义为Δ μŤ- Δ μCσΔμŤ-ΔμCσ\frac{\Delta\mu_t - \Delta\mu_c}{\sigma} 其中表示对照，t表示治疗，1和2分别表示之前和之后。 σ可以是时间1的合并标准偏差。CCcŤŤtσσ\sigma 问题：标记此效应大小度量是否合适d？这种方法看起来合理吗？这种设计的效果大小度量的标准做法是什么？

11 anova mixed-model effect-size cohens-d

4

非独立观察的方差分析

很抱歉这个问题的详细背景：有时，在动物行为调查中，实验者对受试者在测试设备中不同的预定区域所花费的时间感兴趣。我经常看到使用ANOVA分析这类数据；但是，鉴于ANOVA假设观测值是独立的，并且在这些分析中它们实际上并不是独立的，因此我从来没有完全相信这种分析的有效性（因为在一个区域中花费的时间越多，意味着在其他区域中花费的时间就越少！）。例如， DR Smith，CD Striplin，AM Geller，RB Mailman，J.Drago，CP Lawler，M.Gallagher，缺乏D1A多巴胺受体的小鼠的行为评估，Neuroscience，第86卷，第1期，1998年5月21日，第135-146页在上述文章中，它们将自由度降低了1，以补偿非独立性。但是，我不确定这种操作如何真正改善这种对ANOVA假设的违反。卡方程序也许更合适？您将如何分析这样的数据（根据在区域中花费的时间来选择区域）？谢谢！

11 anova

1

如何使ANOVA适应二进制数据？

我有四个竞争模型，可用来预测n个受试者的二元结果变量（例如，毕业后的就业状况，1 =就业，0 =失业）。模型性能的自然指标是命中率，命中率是每个模型的正确预测的百分比。在我看来，由于数据违反了ANOVA的假设，因此我无法在此设置中使用ANOVA。在上述设置中，是否可以使用等效程序代替ANOVA来检验所有四个模型均等效的假设？

11 anova chi-squared generalized-linear-model

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

重复测量方差分析：LM vs LMER

我试图重现两者之间lm以及lmer重复测量（2x2x2）之间的几个交互测试。我想比较这两种方法的原因是因为SPSS的重复测量GLM产生的结果与lm此处介绍的方法完全相同，因此最后我想比较SPSS与R-lmer。到目前为止，我仅设法（紧密地）复制了其中的一些交互。您会在下面找到一个脚本来更好地说明我的观点： library(data.table) library(tidyr) library(lmerTest) library(MASS) set.seed(1) N <- 100 # number of subjects sigma <- 1 # popuplation sd rho <- .6 # correlation between variables # X1: a a a a b b b b # X2: a a b b a a b b # X3: a …

10 anova mixed-model lme4-nlme repeated-measures lm

1

为什么在aov模型中更改协变量的顺序时p值的重要性会发生变化？

我有482个观测值的数据集。 data=Populationfull 我将对3个SNP进行基因型关联分析。我试图使用aov（y〜x，data = ...）为我的分析建立模型。对于一个特征，我有几个固定的影响和协变量，我将它们包括在模型中，如下所示： Starts <- aov(Starts~Sex+DMRT3+Birthyear+Country+Earnings+Voltsec+Autosec, data=Populationfull) summary(Starts) Df Sum Sq Mean Sq F value Pr(>F) Sex 3 17.90 5.97 42.844 < 2e-16 *** DMRT3 2 1.14 0.57 4.110 0.017 * Birthyear 9 5.59 0.62 4.461 1.26e-05 *** Country 1 11.28 11.28 81.005 < 2e-16 *** Earnings 1 …

10 r anova

2

如何获得具有可靠标准误差的ANOVA表？

我正在使用R中的plm包运行汇总的OLS回归。尽管，我的问题更多是关于基本统计信息，所以我尝试首先将其发布在这里;）由于我的回归结果会产生异方差残差，因此我想尝试使用异方差稳健的标准误差。作为结果，coeftest(mod, vcov.=vcovHC(mod, type="HC0"))我得到了一个表格，其中包含每个独立变量的估计值，标准误差，t值和p值，这些基本上就是我的“稳健”回归结果。为了讨论不同变量的重要性，我想绘制每个独立变量解释的方差份额，因此我需要相应的平方和。但是，使用function aov()，我不知道如何告诉R使用可靠的标准错误。现在我的问题是：如何获得表示稳健标准误差的ANOVA表/平方和？是否可以基于具有正常标准误差的回归，基于ANOVA表进行计算？编辑：换句话说，无视我的R发行：如果使用稳健的标准误差不影响R，那么不同解释变量对解释方差的各自贡献也将保持不变吗？22^2 编辑：在R中，aov(mod)实际上是否为panelmodel（plm）提供了正确的ANOVA表？

10 r anova multiple-regression heteroscedasticity robust-standard-error

3

为什么重复测量方差分析假设为球形？

为什么重复测量方差分析假设为球形？球形是指组之间所有成对差异的方差应相同的假设。特别是，我不明白为什么这应该是假设，而不是所观察到的组分数本身的方差相同。

10 anova repeated-measures assumptions sphericity

2

lmerTest :: anova中的自由度正确吗？它们与RM-ANOVA有很大不同

我正在分析R中反应时间实验的结果。我进行了重复测量方差分析（1个受试者内部因素具有2个水平，而1个受试者之间因素具有2个水平）。我运行了一个类似的线性混合模型，我想使用ANOVA表的形式总结lmer结果lmerTest::anova。不要误会我的意思：我没想到会有相同的结果，但是我不确定lmerTest::anova结果的自由度。在我看来，它反映的是ANOVA，而在主题级别上没有任何汇总。我知道以下事实：在混合效应模型中计算自由度是很棘手的，但lmerTest::anova在更新的?pvalues主题（lme4包）中被提及为一种可能的解决方案。这个计算正确吗？结果lmerTest::anova是否正确反映了指定的模型？更新：我使个体差异更大。自由度lmerTest::anova与简单的方差不同，但是我仍然不确定，为什么它们对于主体内因素/相互作用如此之大。 # mini example with ANT dataset from ez package library(ez); library(lme4); library(lmerTest) # repeated measures ANOVA with ez package data(ANT) ANT.2 <- subset(ANT, !error) # update: make individual differences larger baseline.shift <- rnorm(length(unique(ANT.2$subnum)), 0, 50) ANT.2$rt <- ANT.2$rt + baseline.shift[as.numeric(ANT.2$subnum)] anova.ez <- ezANOVA(data = …

10 anova mixed-model repeated-measures lme4-nlme degrees-of-freedom

Questions tagged «anova»