Questions tagged «multiple-comparisons»

当执行多个假设检验时,表示有人担心要达到预期的功效和大小。


4
ANCOVA中的事后测试
问题: 在对协变量的影响进行调整之后,有什么好的方法可以进行事后检验组均值之间的差异? 典型示例: 四组,每组30名参与者(例如,四个不同的临床心理学人群) 因变量是数字(例如,智力得分) 协变量是数字(例如,社会经济地位指数) 研究问题涉及在控制协变量之后,任何一对组在因变量上是否存在显着差异 相关问题: 首选方法是什么? R中有哪些可用的实现? 关于协变量如何更改事后检验程序,是否有任何一般性参考?

4
Sidak还是Bonferroni?
我在SPSS中使用广义线性模型来研究16种不同植物上毛虫的平均数量差异(非正态,使用Tweedie分布)。 我想进行多个比较,但是不确定是否应该使用Sidak或Bonferroni校正测试。两种测试有什么区别?这个比那个好吗?

3
研究人员1运行1000个回归,研究人员2仅运行1,两者都得到相同的结果-他们应该做出不同的推论吗?
想象一个研究人员正在探索一个数据集并运行1000个不同的回归,他发现其中一个有趣的关系。 现在想象一下,具有相同数据的另一位研究人员 仅进行了1次回归,结果发现另一位研究人员进行了1000次回归才能找到相同的结果。研究者2不认识研究者1。 研究人员1是否应做出与研究人员2不同的推论?为什么?例如,研究人员1应该执行多重比较校正,而研究人员2不应该执行多重比较校正吗? 如果研究人员2首先向您显示了他的单一回归,您将做出什么推论?如果该研究人员1向您显示了他的结果之后,您是否应该更改自己的推断?如果是这样,那为什么重要呢? PS 1:如果谈论假设研究者使问题变得抽象,请考虑一下:假设您使用最佳方法对论文进行了一次回归。然后,另一位研究人员使用相同的数据探索了1000种不同的回归,直到发现与您运行的完全相同的回归。你们两个应该推论吗?两种情况的证据是否相同?如果您知道其他研究人员的结果,是否应该更改自己的推论?公众应如何评估两项研究的证据? PS 2:请尽量具体,并在可能的情况下提供数学/理论上的依据!

4
假设检验用于两个以上样本之间的中位数差异
题 将三组人的测试成绩另存为R中的向量。 set.seed(1) group1 <- rnorm(100, mean = 75, sd = 10) group2 <- rnorm(100, mean = 85, sd = 10) group3 <- rnorm(100, mean = 95, sd = 10) 我想知道这些群体之间的中位数是否存在显着差异。我知道我可以使用Wilcoxon测试来测试第1组和第2组。 wilcox.test(group1, group2) 但是,这一次只比较两个组,我想同时比较所有三个组。我想进行统计检验,得出p值为0.05的显着性水平。有人可以帮忙吗? 编辑#1-情绪中位数测试 按照用户Hibernating的建议答案,我尝试了Mood的中位数测试。 median.test <- function(x, y){ z <- c(x, y) g <- rep(1:2, c(length(x), length(y))) m …

2
调整p值以进行自适应顺序分析(用于卡方检验)?
我想知道哪些统计文献与以下问题有关,甚至可能有关于如何解决该问题的想法。 想象以下问题: 对于某些疾病,我们有4种可能的治疗方法。为了检查哪种治疗更好,我们进行了一次特殊的试验。在试验中,我们从没有受试者开始,然后一个接一个地将更多受试者输入试验。每个患者随机分配到4种可能的治疗方法之一。治疗的最终结果是“健康”或“仍然生病”,我们可以立即知道该结果。这意味着,在任何给定的点上,我们都可以创建一个2 x 4的列联表,说明我们有多少受试者属于哪种治疗/最终结果。 在任何时候,我们都可以检查列联表(例如,使用卡方检验),以查看这4种可能的治疗方法之间在统计学上是否存在不同的治疗方法。如果其中一个比较好,那么其余所有-我们将停止试验并选择它作为“优胜者”。如果某个试验被证明比其他三个试验都更糟,我们将把他从试验中删除,并停止提供给将来的患者。 但是,这里的问题是我如何针对可以在任何给定点执行测试,测试之间存在相关性以及过程的自适应性质操纵过程的事实来调整p值。例如,如果发现某些治疗方法“不好”)?

1
反复测试累积数据时出现总体I型错误
我对组顺序方法有疑问。 根据维基百科: 在具有两个治疗组的随机试验中,按以下方式使用经典组顺序测试:如果每个组中有n位受试者可用,则对2n位受试者进行中期分析。进行统计分析以比较两组,如果接受替代假设,则终止试验。否则,将继续试验另外2n名受试者,每组n名受试者。再次对4n名受试者进行统计分析。如果接受了替代方案,则审判终止。否则,它将继续进行定期评估,直到N组2n个主题可用为止。此时,将进行最后一次统计检验,并且该试验将终止 但是通过以这种方式反复测试累积数据,I型错误级别被夸大了…… 如果样本彼此独立,则总的I类错误将为α⋆α⋆\alpha^{\star} α⋆=1−(1−α)kα⋆=1−(1−α)k\alpha^{\star} = 1 - (1 - \alpha)^k 其中是每个测试的级别,是临时外观的数量。αα\alphakkk 但是样本不是独立的,因为它们重叠。假设以相等的信息增量执行临时分析,则可以发现(幻灯片6) 您能解释一下该表格的获取方式吗?


1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

2
按家庭划分的错误界限:重用关于独立问题的不同研究的数据集是否会导致多个测试问题?
如果一组研究人员对给定的数据集执行多项(假设)检验,则有大量文献断言,即使检验是独立的,他们也应使用某种形式的校正进行多重检验(Bonferroni等)。我的问题是:这种逻辑是否适用于多个团队在同一数据集上测试假设?换句话说,家庭误差计算的障碍是什么?研究人员应该被限制为仅将数据集用于勘探吗?

1
何时在多个比较中更正p值?
恐怕相关问题无法回答我的问题。我们评估> 2个分类器(机器学习)的性能。我们的零假设是表演没有差异。我们执行参数(ANOVA)和非参数(Friedman)检验来评估该假设。如果它们很重要,我们想找出在事后搜寻中哪些分类器有所不同。 我的问题是双重的: 1)多次比较测试后是否需要校正p值?在“ Alphafehler Kumulierung”上的德国维基百科站点上说,仅当在相同数据上检验多个假设时,才会出现此问题。比较分类器(1,2),(1,3),(2,3)时,数据仅部分重叠。是否仍然需要校正p值? 2)P值校正通常在通过t检验进行成对测试之后使用。在进行专门的事后测试,例如Nemenyi(非参数)或Tukey的HSD测试时,是否也有必要?对于Tukey的HSD,此答案为“否”:Tukey HSD测试是否可正确进行多次比较?。是否有规则或我必须针对每个可能的事后测试进行检查? 谢谢!


1
连续和分类预测变量之间相互作用的混合模型多重比较
我想lme4用来拟合混合效果回归并multcomp计算成对比较。我有一个包含多个连续和类别预测变量的复杂数据集,但是可以使用内置ChickWeight数据集作为示例来说明我的问题: m <- lmer(weight ~ Time * Diet + (1 | Chick), data=ChickWeight, REML=F) Time是连续的并且Diet是绝对的(4个级别),每个饮食中有多个小鸡。所有的雏鸡都以相同的体重开始,但是它们的饮食(可能)会影响它们的生长速度,因此Diet截距应该(或多或少)相同,但斜率可能会有所不同。我可以得到Diet像这样的拦截效果的成对比较: summary(glht(m, linfct=mcp(Diet = "Tukey"))) 并且确实没有显着差异,但是如何进行类似的测试Time:Diet?仅将交互作用项放入mcp会产生错误: summary(glht(m, linfct=mcp('Time:Diet' = "Tukey"))) Error in summary(glht(m, linfct = mcp(`Time:Diet` = "Tukey"))) : error in evaluating the argument 'object' in selecting a method for function 'summary': Error in mcp2matrix(model, linfct …

3
难道这些公式转换P,LSD,MSD,HSD,CI,以SE作为一个确切的或夸大/保守估计
背景 我正在进行一项荟萃分析,其中包括以前发布的数据。通常,用P值,最小显着差异(LSD)和其他统计数据报告处理之间的差异,但无法直接估算出差异。 在我使用的模型的上下文中,可以高估方差。 问题 这里是变换来的列表其中(萨维尔2003) ,我考虑,反馈理解; 下面,我假定α = 0.05所以1 - α / 2 = 0.975 和变量是正态分布的,除非另有说明:SESESESE=MSE/n−−−−−−−√SE=MSE/nSE=\sqrt{MSE/n} α = 0.05α=0.05\alpha=0.051 -α/2= 0.9751个-α/2=0.9751-^{\alpha}/_2=0.975 问题: 给定的,Ñ,和治疗手段ˉ X 1和ˉ X 2小号Ë = ˉ X 1 - ˉ X 2PPPññnX¯1个X¯1个\bar X_1X¯2X¯2\bar X_2 小号Ë= X¯1个- X¯2Ť(1 − P2,2 n − 2 )2 / n---√小号Ë=X¯1个-X¯2Ť(1个-P2,2ñ-2)2/ñSE=\frac{\bar X_1-\bar X_2}{t_{(1-\frac{P}{2},2n-2)}\sqrt{2/n}} …

4
多项卡方检验
我在2 x 2 x 6表格中交叉分类了数据。让我们叫的尺寸response,A和B。我用模型对数据进行逻辑回归response ~ A * B。对该模型偏差的分析表明,术语及其相互作用都是重要的。 但是,从数据的比例来看,似乎只有2个左右的水平B对这些重要影响负责。我想测试一下是哪个级别的罪魁祸首。现在,我的方法是在的2 x 2表上执行6个卡方检验response ~ A,然后针对多个比较对这些检验的p值进行调整(使用Holm调整)。 我的问题是,对于这个问题是否有更好的方法。是否有更原则的建模方法或多重卡方检验比较方法?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.