Questions tagged «multiple-comparisons»

当执行多个假设检验时,表示有人担心要达到预期的功效和大小。

1
为什么要完全使用ANOVA而不是直接进行事后或计划中的比较测试?
考虑到群体之间的方差分析情况,您首先实际进行这样的ANOVA测试,然后进行事后(Bonferroni,Šidák等)或计划的比较测试,您会得到什么?为什么不完全跳过ANOVA步骤? 我认为在这种情况下,组间ANOVA的一个好处是能够使用Tukey的HSD作为事后测试。后者需要ANOVA表中的组内均方来计算其相关的标准误差。但是,对不成对t检验的Bonferroni和Šidák调整不需要任何方差分析输入。 我想就小组内部方差分析的情况提出同样的问题。我知道在这种情况下,Tukey的HSD测试不是一个相关的考虑因素,这使得这个问题更加紧迫。

1
多重比较文献中“依赖”和“独立”测试的普通语言含义?
在家庭错误率(FWER)和错误发现率(FDR)文献中,控制FWER或FDR的特定方法都被认为适用于相关或独立测试。例如,在1979年的论文“一个简单的顺序拒绝多重测试程序”中,霍尔姆写道,将他的递增Šidák方法与他的递增Bonferroni控制方法进行了对比: 当测试统计量是独立的时,可以获得相同的计算简便性。 在Benjamini和Hochberg的“控制错误发现率”(1995)中,作者写道: 定理1.对于独立的检验统计数据和任何虚假假设的配置,上述过程将FDR控制在。q∗q∗q^{*} 后来,在2001年,Benjamini和Yekutieli写道: 1.3。问题。在实践中尝试使用FDR方法时,与独立测试统计数据相比,独立测试统计数据的出现频率更高,上述的多个端点示例就是一个很好的例子。 这些作者使用的独立人有哪些特殊含义?如果能伴随一种简单的语言解释,使测试相互依赖或独立的正式定义,我将很高兴。 我可以想到几种可能的含义,但是我不太理解,这可能是: “因变量”是指多元检验(即许多具有相同或相似预测变量的因变量);自变量是指单变量检验(即,许多自变量,一个因变量)。 “从属”是指基于配对/匹配的受试者的测试(例如配对的t检验,重复测量方差分析等);“独立”是指未配对/独立的样本研究设计。 “从属”是指一项测试被拒绝的概率与另一项测试被拒绝的概率相关,而“正相关性”是指该相关为正。“独立”是指拒绝概率是不相关的。 参考文献 Benjamini,Y。和Hochberg,Y。(1995)。控制错误发现率:一种实用且强大的多重测试方法。皇家统计学会杂志。系列B(方法论),57(1):289–300。 Benjamini,Y.和Yekutieli,D.(2001)。依赖下多重测试中错误发现率的控制。统计年鉴,29(4):1165-1188。 Holm,S.(1979年)。一个简单的顺序拒绝多重测试程序。斯堪的纳维亚统计杂志,6(65-70):1979。

1
Bonferroni还是Tukey?什么时候比较数量变大?
使用SPSS(第三版)阅读Field的发现统计信息我对ANOVA中的事后测试感到有些震惊。对于那些想要控制I型错误率的人,他建议使用Bonferroni或Tukey并说(第374页): 当比较次数较少时,Bonferroni具有更大的功能,而在测试大量均值时,Tukey的功能更为强大。 少量和大量均值之间的界限应该在哪里?

2
在基于计算机的实验/模拟中残差的独立性?
我对适合古科学中使用的特定类型模型的不同方法进行了基于计算机的评估。我的训练集很大,因此我随机(分层随机抽样)留出了测试集。我为训练集样本拟合了mmm种不同的方法,并使用mmm结果模型预测了测试集样本的响应,并针对测试集中的样本计算了RMSEP。这是一次运行。 然后,我多次重复此过程,每次我通过随机采样新的测试集来选择不同的训练集。 完成此操作后,我想研究mmm种方法中的任何一种是否具有更好或更差的RMSEP性能。我还想对成对方法进行多次比较。 我的方法是拟合线性混合效果(LME)模型,并为Run提供单个随机效果。我使用lmer()了lme4软件包中的数据,以适应multcomp软件包中的模型和函数,以执行多次比较。我的模特本质上是 lmer(RMSEP ~ method + (1 | Run), data = FOO) 其中method是一个因素,指示用于生成测试集的模型预测的哪种方法,并且Run是每个特定运行的指标 “实验”的。 我的问题是关于LME的残差。给定运行的单个随机效应我假设该的RMSEP值在某种程度上相关,但在运行之间不相关,这是基于随机效应所提供的诱导相关性。 运行之间的独立性这一假设有效吗?如果不是,那么在LME模型中是否可以解决这个问题,还是我应该寻求采用其他类型的静态分析来回答我的问题?


1
为什么控制FDR不如控制FWER严格?
我已经读到,控制FDR比控制FWER宽松,例如在Wikipedia中: 与家庭错误率(FWER)过程(例如Bonferroni校正)相比,FDR控制过程对错误发现的控制不太严格。这以增加I型错误率的代价为代价来增加功率,即拒绝应该接受的无效无效假设。 但是我想知道它在数学上如何被证明是正确的? FDR和FWER之间是否存在某些关系?

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
机器学习分类器big-O或complex
为了评估一种新的分类器算法的性能,我正在尝试比较准确性和复杂性(训练和分类中的big-O)。来自Machine Learning:a review,我得到了完整的监督分类器列表,还有算法之间的准确性表,以及来自UCI数据存储库的 44个测试问题。但是,对于常见的分类器,我找不到带有big-O的评论,论文或网站: C4.5 RIPPER(我认为这不可能,但谁知道) 人工神经网络与反向传播 朴素贝叶斯 神经网络 支持向量机 如果有人对这些分类器有任何表达,它将非常有用,谢谢。

2
重复测量随时间的小
我获得了用于分析研究的数据,以研究在四个不同时间点(治疗前,治疗结束的当天,治疗后4周和治疗后2-4个月)铁水平的影响。没有对照组。他们正在寻找在三个治疗后时间点的铁水平是否显着增加到治疗前(基线)水平的铁水平。11名患者具有基线水平,但只有8名患者具有所有4个时间点的完整数据(每个时间点 = 11、10、9和8)。不仅测量了铁水平,而且还在每个时间点采取了其他两个实验室测量值以与基线进行比较。ññn 关于如何分析,我有几个问题。我最初认为RM方差分析适用于分析此数据,但我担心样本量小,数据丢失以及数据的非正态分布。然后,我考虑使用Wilcoxon符号秩检验将每个后处理量度与基线进行比较,但随后遇到了多个比较的问题。但是,我读了一些文献,淡化了需要进行多次比较的情况。因此,总的来说,我正在处理小样本量,不完整的数据和多次比较(以及是否必要)。 我希望这一切都是有道理的。我是CrossValidated的新手,它是由同事在这里指导的,可以作为向经验丰富的统计学家学习的地方,因此,我感谢任何建议!谢谢! 编辑以添加来自注释的原始数据: 总共有四个时间点,结果变量是连续的。例如,每个时间点的结果类似于以下内容: Baseline (n=11): [2, 7, 7, 3, 6, 3, 2, 4, 4, 3, 14] 1st Post (n=10): [167, 200, 45, 132, ., 245, 199, 177, 134, 298, 111] 2nd Post (n=9): [75, 43, 23, 98, 87, ., 300, ., 118, 202, 156] 3rd Post …

2
Sane逐步回归?
假设我要构建一个二进制分类器。我有数千个功能,而样本只有几十个。从领域知识来看,我有充分的理由相信仅使用一些功能就可以准确预测类标签,但是我不知道哪个功能可以正确预测。我还希望最终决策规则易于解释/解释,从而进一步需要少量功能。我功能的某些子集高度相关,因此,独立选择最具预测性的几个子集将行不通。我还希望能够对我的功能进行有意义的假设检验。 在这些条件下,以下逐步回归程序是否合理: 给定模型中已经存在的特征(或仅在第一次迭代中截取),选择添加到模型中时产生最大对数似然比的特征。使用似然比卡方检验为在此选择中执行的每个假设检验计算名义P值。这里的无效之处在于,将额外的变量添加到模型中不会提供任何额外的预测能力。另一种选择是,它确实提高了预测能力 将每个迭代的步骤1中测试的假设作为一个族来对待,并使用Benjamini-Hochberg之类的东西为最小P值(针对所选特征)计算错误发现率。 除非满足某些停止条件,否则转到1。 报告对个人特征的错误发现率,但不能用于模型作为一个整体的P值(因为这将是大规模膨胀)。给定先前添加到模型中的所有特征,这些多个测试校正的P值中的每一个均代表该特征的统计显着性。 在这种情况下这样做是否能成功避免所有典型的逐步回归批评?以这种方式计算的错误发现率是否合理?

2
Benjamini-Hochberg调整后的p值的公式是什么?
我了解该程序及其控制的内容。那么在BH程序中用于多次比较的调整后的p值的公式是什么? 刚才我意识到原始的BH不会产生调整后的p值,只是调整了(非)拒绝条件:https : //www.jstor.org/stable/2346101。无论如何,戈登·史密斯(Gordon Smyth)还是在2002年引入了调整后的BH p值,因此该问题仍然适用。p.adjust与method 一样在R中实现BH。

1
在相同数据上,ANOVA检验的值与多个检验的值相比可以小多少?
简介:注意到今天这个问题引起了人们的注意: “ 当成对t检验都不存在时,方差分析会很重要吗? ”,我认为我可能能够以一种有趣的方式对其进行重新构架,以得到自己的答案。 。 当将统计显着性理解为简单的二分法,并仅根据ppp或\ alpha的较高值来判断时,可能会出现各种不一致的结果(以面值计)αα\alpha。@Glen_b 对上述问题的回答提供了以下情况的有用示例: ANOVA FFF检验为具有四个水平的一个自变量(IV)产生pF&lt;.05pF&lt;.05p_F<.05,但是 pt&gt;.08pt&gt;.08p_t>.08对于所有两个样本ttt检验,p_t&gt; .08,用于比较与IV的每对四个水平对应的观测值之间相同因变量(DV)的差异。 尽管通过这个问题进行了事后成对比较的Bonferroni校正,但发生了类似的情况:Anova重复测量很重要,但是使用Bonferroni校正的所有多重比较都不是吗?前面提到的情况在多元回归中的检验也略有不同: 为什么有可能获得显着的F统计量(p &lt;.001)但无显着的回归t检验?:pF&lt;.001,pβt&gt;.09pF&lt;.001,pβt&gt;.09p_F<.001,p_{\beta t}>.09 回归如何显着但所有预测变量都不显着? 在@whuber的答案中,pF=.0003,pβt&gt;.09pF=.0003,pβt&gt;.09p_F=.0003,p_{\beta t}>.09 我打赌,在这样的情况下,一些(但不是全部)成对比较(或回归系数显着性检验)值必须相当接近如果相应综合测试可以实现。我看到@Glen_b的第一个示例就是这种情况,其中,,最大的成对差给出最小的。一般情况下必须这样吗?更具体地说:α p &lt; α pppαα\alphap&lt;αp&lt;αp <\alphap ˚F = 0.046 p 吨 = 0.054F(3,20)=3.19F(3,20)=3.19F_{(3,20)}=3.19pF=.046pF=.046p_F=.046pt=.054pt=.054p_t=.054 问题:如果ANOVA检验对连续DV的一个多静脉IV的影响产生,那么在比较每对IV水平的所有两个样本检验中,最低的值有多高?最小成对意义是否可以高达?p F = .05 p t p t = .50FFFpF=.05pF=.05p_F=.05ppptttpt=.50pt=.50p_t=.50 我欢迎仅解决此特定问题的答案。但是,为了进一步激发这个问题,我将详细阐述并提出一些潜在的反问。欢迎您也解决这些问题,甚至在您愿意时也可以忽略特定的问题,尤其是在特定问题得到明确答案的情况下。 重要性:考虑一下,如果用连续的无效假设证据的强度来判断统计显着性,那么和之间的差异的重要性降低了多少(我认为是罗恩·费舍尔的方法?),而不是用高于或低于阈值的二分法来表示在选择是否拒绝零批发时可接受的错误概率。“ hacking ”是一个已知的问题,部分原因是由于对的解释而引入了不必要的漏洞,因此臭名昭著p t = .06pF=.04pF=.04p_F=.04pt=.06pt=.06p_t=.06p p …

2
R中的Dunnett检验每次都返回不同的值
我正在使用R'multcomp'库(http://cran.r-project.org/web/packages/multcomp/)计算Dunnett的测试。我正在使用以下脚本: Group &lt;- factor(c("A","A","B","B","B","C","C","C","D","D","D","E","E","F","F","F")) Value &lt;- c(5,5.09901951359278,4.69041575982343,4.58257569495584,4.79583152331272,5,5.09901951359278,4.24264068711928,5.09901951359278,5.19615242270663,4.58257569495584,6.16441400296898,6.85565460040104,7.68114574786861,7.07106781186548,6.48074069840786) data &lt;- data.frame(Group, Value) aov &lt;- aov(Value ~ Group, data) summary(glht(aov, linfct=mcp(Group="Dunnett"))) 现在,如果我多次在R Console中运行此脚本,则每次得到的结果都会略有不同。这是一个例子: Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Dunnett Contrasts Fit: aov(formula = Value ~ Group, data = data) Linear Hypotheses: Estimate Std. Error t value Pr(&gt;|t|) …

2
将部分排名列表转换为全局排名
我正在研究以下问题。我有一堆用户和N本书。每个用户都会为他阅读的所有图书(可能是N本书的子集)创建一个有序的排名,例如,Book 1&gt; Book 40&gt; Book 25。 现在,我想将这些个人用户排名转换为所有书籍的单一排序排名。 是否有任何好的或标准的方法可以尝试?到目前为止,我正在考虑将Bradley-Terry模型应用于成对比较,但是我想知道是否还有其他功能。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.