Questions tagged «multiple-comparisons»

当执行多个假设检验时,表示有人担心要达到预期的功效和大小。

1
40,000篇神经科学论文可能是错误的
我在《经济学人》上看到了一篇关于看似毁灭性论文的文章 [1] ,该论文令人质疑“ 大约有40,000种已发表的[fMRI]研究。他们说,这种错误是由于“错误的统计假设”。我阅读了这篇论文,发现部分原因是多次比较校正,但是我不是fMRI专家,因此很难遵循。 作者所说的错误假设是什么?为什么要做出这些假设?做出这些假设有哪些方法? 信封计算的背面显示,有40,000张fMRI论文的资金超过10亿美元(研究生的工资,运营成本等)。 [1] Eklund等人,“聚类失败:为什么空间范围的fMRI推论会增加假阳性率,PNAS 2016”

4
看,你会发现(相关性)
我有几百个测量值。现在,我正在考虑使用某种软件将每个度量与每个度量相关联。这意味着有成千上万的相关性。在这些数据中,即使数据是完全随机的(每个度量值仅包含约100个数据点),它们之间也应具有高度的相关性。 找到关联后,如何将有关如何寻找关联的信息纳入其中? 我的统计水平不高,请耐心等待。

5
在多元回归中为多个比较调整p值是一个好主意吗?
假设您是一名社会科学研究员/计量经济学家,试图找到有关服务需求的相关预测因子。您有2个描述需求的结果/因变量(使用服务“是/否”和次数)。您有10个预测变量/独立变量,可以从理论上解释需求(例如,年龄,性别,收入,价格,种族等)。运行两个单独的多元回归将得出20个系数估计及其p值。如果回归中有足够的自变量,您迟早会发现至少一个在因变量和自变量之间具有统计显着相关性的变量。 我的问题是:如果我想在回归中包括所有自变量,则为多个测试校正p值是一个好主意吗?非常感谢对以前工作的任何引用。

3
合并p值时,为什么不平均呢?
我最近了解了费舍尔组合p值的方法。这是基于该空下p值遵循均匀分布,并且该事实 ,我认为是天才。但是我的问题是为什么要走这种令人费解的方式?为什么不使用p值的均值并使用中心极限定理(这有什么问题)?或中位数?我试图了解RA费舍尔这个宏伟计划背后的天才。− 2 ∑我= 1ñ日志X一世〜χ2(2 n ), 给定 X〜UNIF (0 ,1 )−2∑i=1nlog⁡Xi∼χ2(2n), given X∼Unif(0,1)-2\sum_{i=1}^n{\log X_i} \sim \chi^2(2n), \text{ given } X \sim \text{Unif}(0,1)

5
为什么多重比较是一个问题?
我发现很难理解多重比较到底是什么问题。举个简单的比喻,可以说一个会做出很多决定的人会犯很多错误。因此,应采用非常保守的预防措施,例如Bonferroni校正,以使此人犯任何错误的可能性尽可能低。 但是,为什么我们要关心一个人在他/她所做的所有决定中是否犯了任何错误,而不是错误的决定所占的百分比? 让我尝试解释一下让我困惑的另一个类比。假设有两名法官,一名是60岁,另一名是20岁。然后Bonferroni更正告诉20岁的人在决定处决时要尽可能保守,因为他将担任法官工作很多年,将做出更多决定,因此他必须谨慎。但是,一个60岁的老人可能很快就会退休,做出的决定更少,因此与另一个老人相比,他可能会更加粗心。但实际上,无论他们做出的决定总数是多少,两位法官都应同样谨慎或保守。我认为这种类比或多或少地转化为应用Bonferroni校正的实际问题,我发现这与直觉相反。

5
“正相关性”的含义是使用常规方法进行FDR控制的条件
Benjamini和Hochberg开发了第一种(我认为仍是使用最广泛的方法)来控制错误发现率(FDR)。 我想从一堆P值开始,每个P值用于不同的比较,并确定哪些值足够低以至于被称为“发现”,从而将FDR控制为指定值(例如10%)。常用方法的一个假设是,这组比较是独立的或具有“正相关性”,但在分析一组P值的上下文中,我无法确切弄清楚该短语的含义。

3
线性回归中的显着矛盾:系数的显着t检验与总体F统计量的不显着
我正在4个类别变量(每个有4个级别)和一个数值输出之间拟合多元线性回归模型。我的数据集有43个观测值。 回归为每个斜率系数提供了检验的以下:。因此,第4个预测变量的系数在置信度下很重要。pppttt.15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02α=.05α=.05\alpha = .05 另一方面,从我所有斜率系数都为零的零假设的整体检验中,回归给出了值。对于我的数据集,此值为。pppFFFppp.11.11.11 我的问题:我应该如何解释这些结果?其中ppp我应该使用值,为什么?在α = 0.05的置信度下,第4个变量的系数是否与000显着不同?α=.05α=.05\alpha = .05 我已经看到了相关的问题,FFF和ttt的回归统计,但有相反的情况:高ttt -test ppp -值和低FFF -test ppp -值。老实说,我不太了解为什么除了t检验外还需要FFF检验,以了解线性回归系数是否显着不同于零。ttt

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

1
混合效果模型上的多重比较
我正在尝试使用混合效果模型分析一些数据。我收集的数据代表了一些不同基因型的年轻动物随时间的体重。 我正在使用此处提出的方法:https : //gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ 特别是我正在使用解决方案2 所以我有类似 require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, data=weights) av <- anova(model) 现在,我想进行一些比较。使用multcomp我可以做到: require(multcomp) comp.geno <- glht(model, linfct=mcp(Genotype="Tukey")) print(summary(comp.geno)) 而且,当然,我可以随着时间做同样的事情。 我有两个问题: 如何mcp查看时间与基因型之间的相互作用? 我跑步时glht收到以下警告: covariate interactions found -- default contrast might be inappropriate 这是什么意思?我可以放心地忽略它吗?还是应该避免这种情况? 编辑: 我发现此PDF指出: 由于在这种情况下不可能自动确定感兴趣的参数,因此默认情况下,multcomp中的mcp()将仅针对主要效果生成比较,而忽略协变量和交互作用。从版本1.1-2开始,可以指定对交互项进行平均,并分别使用参数interact_average = TRUE和covariate_average = TRUE进行协变量,而早于1.0-0的版本将对交互项进行自动平均。但是,我们建议用户手动编写所需的对比集。每当对默认的对比度量有疑问时,都应该这样做,这通常发生在具有更高阶交互项的模型中。关于这个问题的进一步讨论和例子,我们参考许(1996),第7章,和塞尔(1971),第7.3章。 我没有那些书,但是也许有人在吗?

5
数据“探索”与数据“监听” /“拷打”?
很多时候,我都遇到过非正式的警告,反对“数据​​监听”(这是一个有趣的例子),我认为我对这意味着什么以及为什么可能是一个问题有一个直观的认识。 另一方面,“探索性数据分析”似乎是统计学中一个非常受人尊敬的程序,至少从以下事实来看:具有该名称的书仍被经典地引用。 在我的工作中,我经常遇到看起来像猖like的“数据监听”,或者将其更好地描述为“数据折磨 ”,尽管这样做的人似乎将同一活动视为完全合理且毫无问题的“探索” ”。 这是典型的场景:进行了代价高昂的实验(对后续分析没有过多考虑),原始研究人员无法轻易辨别所收集数据中的“故事”,有人被邀请使用一些“统计巫术”,以及,在以各种方式对数据进行切片和切块之后,最终设法从中提取出一些可发布的“故事”。 当然,最终报告/论文中通常会抛出一些“验证”,以表明统计分析是不断进行的,但其背后公然的不惜一切代价发表的态度让我感到怀疑。 不幸的是,由于我对数据分析可做与不可做的有限理解,使我无法摆脱如此模糊的疑问,因此我的保守回应是基本上不理会这些发现。 我的希望是,不仅可以更好地理解探索与侦听/拷打之间的区别,而且更重要的是,更好地掌握检测越界线的原理和技术,将使我能够评估这些发现。这种方法可以合理地解释一个不太理想的分析过程,因此可以超越我目前对笼统怀疑的相当简单的想法。 编辑:谢谢大家非常有趣的评论和答案。从他们的内容来看,我认为我可能还没有很好地解释我的问题。我希望此更新可以澄清问题。 我在这里的问题不是那么重要,我应该怎么做才能避免折磨我的数据(尽管这也是一个令我感兴趣的问题),而是:我应该如何看待(或评估)我通过事实得出的结果这样的“数据折磨”。 在那些(非常罕见)的情况下,情况变得更加有趣,此外,在这些情况下,我还可以发表意见,然后再将其提交发表。 在这一点上,我最多只能说些类似的话:“鉴于我对获得这些假设和程序的了解,我不知道可以对这些发现给予多大的信任。” 这太模糊了,甚至不值得一说。 想要超越这种模糊性是我发帖的动机。 公平地说,我在这里的怀疑不仅仅基于看似有问题的统计方法。实际上,我认为后者更多是由更深层次的问题引起的:结合了对实验设计的勇敢态度以及对公布结果的坚定承诺(即无需任何进一步的实验)。当然,后续项目总是可以预见的,但是毫无疑问的是,不会从“装满100,000个样品的冰箱”中取出一张纸。 统计数据只是实现此最高目标的一种手段。锁定统计数据的唯一理由(在整个场景中是次要的)是,假设“不惜一切代价出版”的正面挑战根本没有意义。 实际上,在这种情况下,我只能想到一种有效的响应:提出一些统计测试(不需要额外的实验)来真正测试分析的质量。但是我只是没有统计数据。我的希望(回想起来很幼稚)是找出我可以研究的东西,使我能够进行此类测试。 在我撰写本文时,我突然意识到,如果不存在这样的数据,世界可以使用一个新的统计子分支,专门用于检测和公开“数据酷刑”的技术。(当然,我并不是说被“酷刑”隐喻迷住了:问题不是本质上的“数据酷刑”,而是它可能导致的虚假“发现”。)

6
二进制分类的变量选择过程
当变量/特征比学习集中的观察数多时,您更喜欢二进制分类的变量/特征选择是什么?这里的目的是讨论什么是可以最大程度减少分类错误的特征选择过程。 我们可以修复符号为:一致性,让从组是学习组观察的。因此是学习集的大小。我们将设置为要素数量(即要素空间的维)。令表示个坐标。{ X 我1,... ,X 我Ñ 我 } 我Ñ 0 + ñ 1 = Ñ p X [ 我] 我X ∈ [R pi∈{0,1}i∈{0,1}i \in \{0, 1\}{ x一世1个,… ,x一世ñ一世}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}一世iiñ0+ n1个= nn0+n1=nn_0 + n_1 = npppx [ i ]x[i]x[i]一世iiX ∈ řpx∈Rpx \in \mathbb{R}^p 如果您无法提供详细信息,请提供完整的参考。 编辑(不断更新):以下答案中提出的程序 贪婪的前向选择 二元分类的变量选择过程 向后消除 二进制分类的变量选择过程 Metropolis扫描/ MCMC …

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
使用置信区间时,我们是否应该应对多个比较调整?
假设我们有一个多重比较的场景,例如成对统计的事后推断,或者像多重回归,我们总共进行了mmm比较。还要假设,我们希望使用置信区间支持这些倍数的推理。 1.我们是否对配置项应用了多个比较调整?也就是说,正如多重比较强制的重新定义αα\alpha来无论是家庭明智的错误率(FWER)或假发现率(FDR),确实的含义信心(或信誉1,或不确定性,或预测或推断...选择您的间隔)是否会因多次比较而发生类似的变化?我意识到这里的否定答案将解决我剩下的问题。 2.是否存在从假设检验到区间估计的多个比较调整程序的直接转换?例如,将调整集中于改变CI-levelCI-level\text{CI-level}术语中的置信区间:CIθ=(θ^±t(1−CI-level)/2σ^θ)CIθ=(θ^±t(1−CI-level)/2σ^θ)\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta})? 3.我们将如何处理CI的升压或降压控制程序?从假设检验方法到推理的一些家庭式错误率调整是“静态的”,因为对每个单独的推断进行了完全相同的调整。例如,通过更改以下项的拒绝标准来进行Bonferroni调整: 拒绝如果p≤α2p≤α2p\le \frac{\alpha}{2}至: 拒绝如果p≤α2mp≤α2mp\le \frac{\frac{\alpha}{2}}{m}, 但是Holm-Bonferroni的升压调整不是“静态”的,而是通过以下方式进行的: 首先将ppp最小到最大排序,然后 拒绝如果p≤1−(1−α2)1m+1−ip≤1−(1−α2)1m+1−ip\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}},(其中,iii索引的顺序ppp-值),直到 我们无法拒绝无效假设,并且自动无法拒绝所有后续的无效假设。 因为CI不会发生拒绝/拒绝失败(更正式的说法,请参见下面的参考文献),这是否意味着逐步过程不会转换(即包括所有FDR方法)?在此我要说明的是,我并不是在问如何将CI转换为假设检验(以下引用的“视觉假设检验”文献的代表提到了这个不重要的问题)。 4. 括号中我在1中提到的其他间隔是什么? 1天哪,我当然希望我不会在这里使用这个词来惹恼那些甜美,甜美的贝叶斯风格。:) 参考文献 Afshartous,D.和Preston,R.(2010)。相依数据的置信区间:将具有统计意义的非重叠等同。计算统计与数据分析,54(10):2296-2305。 卡明,G。(2009)。肉眼推论:读取独立置信区间的重叠。医学统计学,28(2):205-220。 缅因州的佩顿,MH的Greenstone和北卡罗来纳州的Schenker(2003)。重叠置信区间或标准误差区间:就统计学意义而言,它们是什么意思?昆虫科学学报,3(34):1-6。 Tryon,WW和Lewis,C.(2008)。建立统计等价性的推论置信区间方法,用于校正Tryon(2001)的折减系数。心理方法,13(3):272–277。

1
比较R中发生GLM后的因素水平
以下是有关我的处境的一些背景信息:我的数据是指被捕食者成功吃掉的猎物的数量。由于每个试验中猎物的数量都是有限的(可用25个),因此我有一列“ Sample”代表可用猎物的数量(因此,每个试验中有25个),另外一个名为“ Count”的数字表示成功的数量(吃了多少猎物)。我的分析基于R书中有关比例数据的示例(第578页)。解释变量是温度(4个级别,我将其视为因素)和捕食者的性别(显然是雄性还是雌性)。所以我最终得到这个模型: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) 得出“偏差分析”表后,事实证明,温度和性别(但不存在相互作用)对猎物的消耗有显着影响。现在,我的问题是:我需要知道哪个温度不同,即,我必须将这四个温度相互比较。如果我有线性模型,则可以使用TukeyHSD函数,但由于使用的是GLM,所以不能。我一直在浏览MASS软件包,并尝试建立一个对比度矩阵,但是由于某种原因它不起作用。有什么建议或参考吗? 这是我从模型中获得的摘要,如果可以使它更清楚…… y <- cbind(data$Count, data$Sample-data$Count) model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) > summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

2
在小样本研究中如何应对探索性数据分析和数据挖掘?
探索性数据分析(EDA)通常会导致探索不一定属于初始假设集的其他“轨迹”。在样本量有限且通过不同问卷收集的大量数据的研究中,我会遇到这种情况(社会人口统计学数据,神经心理学或医学量表,例如,心理或身体机能,抑郁/焦虑水平,症状清单) )。EDA可能会突出显示一些意料之外的关系(“意料之外”,意味着它们未包含在初始分析计划中),这会转化为其他问题/假设。 与过拟合的情况一样,数据挖掘或监听确实会导致结果无法推广。但是,当有大量数据可用时,(对于研究人员或医师而言)很难假设一组有限的假设。 我想知道在小样本研究中是否有公认的方法,建议或经验法则可能有助于描述EDA。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.