在多元回归中为多个比较调整p值是一个好主意吗?


54

假设您是一名社会科学研究员/计量经济学家,试图找到有关服务需求的相关预测因子。您有2个描述需求的结果/因变量(使用服务“是/否”和次数)。您有10个预测变量/独立变量,可以从理论上解释需求(例如,年龄,性别,收入,价格,种族等)。运行两个单独的多元回归将得出20个系数估计及其p值。如果回归中有足够的自变量,您迟早会发现至少一个在因变量和自变量之间具有统计显着相关性的变量。

我的问题是:如果我想在回归中包括所有自变量,则为多个测试校正p值是一个好主意吗?非常感谢对以前工作的任何引用。


嗯...一个有趣的问题-具有一个连续变量和一个二分变量的双变量回归。通常的MVN回归理论说,对两个双变量正态响应中的每一个分别进行回归-然后将结果拼接在一起-是正确的分析-从高斯-马可夫意义上讲,是要在所有无偏线性估计量中最小化回归估计量的vc矩阵-并且在MVN情况下,在所有无偏估计量中]。当一种回归是逻辑回归时,“分离回归”仍然是最好的选择吗?[在这种情况下,无偏见似乎有些
牵强

Answers:


48

看来您的问题更笼统地解决了确定良好预测变量的问题。在这种情况下,您应该考虑使用某种惩罚式回归(也涉及变量或特征选择的方法),例如L1,L2(或其组合,即所谓的Elasticnet)惩罚(在这个网站,或R 惩罚性Elasticnet软件包,等等。

现在,关于校正回归系数(或等价的部分相关系数)的p值以防止过度乐观(例如,使用Bonferroni或更好的降压方法),看来这仅在您考虑使用时才有意义一个模型,然后寻找那些对解释的方差有重要影响的预测变量,也就是说,如果您不执行模型选择(逐步选择或分层测试)。本文可能是一个好的开始:回归系数测试中的Bonferroni调整。请注意,这种校正不会保护您免受多重共线性问题的影响,因为多重共线性问题会影响报告的p值。

根据您的数据,我建议您使用某种迭代模型选择技术。例如,在R中,该stepAIC功能允许通过精确的AIC执行逐步模型选择。您还可以使用boostrap 根据预测变量对的贡献来估计预测变量的相对重要性(请参阅relaimpo软件包)。我认为,报告效应量度或解释方差的百分比比p值更具信息意义,尤其是在验证模型中。R2

应该注意的是,逐步方法也有其缺点(例如,Wald检验不适用于由逐步过程引起的条件假设),或者如R邮件中的Frank Harrell所指出的那样,“基于AIC的逐步变量选择具有所有优点。基于P值的逐步变量选择问题。AIC只是对P值的重述”(但如果已经定义了一组预测变量,则AIC仍然有用);一个相关的问题- 变量在线性回归模型中是否重要?-提出了有关使用AIC进行变量选择的有趣评论(@Rob等)。我在末尾附加了一些参考资料(包括@Stephan所提供的论文)); 在P.Mean上还有很多其他参考。

弗兰克·哈雷尔(Frank Harrell)撰写了有关回归建模策略的书,其中包含有关此问题的大量讨论和建议(第4.3节,第56-60页)。他还开发了有效的R例程来处理广义线性模型(请参阅Designrms软件包)。因此,我认为您一定要看看它(他的讲义可在他的主页上找到)。

参考文献

  1. Whittingham,MJ,Stephens,P,Bradbury,RB和Freckleton,RP(2006)。为什么我们仍然在生态和行为中使用逐步建模? 杂志动物生态学75,1182-1189。
  2. 奥斯汀,PC(2008)。与反向变量消除相比,自举模型选择在选择真实变量和噪声变量方面具有相似的性能:一项仿真研究临床流行病学杂志61(10),1009-1017。
  3. 奥斯汀,PC和涂,合资(2004年)。用于logistic回归的自动变量选择方法产生了预测急性心肌梗死死亡率的不稳定模型临床流行病学57,1138年至1146年。
  4. 格陵兰,S(1994)。多重流行病学分析的层次回归法《环境健康展望》102(增刊8),33-39。
  5. 格陵兰,S(2008)。流行病学中的多重比较和关联选择国际流行病学杂志37(3),430-434。
  6. Beyene,J,Atenafu,EG,Hamid,JS,To,T和Sung L(2009)。确定变量在开发和验证预测模型中的相对重要性BMC医学研究方法9,64。
  7. Bursac,Z,Gauss,CH,Williams,DK和Hosmer,DW(2008)。在Logistic回归中有目的地选择变量源代码生物学和医学3,17。
  8. C.Brombin,L.Finos和L.Salmaso(2007)。在广义线性模型中调整逐步p值国际多重比较程序会议。-请参阅step.adj()R someMTP软件包。
  9. 韦根,稀土(2010)。用多个逐步算法进行变量选择的性能医学统计学,29(15),1647–1659。
  10. Moons KG,Donders AR,Steyerberg EW和Harrell FE(2004年)。惩罚最大似然估计以预测二进制结果。临床流行病学杂志57(12),1262-1270。
  11. Tibshirani,R(1996)。通过套索进行回归收缩和选择皇家统计学会杂志B58(1),267–288。
  12. Efron,B,Hastie,T,Johnstone,I和Tibshirani,R(2004)。最小角度回归统计年鉴32(2),407-499。
  13. Flom,PL和Cassell,DL(2007)。分步停止:为什么分步和类似的选择方法不好,以及应使用什么NESUG 2007会议录
  14. ES,Shtatland,Ca。E.和MB,Barton(2001)。逐步Logistic回归的风险,以及如何使用信息准则和输出交付系统逃避它们SUGI 26议事录(第222–226页)。

10
我不介意投反对票,但是请多多指教(这样我可以学习自己,了解问题所在并改进我的未来回应)。
chl

3
+1,很好的回答,还赞同chl的评论,即留下解释性投票的解释,以帮助作者和读者理解可能缺少的内容。谢谢。
ars

我第二次建议chl使用某种惩罚性回归(例如Lasso)。
S. Kolassa-恢复莫妮卡2010年

10
@chl:我不建议逐步选择预测变量。通常,这是基于p值(“排除p> .15的预测变量,如果p <.05则包括该变量”),并导致估算值有偏差且预测性能不佳(Whittingham等人,2006年,为什么我们仍然在生态学和行为学中使用逐步建模法(J Anim Ecol,75,1182-1189)。但是,基于AIC的逐步方法也有相同的弱点-Frank Harrell在R-help于2010年8月9日星期一16:34:19 -0500(CDT)上的帖子中讨论了此问题,主题为“ R中的逻辑回归(SAS-例如输出)”。
S. Kolassa-恢复莫妮卡2010年

有没有办法在评论中包含链接?
S. Kolassa-恢复莫妮卡

25

在很大程度上,您可以做任何您想做的事情,前提是您可以随机保留足够的数据,以根据保留的数据测试您想出的任何模型。50%的分配比例可能是个好主意。是的,您失去了发现关系的能力,但是您获得的却是巨大的。即,在作品发布之前复制作品能力。无论您采用何种复杂的统计技术,当应用于确认数据时,有多少“重要的”预测变量最终完全没有用,您会感到震惊。

同样要记住,预测的“相关性”不仅仅意味着低p值。毕竟,这仅意味着在此特定数据集中找到的关系可能并非偶然。为了进行预测,实际上更重要的是找到对预测有重大影响的变量(不过度拟合模型);也就是说,要找到可能是“真实”的变量,并且当它们在合理的值范围内变化(不仅是样本中可能出现的值!)时,会使预测值发生明显变化。当您拥有用于确认模型的保留数据时,可以更轻松地临时保留可能没有低p值的边际“重要”变量。

出于这些原因(并基于chl的正确答案),尽管我发现逐步模型,AIC比较和Bonferroni校正非常有用(尤其是在使用成百上千个可能的预测变量的情况下),但这些变量不应该是变量的唯一决定因素输入您的模型。也不要忽略理论所提供的指导:也要保留具有强烈理论依据的变量,即使它们不重要,通常也要保留在模型中,只要它们不会产生病态方程(例如共线性) 。

注意:确定模型并通过保留数据确认其有用性后,可以将保留的数据与保留数据重新组合以进行最终估计。因此,就可以估算模型系数的精度而言,没有任何损失。


谢谢!如果您不能访问原始数据,而只能访问一张回归系数表,那么Bonferroni调整是您唯一的选择吗?
Mikael M

4
大概您也有p值:-)。但是只有这些和系数,很难想象除了Bonferroni调整之外还有其他方法。(在阅读具有多种测试的任何论文时,我总是会做出这样的调整:这是一种找出可能是垃圾的结果的快速方法。)大多数人还提供了变量的摘要统计信息:您可以将range或sds与用来估计每个解释变量对预测和影响的系数。
ub

谢谢您的解释,特别是。在交叉验证中。我感谢您的最后一个论点,即我们还必须寻找理论上的相关性(超越p值)。
chl 2010年

19

我认为这是一个很好的问题。它成为争议性多重测试“问题”的核心,这个问题困扰着从流行病学到计量经济学的各个领域。毕竟,如何我们知道,如果我们发现的意义是虚假的或不?我们的多变量模型有多真实?

就抵消发布噪声变量的可能性的技术方法而言,我衷心地同意“威伯”的观点,即将样本的一部分用作训练数据,而将其余样本用作测试数据是个好主意。这是一种在技术文献中得到讨论的方法,因此,如果您花时间,则可能会找到一些有关何时以及如何使用它的良好指南。

但是,为了更直接地涉及多重测试的原理,建议您阅读下面引用的文章,其中一些文章支持这样的立场,即针对多重测试进行的调整通常是有害的(代价高昂),是不必要的,甚至可能是逻辑上的谬误。对于一个人,我不会自动接受这样的说法,即我们对一个潜在预测变量的研究能力由于对另一个潜在预测变量的研究而不可避免地降低。该家庭明智的 1型错误率可能会增加,因为我们包括给定的模型更预测,但只要我们不超越我们的样本大小,1型错误的每个概率的极限个人预测变量是常数;而针对家庭错误的控制并不能说明哪个特定变量是噪声,哪个不是。当然,也有令人信服的反驳。

因此,只要将潜在变量列表限制为合理的变量(即已知的结果途径),那么伪造的风险就已经得到了很好的处理。

但是,我要补充一点,预测模型并不像因果模型那样关注其预测变量的“真值” 。模型中可能会有很多混淆,但是只要我们解释了很大程度的差异,我们就不会太在意。至少从某种意义上讲,这使工作变得容易。

干杯,

布伦登(Brenden),生物统计学顾问

PS:您可能想对所描述的数据进行零膨胀的Poisson回归,而不是两个单独的回归。

  1. 电视Perneger,Bonferroni调整有什么问题BMJ 1998;316:1236
  2. Cook,RJ和Farewell,VT 在临床试验设计和分析中的多重考虑因素皇家统计学会杂志, 1996年A系列;卷 159,No.1:93-110
  3. Rothman,KJ 多重比较无需调整流行病学 1990;卷 1,1号:43-46
  4. 马歇尔,JR 数据挖掘和关注度流行病学 1990;卷 1号1:5-7
  5. 格陵兰S.罗宾斯JM 对多个比较进行经验贝叶斯调整有时会有用流行病学 1991;卷 2,2号:244-251

续:2.在临床试验的设计和分析中,请考虑RJ和告别VT多重性考虑因素。皇家统计学会杂志,A系列,1996年;卷 159,第1号:93-110
布伦登

布伦登(Brenden),谢谢您的评论,尤其是关于预测与因果解释的最后一篇。欢迎来到该网站!我希望将来能有更多的贡献。
Whuber

续:3. Rothman KJ多次比较无需调整。流行病学1990;卷 1,No. 1:43-46 4. Marshall JR数据挖掘和关注度。流行病学1990;卷 1,No. 1:5-7 5.格陵兰S.和罗宾斯JM对多个比较进行的经验贝叶斯调整有时会有用。流行病学1991;卷 2,No. 4:244-251
Brenden

(+1)您可能对以下线程感兴趣:stats.stackexchange.com/questions/3252/…。看来我们有很多共同点:-)
chl

6

这里有很好的答案。让我添加一些其他地方看不到的小问题。

首先,您的响应变量的本质是什么?更具体地说,它们被理解为彼此相关吗?如果将它们理解为独立的(理论上)/如果两个模型的残差是独立的(凭经验),则仅应进行两个单独的多元回归。否则,您应该考虑多元回归。(“ Multivariate”表示> 1响应变量;“ multiple”表示> 1预测变量。)

F


0

您可以执行看似无关的回归并使用F检验。将您的数据以如下形式放置:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

这样,当您的第一个结果的预测变量是y变量,而第一个结果的预测变量具有其值,否则为0,反之亦然。因此,您的y是两个结果的列表。P11和P12是第一个结果的两个预测因子,P21和P22是第二个结果的两个预测因子。如果说性别是两种结果的预测因子,则预测结果2时,其用于预测结果1的用途应放在单独的变量/列中。这样一来,您的回归对于每种结果的性别都有不同的斜率/影响。

在此框架中,您可以使用标准的F测试程序。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.