假设您是一名社会科学研究员/计量经济学家,试图找到有关服务需求的相关预测因子。您有2个描述需求的结果/因变量(使用服务“是/否”和次数)。您有10个预测变量/独立变量,可以从理论上解释需求(例如,年龄,性别,收入,价格,种族等)。运行两个单独的多元回归将得出20个系数估计及其p值。如果回归中有足够的自变量,您迟早会发现至少一个在因变量和自变量之间具有统计显着相关性的变量。
我的问题是:如果我想在回归中包括所有自变量,则为多个测试校正p值是一个好主意吗?非常感谢对以前工作的任何引用。
假设您是一名社会科学研究员/计量经济学家,试图找到有关服务需求的相关预测因子。您有2个描述需求的结果/因变量(使用服务“是/否”和次数)。您有10个预测变量/独立变量,可以从理论上解释需求(例如,年龄,性别,收入,价格,种族等)。运行两个单独的多元回归将得出20个系数估计及其p值。如果回归中有足够的自变量,您迟早会发现至少一个在因变量和自变量之间具有统计显着相关性的变量。
我的问题是:如果我想在回归中包括所有自变量,则为多个测试校正p值是一个好主意吗?非常感谢对以前工作的任何引用。
Answers:
看来您的问题更笼统地解决了确定良好预测变量的问题。在这种情况下,您应该考虑使用某种惩罚式回归(也涉及变量或特征选择的方法),例如L1,L2(或其组合,即所谓的Elasticnet)惩罚(在这个网站,或R 惩罚性和Elasticnet软件包,等等。
现在,关于校正回归系数(或等价的部分相关系数)的p值以防止过度乐观(例如,使用Bonferroni或更好的降压方法),看来这仅在您考虑使用时才有意义一个模型,然后寻找那些对解释的方差有重要影响的预测变量,也就是说,如果您不执行模型选择(逐步选择或分层测试)。本文可能是一个好的开始:回归系数测试中的Bonferroni调整。请注意,这种校正不会保护您免受多重共线性问题的影响,因为多重共线性问题会影响报告的p值。
根据您的数据,我建议您使用某种迭代模型选择技术。例如,在R中,该stepAIC
功能允许通过精确的AIC执行逐步模型选择。您还可以使用boostrap 根据预测变量对的贡献来估计预测变量的相对重要性(请参阅relaimpo软件包)。我认为,报告效应量度或解释方差的百分比比p值更具信息意义,尤其是在验证模型中。
应该注意的是,逐步方法也有其缺点(例如,Wald检验不适用于由逐步过程引起的条件假设),或者如R邮件中的Frank Harrell所指出的那样,“基于AIC的逐步变量选择具有所有优点。基于P值的逐步变量选择问题。AIC只是对P值的重述”(但如果已经定义了一组预测变量,则AIC仍然有用);一个相关的问题- 变量在线性回归模型中是否重要?-提出了有关使用AIC进行变量选择的有趣评论(@Rob等)。我在末尾附加了一些参考资料(包括@Stephan所提供的论文)); 在P.Mean上还有很多其他参考。
弗兰克·哈雷尔(Frank Harrell)撰写了有关回归建模策略的书,其中包含有关此问题的大量讨论和建议(第4.3节,第56-60页)。他还开发了有效的R例程来处理广义线性模型(请参阅Design或rms软件包)。因此,我认为您一定要看看它(他的讲义可在他的主页上找到)。
参考文献
step.adj()
R someMTP软件包。在很大程度上,您可以做任何您想做的事情,前提是您可以随机保留足够的数据,以根据保留的数据测试您想出的任何模型。50%的分配比例可能是个好主意。是的,您失去了发现关系的能力,但是您获得的却是巨大的。即,在作品发布之前复制作品的能力。无论您采用何种复杂的统计技术,当应用于确认数据时,有多少“重要的”预测变量最终完全没有用,您会感到震惊。
同样要记住,预测的“相关性”不仅仅意味着低p值。毕竟,这仅意味着在此特定数据集中找到的关系可能并非偶然。为了进行预测,实际上更重要的是找到对预测有重大影响的变量(不过度拟合模型);也就是说,要找到可能是“真实”的变量,并且当它们在合理的值范围内变化(不仅是样本中可能出现的值!)时,会使预测值发生明显变化。当您拥有用于确认模型的保留数据时,可以更轻松地临时保留可能没有低p值的边际“重要”变量。
出于这些原因(并基于chl的正确答案),尽管我发现逐步模型,AIC比较和Bonferroni校正非常有用(尤其是在使用成百上千个可能的预测变量的情况下),但这些变量不应该是变量的唯一决定因素输入您的模型。也不要忽略理论所提供的指导:也要保留具有强烈理论依据的变量,即使它们不重要,通常也要保留在模型中,只要它们不会产生病态方程(例如共线性) 。
注意:确定模型并通过保留数据确认其有用性后,可以将保留的数据与保留数据重新组合以进行最终估计。因此,就可以估算模型系数的精度而言,没有任何损失。
我认为这是一个很好的问题。它成为争议性多重测试“问题”的核心,这个问题困扰着从流行病学到计量经济学的各个领域。毕竟,如何能我们知道,如果我们发现的意义是虚假的或不?我们的多变量模型有多真实?
就抵消发布噪声变量的可能性的技术方法而言,我衷心地同意“威伯”的观点,即将样本的一部分用作训练数据,而将其余样本用作测试数据是个好主意。这是一种在技术文献中得到讨论的方法,因此,如果您花时间,则可能会找到一些有关何时以及如何使用它的良好指南。
但是,为了更直接地涉及多重测试的原理,建议您阅读下面引用的文章,其中一些文章支持这样的立场,即针对多重测试进行的调整通常是有害的(代价高昂),是不必要的,甚至可能是逻辑上的谬误。对于一个人,我不会自动接受这样的说法,即我们对一个潜在预测变量的研究能力由于对另一个潜在预测变量的研究而不可避免地降低。该家庭明智的 1型错误率可能会增加,因为我们包括给定的模型更预测,但只要我们不超越我们的样本大小,1型错误的每个概率的极限个人预测变量是常数;而针对家庭错误的控制并不能说明哪个特定变量是噪声,哪个不是。当然,也有令人信服的反驳。
因此,只要将潜在变量列表限制为合理的变量(即已知的结果途径),那么伪造的风险就已经得到了很好的处理。
但是,我要补充一点,预测模型并不像因果模型那样关注其预测变量的“真值” 。模型中可能会有很多混淆,但是只要我们解释了很大程度的差异,我们就不会太在意。至少从某种意义上讲,这使工作变得容易。
干杯,
布伦登(Brenden),生物统计学顾问
PS:您可能想对所描述的数据进行零膨胀的Poisson回归,而不是两个单独的回归。
这里有很好的答案。让我添加一些其他地方看不到的小问题。
首先,您的响应变量的本质是什么?更具体地说,它们被理解为彼此相关吗?如果将它们理解为独立的(理论上)/如果两个模型的残差是独立的(凭经验),则仅应进行两个单独的多元回归。否则,您应该考虑多元回归。(“ Multivariate”表示> 1响应变量;“ multiple”表示> 1预测变量。)