什么时候可以使用基于数据的条件来指定回归模型?


20

我听说,当许多回归模型规范(例如,在OLS中)被认为是数据集的可能性时,会引起多个比较问题,并且p值和置信区间不再可靠。一个极端的例子是逐步回归。

什么时候可以使用数据本身来帮助指定模型,什么时候这不是有效的方法?您是否始终需要基于主题的理论来形成模型?

Answers:


9

通常,变量选择技术(无论是逐步,向后,向前,所有子集,AIC等)都利用样本数据中总体中不存在的机会或随机模式。这个技术术语过拟合,尽管不是专用于小型数据集,但它尤其成问题。通过使用基于最佳拟合选择变量的过程,看起来像适合此特定样本的所有随机变化都会导致估计值和标准误差。这两个都是问题模型的预测和解释。

具体来说,r平方太高,参数估计值有偏差(距离0太远),参数的标准误差太小(因此p值和参数周围的间隔太小/太窄)。

应对这些问题的最佳方法是周到地构建模型,并包括基于理论,逻辑和先前知识有意义的预测变量。如果需要变量选择程序,则应选择一种通过调整参数和标准误差以补偿过度拟合来惩罚参数估计值的方法(收缩方法)。一些常见的收缩方法是脊回归,最小角度回归或套索。此外,使用训练数据集和测试数据集或模型平均进行交叉验证对于测试或减少过度拟合的影响可能很有用。

Harrell是详细讨论这些问题的好地方。 哈雷尔(2001)。“回归建模策略”。


接受,很久以后!感谢您对技术问题的详细介绍,我将看一下Harrell的书。
Statisfactions 2011年

7

在我来自的社会科学环境中,问题是您是否对(a)预测或(b)测试重点研究问题感兴趣。如果目的是预测,那么数据驱动的方法是合适的。如果目的是研究重点研究问题,那么重要的是考虑哪种回归模型专门测试您的问题。

例如,如果您的任务是选择一组选择测试来预测工作绩效,则从某种意义上讲,该目标可以被视为最大化对工作绩效的预测之一。因此,数据驱动的方法将是有用的。

相反,如果您想了解人格变量和能力变量在影响绩效中的相对作用,则使用特定的模型比较方法可能更合适。

通常,在探索重点研究问题时,其目的是阐明一些潜在的因果过程,而不是开发具有最佳预测的模型。

当我基于横截面数据开发有关过程的模型时,我会警惕:(a)包括理论上可以认为是结果变量后果的预测变量。例如,一个人认为自己表现出色,可以很好地预测工作绩效,但这很可能至少部分是由于他们观察了自己的绩效而造成的。(b)包含大量均能反映同一潜在现象的预测变量。例如,包括20个项目,这些项目均以不同方式衡量对生活的满意度。

因此,重点研究问题更多地取决于领域特定的知识。这大概可以解释为什么在社会科学中较少使用数据驱动的方法。


4

我认为不可能进行Bonferoni或类似的修正来调整回归中的变量选择,因为模型选择中涉及的所有测试和步骤都不是独立的。

一种方法是使用一组数据来制定模型,然后对另一组数据进行推断。这是在始终预测有训练集和测试集的情况下完成的。它在其他领域不是很常见,可能是因为数据如此珍贵,以至于我们希望将每个观察值都用于模型选择和推理。但是,正如您在问题中指出的那样,不利之处在于,推论实际上是一种误导。

在许多情况下,由于没有完善的理论,基于理论的方法是不可能的。实际上,我认为这比理论建议模型的情况更为普遍。


4

理查德·伯克(Richard Berk)在最近的一篇文章中通过仿真演示了这种数据监听和统计推断的问题。正如罗伯(Rob)所建议的那样,这比简单地校正多个假设检验要困难得多。

选择模型后的统计推断 作者:理查德·伯克(Richard Berk),劳伦斯·布朗(Lawrence Brown),琳达·赵(Linda Zhao)。26,No. 2(2010年6月1日),第217-236页。

此处为 PDF版本


(+1)感谢您的链接!您可能对这个相关问题stats.stackexchange.com/questions/3200/…感兴趣。随时贡献。
chl 2010年

@chl,我认为我无法为该问题的本来很好的答案添加任何内容。我实际上认为Brendan的回答非常刻薄,因为我怀疑原始发布者确实对因果推理非常感兴趣,而不仅仅是基于问题上下文的预测。
安迪W

是的,我在想他的答案。我已经开始反思数据挖掘问题(不完全是关于模型/变量选择问题或因果推断的问题),但到目前为止收到的回应很少。如果您要添加自己的想法,这将是有趣:stats.stackexchange.com/questions/3252/...
CHL

2

如果我对您的问题理解正确,那么对您的问题的答案就是根据假设的数量更正p值。

例如Holm-Bonferoni校正,您可以根据假设的p值对假设(=不同的模型)进行排序,而拒绝那些具有ap samller大于(期望的p值/指数)的假设。

有关该主题的更多信息,请参见Wikipedia。


1
你可能想这个答案读给一个单独的问题,看看为什么以这样的方式调整p值可能不是最好的解决办法,stats.stackexchange.com/questions/3200/...
安迪·w ^
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.