逐步回归引起的咆哮


20

我很了解回归模型中逐步/向前/向后选择的问题。有许多研究人员谴责这些方法并指出更好的选择。我很好奇是否存在任何统计分析的故事:

  • 使用逐步回归;
  • 根据最终模型得出了一些重要结论
  • 结论是错误的,对个人,研究或组织产生负面影响

我的想法是,如果逐步方法不好,那么使用它们在“现实世界”中应该会有后果。


2
如果您找不到任何这样的故事,那可能是因为逐步回归主要用于基础研究中(或者我认为如此)。只要没有伪造数据或其他东西,基础研究人员通常就不会因犯错而惹上麻烦。
Kodiologist '16

3
它在行业和教室中使用很多。在研究中,作者可能不会透露他们使用了它。在该行业中,主要的两个原因是:a)从事该行业的人员没有接受过研究方面的培训,例如拥有大学学位,或者b)几十年前毕业。
阿克萨卡尔邦

@Aksakal不学习开始,但反正要弄羊皮是问题,而不是花费的时间。免费提供示例,我。我参加了大约1971年的一次统计课程,并在2006
卡尔

Answers:


1

有多个问题要问。最狭窄的一个例子是,问一个例子,说明逐步回归是在逐步进行的情况下何时造成危害的。这当然是正确的,但只有在也发布了用于逐步回归的数据并且有人对其进行重新分析并发布具有已发表的主要作者撤稿的同行评议的更正后,才能明确地确定。在任何其他情况下提出指控都可能导致法律诉讼,如果我们使用其他数据集,我们可能会怀疑犯了一个错误,但是“统计数据永远无法证明任何事情”,我们将无法确定错误是制作; “超出合理的怀疑范围”。

实际上,根据是否逐步消除或逐步建立回归方程,人们经常会得到不同的结果,这向我们表明,两种方法都不足以正确地推荐其用法。显然,还有其他事情正在发生,这使我们提出了一个更广泛的问题,上面也有问过,但以项目符号的形式表示:“逐步回归到底有什么问题?这是更有用的问题,需要回答。附加的好处是,我不会因提起诉讼而对我提起诉讼。

正确执行逐步MLR,意味着使用1)物理上正确的单位(请参见下文),以及 2)适当的变量转换以获得最佳的相关性和错误分布类型(对于同质性和物理性),以及 3)使用变量组合的所有排列,而不是逐步进行所有操作以及 4)如果执行详尽的回归诊断,则可以避免遗漏高VIF(共线性)变量组合,否则这些组合会产生误导,那么回报将是更好的回归。

按照上面#1的承诺,我们接下来将探索物理系统的正确单位。由于回归的良好结果取决于对变量的正确处理,因此我们需要注意物理单位的通常尺寸,并适当地平衡我们的方程式。同样,对于生物学应用,需要了解并考虑异速结垢的尺寸。

GFR=kW1/4V2/3GFRW1=1443+23GFR


2
这似乎是在总体上描述回归问题,而不是具体地逐步回归。
偶然统计师

2
是的,这些是一般要考虑的回归方面。但是,如果我正确地理解了问题的根源,那么逐步回归的动机通常是指责使用LASSO之类的方法,而这种方法无法解决您在此处提出的问题。
意外统计师

4
感谢您的坦率和在这件事上的善意,卡尔。我不会否认投票存在问题。我知道更改帖子投票的唯一有效方法是更改​​答案-在技术上进行改进,在此基础上进行扩展或以不同的方式传达想法-即便如此,也无法保证它将获得期望的答复(甚至根本没有任何回应!)。有时,为了解降级者而付出的努力将获得信息,以帮助每个人赞赏(并增选)此类改善职位的努力。
ub

3
@Carl我认为,如果您需要定期投票,那么要做的第一件事就是考虑如何改善您的帖子(并且经常在他们的意见下提出改进建议)。就我自己而言,即使我不同意评论员,事实证明,他们经常会提出问题,无论如何都会带来更好的答案。我要说的是,我经常注意到您的答案存在问题,这些问题几乎会让我自己反对。如果有时间,我会尝试发表评论。
Glen_b-恢复莫妮卡

3
请注意,逐步回归的许多问题-例如估算值偏离0的问题,标准误差偏离0的问题,名义I型错误率远低于实际值,并且所有子集仍然存在其他各种问题- -实际上,几乎所有形式的优化都是一个问题(Frank Harrell的回归建模策略的第4章是有用的参考)。收缩/正则化可以缓解其中的一些问题(尤其是选择趋向于使估计偏向外部的趋势),而样本外评估是其中许多问题的重要工具。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.