我很了解回归模型中逐步/向前/向后选择的问题。有许多研究人员谴责这些方法并指出更好的选择。我很好奇是否存在任何统计分析的故事:
- 使用逐步回归;
- 根据最终模型得出了一些重要结论
- 结论是错误的,对个人,研究或组织产生负面影响
我的想法是,如果逐步方法不好,那么使用它们在“现实世界”中应该会有后果。
我很了解回归模型中逐步/向前/向后选择的问题。有许多研究人员谴责这些方法并指出更好的选择。我很好奇是否存在任何统计分析的故事:
我的想法是,如果逐步方法不好,那么使用它们在“现实世界”中应该会有后果。
Answers:
有多个问题要问。最狭窄的一个例子是,问一个例子,说明逐步回归是在逐步进行的情况下何时造成危害的。这当然是正确的,但只有在也发布了用于逐步回归的数据并且有人对其进行重新分析并发布具有已发表的主要作者撤稿的同行评议的更正后,才能明确地确定。在任何其他情况下提出指控都可能导致法律诉讼,如果我们使用其他数据集,我们可能会怀疑犯了一个错误,但是“统计数据永远无法证明任何事情”,我们将无法确定错误是制作; “超出合理的怀疑范围”。
实际上,根据是否逐步消除或逐步建立回归方程,人们经常会得到不同的结果,这向我们表明,两种方法都不足以正确地推荐其用法。显然,还有其他事情正在发生,这使我们提出了一个更广泛的问题,上面也有问过,但以项目符号的形式表示:“逐步回归到底有什么问题?这是更有用的问题,需要回答。附加的好处是,我不会因提起诉讼而对我提起诉讼。
正确执行逐步MLR,意味着使用1)物理上正确的单位(请参见下文),以及 2)适当的变量转换以获得最佳的相关性和错误分布类型(对于同质性和物理性),以及 3)使用变量组合的所有排列,而不是逐步进行所有操作,以及 4)如果执行详尽的回归诊断,则可以避免遗漏高VIF(共线性)变量组合,否则这些组合会产生误导,那么回报将是更好的回归。
按照上面#1的承诺,我们接下来将探索物理系统的正确单位。由于回归的良好结果取决于对变量的正确处理,因此我们需要注意物理单位的通常尺寸,并适当地平衡我们的方程式。同样,对于生物学应用,需要了解并考虑异速结垢的尺寸。