假设我们有协变量和二进制结果变量。这些协变量中的一些属于多个级别。其他是连续的。您将如何选择“最佳”模型?换句话说,您如何选择要在模型中包含哪些协变量?x 1,… ,x n y
您是否会使用简单的逻辑回归分别对每个协变量建模并选择具有显着关联的变量?
假设我们有协变量和二进制结果变量。这些协变量中的一些属于多个级别。其他是连续的。您将如何选择“最佳”模型?换句话说,您如何选择要在模型中包含哪些协变量?x 1,… ,x n y
您是否会使用简单的逻辑回归分别对每个协变量建模并选择具有显着关联的变量?
Answers:
这可能不是一件好事。首先查看所有个体协变量,然后使用有意义的变量构建模型在逻辑上等效于自动搜索过程。尽管此方法很直观,但从此过程得出的推论无效(例如,真实的p值与软件报告的p值不同)。初始协变量集的大小越大,问题就越大。如果您仍然这样做(不幸的是,很多人这样做),您将无法认真对待结果模型。相反,您必须运行一个全新的研究,收集一个独立的样本并拟合先前的模型来进行测试。但是,这需要大量资源,此外,由于该过程存在缺陷,并且以前的模型可能很差,浪费很多资源。
更好的方法是评估您感兴趣的模型。然后使用惩罚模型灵活性的信息准则(例如AIC)在这些模型之间进行裁决。对于逻辑回归,AIC为:
其中是该模型中包含的协变量的数量。您希望模型在所有条件相同的情况下具有最小的AIC值。但是,它并不总是那么简单。当几种模型的AIC值相似时,请保持警惕,即使其中一种模型可能最低。
我在此处包括AIC的完整公式,因为不同的软件输出不同的信息。您可能只需要根据可能性进行计算,或者可以获得最终的AIC,或者介于两者之间。
有很多方法可以选择回归模型中要使用的变量,有些方法不错,有些不好,有些很糟糕。可以简单地浏览Sander Greenland的出版物,其中许多涉及变量选择。
一般来说,我有一些共同的“规则”: