模型选择:Logistic回归


13

假设我们有协变量和二进制结果变量。这些协变量中的一些属于多个级别。其他是连续的。您将如何选择“最佳”模型?换句话说,您如何选择要在模型中包含哪些协变量?x 1x n ynx1,,xny

您是否会使用简单的逻辑回归分别对每个协变量建模并选择具有显着关联的变量?y


1
除了我的回答如下(或其他人,如果他们出现),下面有选型的一些很好的讨论(尽管不是集中在回归本身)stats.stackexchange.com/questions/18214/...
呱-莫妮卡恢复

2
我将在该站点上最近的评论中引用@jthetzel:“一个好问题,但这里的大多数人都在为期一个学期的大学课程中学习,有的人花了很多时间从事研究工作。” 这就像和一个人坐下来说:“你今天下午可以教我斯瓦希里语吗?” 并不是说Gung的回答不好。这只是一块广阔的土地。
rolando2 2011年

2
这也是一个线程,尽管有一个非常具体的问题,但通常包含我的一些建议:stats.stackexchange.com/questions/17068 / ...在下面我还将给出我的想法。
Fomite

好的,我想我将使用AIC作为标准。完整型号的AIC最低。另外,AIC之间也有很大的不同。
Thomas

Answers:


10

这可能不是一件好事。首先查看所有个体协变量,然后使用有意义的变量构建模型在逻辑上等效于自动搜索过程。尽管此方法很直观,但从此过程得出的推论无效(例如,真实的p值与软件报告的p值不同)。初始协变量集的大小越大,问题就越大。如果您仍然这样做(不幸的是,很多人这样做),您将无法认真对待结果模型。相反,您必须运行一个全新的研究,收集一个独立的样本并拟合先前的模型来进行测试。但是,这需要大量资源,此外,由于该过程存在缺陷,并且以前的模型可能很差,浪费很多资源。

更好的方法是评估您感兴趣的模型。然后使用惩罚模型灵活性的信息准则(例如AIC)在这些模型之间进行裁决。对于逻辑回归,AIC为:

AIC=2×ln(likelihood)+2k

其中是该模型中包含的协变量的数量。您希望模型在所有条件相同的情况下具有最小的AIC值。但是,它并不总是那么简单。当几种模型的AIC值相似时,请保持警惕,即使其中一种模型可能最低。 k

我在此处包括AIC的完整公式,因为不同的软件输出不同的信息。您可能只需要根据可能性进行计算,或者可以获得最终的AIC,或者介于两者之间。


6
我喜欢AIC,但要注意,在2个以上预先指定的模型上计算AIC会导致多重性问题。
Frank Harrell

1
@FrankHarrell小贴士!
gung-恢复莫妮卡

9

很多方法可以选择回归模型中要使用的变量,有些方法不错,有些不好,有些很糟糕。可以简单地浏览Sander Greenland的出版物,其中许多涉及变量选择。

一般来说,我有一些共同的“规则”:

  • 像软件包中的算法一样,自动化算法可能不是一个好主意。
  • 使用模型诊断技术(例如gung建议)是评估变量选择选择的好方法
  • 您还应该结合使用主题专业知识,文献搜索器,有向无环图等,来告知您的变量选择选择。

3
正确地说,尤其是第1点和第3点。模型诊断技术可能会导致无法保存I型错误。
Frank Harrell

3
好吧@Epigrad。我想补充一点。当问题变大时,自动化算法将变得非常有吸引力。在某些情况下,它们可能是进行模型选择的唯一可行方法。人们现在正在分析具有数千个潜在变量和数百万个观测值的巨大数据集。在1000维直觉上,主题的专业知识如何?而且您会发现,即使您手动(即与分析员一起进行),他们也可能最终会创建一些选择变量的捷径。困难的部分实际上是编码这些选择。
概率

1
@probabilityislogic我同意这一点。老实说,我认为传统技术不太适合于非常大的数据集,但是回落到更易于接受的技术的趋势使我感到震惊。如果自动化算法可以对具有10个变量的数据集进行偏倚,则没有理由不能对具有10,000个变量的数据集进行偏倚。在某些方面,当前对大数据的获取的重视超过对大数据的分析,这使我有些措手不及。
Fomite

2
@probabilityislogic颇具讽刺意味的是,我现在发现自己使用的数据集的潜在变量远远超过1000的10s>。<
Fomite

2

您将如何选择“最佳”模型?

没有足够的信息来回答这个问题。如果您想对y产生因果关系,则需要实现回归,以反映已知的混杂现象。如果您想进行预测,AIC将是一种合理的方法。

这些方法是不一样的。上下文将确定选择变量的(多种)方式中哪种/哪种较为合适。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.