逻辑回归的样本量?


26

我想从调查数据中建立一个物流模型。这是对四个住宅殖民地的小规模调查,仅对154名受访者进行了采访。我的因变量是“令人满意的工作过渡”。我发现,在154位受访者中,有73位表示他们已经令人满意地过渡到工作,而其余的则没有。因此,因变量本质上是二进制的,因此我决定使用逻辑回归。我有七个独立变量(三个连续变量和四个名义变量)。一项指南建议,每个预测变量/自变量应有10个案例(Agresti,2007年)。根据该指南,我认为可以进行逻辑回归。

我对吗?如果没有,请让我知道如何确定自变量的数量?


3
我从来没有真正理解过“每个预测变量都有10个案例”的经验法则(不幸的是,我无法使用Agresti撰写的书)。我的意思是:如果我有100个主题,其中10个是个案(1“ 个案”),而90个非个案(0“ 个案”),则规则说“仅包括1个预测变量”。但是,如果我对0而不是进行建模1,然后取估计的优势比的倒数怎么办?我可以包括9个预测变量吗?这对我来说毫无意义。
boscovich 2012年

亲爱的安德里亚,我说的是你的意思。在154名受访者中,有73例(1例,其余0例)。您能否对我的问题有所了解。谢谢!
Braj-Stat 2012年

4
在一篇评论中,我读到,必须查看事件和非事件的最少数量。因此,在10/100的示例中,无论如何编码,最终都会得到一个预测变量。
psj 2012年

@psj听起来很合理。你有参考吗?
boscovich 2012年

1
这里有一个相关的讨论:逻辑回归的最小观察数
gung-恢复莫妮卡

Answers:


25

这里有几个问题。

通常,我们要确定最小样本量,以使统计功效达到最低可接受水平。所需的样本量是几个因素的函数,主要是您希望能够与0区分的效果的大小(或您正在使用的任何null,但最常见的是0),以及捕获该效果的最小概率想要有。从这个角度出发,样本量是通过功效分析确定的。

另一个考虑因素是模型的稳定性(如@cbeleites所述)。基本上,作为估计数据的数量参数的比率变得接近1,您的模型将变得饱和,并且将一定过度拟合(除非有,实际上,在系统中没有随机性)。从1到10的经验法则就是从这个角度出发的。请注意,拥有足够的力量通常可以为您解决此问题,反之亦然。

1到10的规则来自线性回归世界,重要的是要认识到逻辑回归还具有其他复杂性。一个问题是,当1和0的百分比大约为50%/ 50%时(如@andrea和@psj在上面的评论中讨论),逻辑回归最有效。另一个要关注的问题是分离。也就是说,您不希望所有1都聚集在一个自变量的一个极端值(或它们的某种组合)上,而所有0都聚集在另一个极端值上。尽管这似乎是一个好情况,但是因为它可以使完美的预测变得容易,但实际上会使参数估计过程变得异常复杂。(@Scortchi在这里就如何处理逻辑回归中的分离问题进行了精彩的讨论:Logistic回归中如何处理完美分离?)使用更多的IV,即使效果的真实幅度保持恒定,尤其是在您的响应不平衡的情况下,这种可能性也更大。因此,每个IV您可以轻松地需要10个以上的数据。

该经验法则的最后一个问题是,它假定您的IV是正交的。这对于设计实验是合理的,但是对于您这样的观察性研究,您的IV几乎永远不会正交。有应对这种情况的策略(例如,合并或删除IV,首先进行主成分分析等),但是,如果不解决(这是常见的),则将需要更多数据。

那么,一个合理的问题是,最小N应该是多少,和/或样本量是否足够?为了解决这个问题,我建议您使用@cbeleites讨论的方法。仅仅依靠1到10的规则是不够的。


6
您可以为“一个问题是,当1和0的百分比大约为50%/ 50%时,逻辑回归最有效”的陈述提供参考吗?我一直在想这个问题,因为我的数据集与50/50相距甚远,我想知道其中的含义。(对不起,请重新启动线程)
Trevor 2013年

3
在合适的情况下,@ Trevor我看不到有任何问题可以恢复旧线程。我认为您正在寻找的是通过共轭先验得出的一个很好的答案:在进行物流回归时,样品会不平衡吗?
gung-恢复莫妮卡

2
+1特雷弗(Trevor)的问题。我认为,逻辑回归将继续受益于新数据,即使该数据属于同一情况(尽管收益递减)。实际上,这让我对诸如随机森林之类的机器学习技术感到困扰-它们会通过添加更多相关的训练数据而变得更糟。如果失衡变得太严重,也许在某个时候逻辑上的回归会由于数值上的考虑而崩溃。有兴趣了解更多有关此的信息。
Ben Ogorek

+1,也许我不确定您的回答是否暗示了这一点,但我想知道这对具有不同级别的分类变量如何起作用?建议每个级别有10个观察值吗?
baxx

1
这是拇指,@baxx的规则,但没错,做多只是估算的百分比,你至少需要45
呱-恢复莫妮卡


14

通常,案例很少。模型复杂度(参数数量)意味着模型不稳定。因此,如果您想知道样本大小/模型复杂性是否可以,请检查是否获得了合理稳定的模型。

至少有两种不同的不稳定类型:

  1. 模型参数有很大的差异,在训练数据只有轻微的改变。

  2. 训练数据略有变化的训练模型的预测(对于同一情况)差异很大。

您可以通过查看1.如果训练数据受到轻微干扰,模型系数变化多少来进行测量。可以在引导程序或(迭代)交叉验证过程中计算出合适的一堆模型。

对于某些类型的模型或问题,变化的参数并不意味着变化的预测。您可以直接检查不稳定性2.通过查看在引导外验证或迭代交叉验证期间计算出的相同案例(无论它们是否正确)的预测变化。


5

没有严格的规则,但是可以包含所有自变量,只要标称变量没有太多类别即可。除每个名义变量的类之一外,您都需要一个“ beta”。因此,如果名义变量被称为“工作区域”,而您有30个区域,那么您将需要29个beta。

克服此问题的一种方法是使beta正规化-或对大系数进行惩罚。这有助于确保您的模型不会过度拟合数据。L2和L1正则化是流行的选择。

要考虑的另一个问题是样本的代表性。您要推断什么人群?样本中是否存在所有不同类型的人?如果样本中有“漏洞”(例如样本中没有35至50岁的女性或没有高收入工人等),则很难做出准确的推断。


4

这是MedCalc网站user41466写道的实际答案

http://www.medcalc.org/manual/logistic_regression.php

样本量注意事项

用于逻辑回归的样本量计算是一个复杂的问题,但是基于Peduzzi等人的工作。(1996年)可以建议以下指南,以将最少病例纳入您的研究。假设p是总体中阴性或阳性病例中最小的比例,k是协变量的数量(自变量的数量),则要包含的最小病例数是:N = 10 k / p例如:模型中包含3个协变量,阳性病例在人群中的比例为0.20(20%)。所需的最小个案数为N = 10 x 3 / 0.20 = 150如果结果数小于100,则应按照Long(1997)的建议将其增加到100。

Peduzzi P,Concato J,Kemper E,Holford TR,Feinstein AR(1996)在逻辑回归分析中每个变量的事件数量的模拟研究。临床流行病学杂志49:1373-1379。


因此,每个自变量(带下限)都
等于

1

任何逻辑模型的结果(每个独立变量的观察数至少为5到9)都是可靠的,尤其是如果结果具有统计学意义(Vittinghoff&McCulloch,2007)。

Vittinghoff,E。和&McCulloch,CE,2007年。在logistic和Cox回归中放宽每个变量十个事件的规则。美国流行病学杂志,165(6):710–718。


请注意,所讨论的并不是严格意义上的“每个独立变量的观察次数”,而是“事件”的数目。对于逻辑回归,“事件”的数量是两个结果类别中频率最低的案例数。这将不大于总观测次数的1/2,并且在某些应用程序中将大大低于此数目。
EdM
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.