我想从调查数据中建立一个物流模型。这是对四个住宅殖民地的小规模调查,仅对154名受访者进行了采访。我的因变量是“令人满意的工作过渡”。我发现,在154位受访者中,有73位表示他们已经令人满意地过渡到工作,而其余的则没有。因此,因变量本质上是二进制的,因此我决定使用逻辑回归。我有七个独立变量(三个连续变量和四个名义变量)。一项指南建议,每个预测变量/自变量应有10个案例(Agresti,2007年)。根据该指南,我认为可以进行逻辑回归。
我对吗?如果没有,请让我知道如何确定自变量的数量?
我想从调查数据中建立一个物流模型。这是对四个住宅殖民地的小规模调查,仅对154名受访者进行了采访。我的因变量是“令人满意的工作过渡”。我发现,在154位受访者中,有73位表示他们已经令人满意地过渡到工作,而其余的则没有。因此,因变量本质上是二进制的,因此我决定使用逻辑回归。我有七个独立变量(三个连续变量和四个名义变量)。一项指南建议,每个预测变量/自变量应有10个案例(Agresti,2007年)。根据该指南,我认为可以进行逻辑回归。
我对吗?如果没有,请让我知道如何确定自变量的数量?
Answers:
这里有几个问题。
通常,我们要确定最小样本量,以使统计功效达到最低可接受水平。所需的样本量是几个因素的函数,主要是您希望能够与0区分的效果的大小(或您正在使用的任何null,但最常见的是0),以及捕获该效果的最小概率想要有。从这个角度出发,样本量是通过功效分析确定的。
另一个考虑因素是模型的稳定性(如@cbeleites所述)。基本上,作为估计数据的数量参数的比率变得接近1,您的模型将变得饱和,并且将一定是过度拟合(除非有,实际上,在系统中没有随机性)。从1到10的经验法则就是从这个角度出发的。请注意,拥有足够的力量通常可以为您解决此问题,反之亦然。
1到10的规则来自线性回归世界,重要的是要认识到逻辑回归还具有其他复杂性。一个问题是,当1和0的百分比大约为50%/ 50%时(如@andrea和@psj在上面的评论中讨论),逻辑回归最有效。另一个要关注的问题是分离。也就是说,您不希望所有1都聚集在一个自变量的一个极端值(或它们的某种组合)上,而所有0都聚集在另一个极端值上。尽管这似乎是一个好情况,但是因为它可以使完美的预测变得容易,但实际上会使参数估计过程变得异常复杂。(@Scortchi在这里就如何处理逻辑回归中的分离问题进行了精彩的讨论:Logistic回归中如何处理完美分离?)使用更多的IV,即使效果的真实幅度保持恒定,尤其是在您的响应不平衡的情况下,这种可能性也更大。因此,每个IV您可以轻松地需要10个以上的数据。
该经验法则的最后一个问题是,它假定您的IV是正交的。这对于设计实验是合理的,但是对于您这样的观察性研究,您的IV几乎永远不会正交。有应对这种情况的策略(例如,合并或删除IV,首先进行主成分分析等),但是,如果不解决(这是常见的),则将需要更多数据。
那么,一个合理的问题是,最小N应该是多少,和/或样本量是否足够?为了解决这个问题,我建议您使用@cbeleites讨论的方法。仅仅依靠1到10的规则是不够的。
我通常使用15:1规则(最小(事件,非事件)与模型中候选参数的比率)。 最近的工作发现,对于更严格的验证,需要20:1。在http://biostat.mc.vanderbilt.edu/rms链接的我的课程讲义中,可以找到更多信息,尤其是一个用于估计最小截距的最小样本量为96的参数。但是样本数量要求更加细微,最近的一篇论文更全面地解决了这一问题。
通常,案例很少。模型复杂度(参数数量)意味着模型不稳定。因此,如果您想知道样本大小/模型复杂性是否可以,请检查是否获得了合理稳定的模型。
至少有两种不同的不稳定类型:
该模型参数有很大的差异,在训练数据只有轻微的改变。
训练数据略有变化的训练模型的预测(对于同一情况)差异很大。
您可以通过查看1.如果训练数据受到轻微干扰,模型系数变化多少来进行测量。可以在引导程序或(迭代)交叉验证过程中计算出合适的一堆模型。
对于某些类型的模型或问题,变化的参数并不意味着变化的预测。您可以直接检查不稳定性2.通过查看在引导外验证或迭代交叉验证期间计算出的相同案例(无论它们是否正确)的预测变化。
这是MedCalc网站user41466写道的实际答案
http://www.medcalc.org/manual/logistic_regression.php
样本量注意事项
用于逻辑回归的样本量计算是一个复杂的问题,但是基于Peduzzi等人的工作。(1996年)可以建议以下指南,以将最少病例纳入您的研究。假设p是总体中阴性或阳性病例中最小的比例,k是协变量的数量(自变量的数量),则要包含的最小病例数是:N = 10 k / p例如:模型中包含3个协变量,阳性病例在人群中的比例为0.20(20%)。所需的最小个案数为N = 10 x 3 / 0.20 = 150如果结果数小于100,则应按照Long(1997)的建议将其增加到100。
Peduzzi P,Concato J,Kemper E,Holford TR,Feinstein AR(1996)在逻辑回归分析中每个变量的事件数量的模拟研究。临床流行病学杂志49:1373-1379。
1
“ 个案”),而90个非个案(0
“ 个案”),则规则说“仅包括1个预测变量”。但是,如果我对0
而不是进行建模1
,然后取估计的优势比的倒数怎么办?我可以包括9个预测变量吗?这对我来说毫无意义。